【深度學習之美】“機器學習”三重門，“中庸之道”趨若人（入門系列之四）

更多深度文章，請關注雲計算頻道：https://yq.aliyun.com/cloud

系列文章：

<a href="https://yq.aliyun.com/articles/86580">一入侯門“深”似海，深度學習深幾許（深度學習入門系列之一）</a>

<a href="https://yq.aliyun.com/articles/88300">人工“碳”索意猶盡，智能“矽”來未可知（深度學習入門系列之二）</a>

<a href="https://yq.aliyun.com/articles/90565">神經網絡不勝語，m-p模型似可尋（深度學習入門系列之三）</a>

--------------------------------

在前一個小節中，我們簡單地談了談什麼是“m-p神經元模型”，順便用生活中生動的小案例，把激活函數和卷積函數的概念撸了一遍。下筆之處，盡顯“神經”。當然這裡所謂的“神經”，是說我們把不同領域的知識，以天馬行空地方式，揉和在一起，協同提升認知水準。其實，這不也正是深度學習的前沿方向之一——“遷移學習（multi-task and transfer

learning）”要幹的事情嗎？

下面，我們繼續“神經”下去，首先聊聊機器學習的三大分支，然後以“中庸之道”來看機器學習的發展方向。

在我們小時候，大概都學習過《三字經》，其中有句“性相近，習相遠。”說的就是，“人們生下來的時候，性情都差不多，但由于後天的學習環境不一樣，性情也就有了千差萬别。”

其實，這句話用在機器學習領域，上面的論述也是大緻适用的。機器學習的學習對象是資料，資料是否有标簽，就是機器學習所處的“環境”，“環境”不一樣，其表現出來的“性情”也有所不同，大緻可分為三類：

（1）監督學習（supervised learning）:用資料挖掘大家韓家炜（jiawei han）老師的觀點來說，監督學習基本上就是“分類（classification）”的代名詞[1]。它從有标簽的訓練資料中學習，然後給定某個新資料，預測它的标簽（given data, predict labels）。這裡的标簽（label），其實就是某個事物的分類。

圖4-1 監督學習

比如說，小時候父母告訴我們某個動物是貓、是狗或是豬，然後我們的大腦裡就會形成或貓或狗或豬的印象，然後面前來了一條“新”小狗，如果你能叫出來“這是一條小狗”，那麼恭喜你，你的标簽分類成功！但如果你說“這是一頭小豬”。這時你的監護人就會糾正你的偏差，“乖，不對呦，這是一頭小狗”，這樣一來二去的訓練，就不斷更新你的大腦認知體系，聰明如你，下次再遇到這類新的“貓、狗、豬”等，你就會天才般的給出正确“預測”分類（如圖1所示）。簡單來說，監督學習的工作，就是通過有标簽的資料訓練，獲得一個模型，然後通過建構的模型，給新資料添加上特定的标簽。

事實上，整個機器學習的目标，都是使學習得到的模型，能很好地适用于“新樣本”，而不是僅僅在訓練樣本上工作得很好。通過訓練得到的模型，适用于新樣本的能力，稱之為“泛化（generalization）能力”。

（2）非監督學習（unsupervised learning）：與監督學習相反的是，非監督學習所處的學習環境，都是非标簽的資料。韓老師接着說，非監督學習，本質上，就是“聚類（cluster）”的近義詞。

圖4-2 非監督學習

簡單來說，給定資料，從資料中學，能學到什麼，就看資料本身具備什麼特性了（given data, learn about

that data）。我們常說的“物以類聚，人以群分”說得就是“非監督學習”。這裡的“類”也好，“群”也罷，事先我們是不知道的。一旦我們歸納出“類”或“群”的特征，如果再要來一個新資料，我們就根據它距離哪個“類”或“群”較近，就“預測”它屬于哪個“類”或“群”，進而完成新資料的“分類”或“分群”功能。

（3）半監督學習（semi-supervised learning）：這類學習方式，既用到了标簽資料，又用到了非标簽資料。有句罵人的話，說某個人“有媽生，沒媽教”，抛開這句話罵人的含義，其實它說的是“無監督學習”。但我們絕大多數人，不僅“有媽生，有媽教”，還“有國小教，有中學教，有大學教”，“有人教”，這就是說，有人告訴我們事物的對與錯（即對事物打了标簽），然後我們可據此改善自己的性情，慢慢把自己調教得更有“教養”，這自然就屬于“監督學習”。但總有那麼一天我們要長大。而長大的标志之一，就是自立。何謂“自立”？就是遠離父母、走出校園後，沒有人告訴你對與錯，一切都要基于自己早期已擷取的知識為基礎，從社會中學習，擴大并更新自己的認知體系，然後遇到新事物時，我們能“泰然自若”處理，而非茫然“六神無主”。

從這個角度來看，現代人類成長學習的最佳方式，當屬“半監督學習”！它既不是純粹的“監督學習”（因為如果完全是這樣，就會扼殺我們的創造力，我們的認知體系也就永遠不可能超越我們的父輩和師輩）。但我們也不屬于完全的“非監督學習”（因為如果完全這樣，我們會如“無根之浮萍”，會花很多時間“重造輪子”。前人的思考，我們的階梯，這話沒毛病！）。

那麼到底什麼是“半監督學習”呢？下面我們給出它的形式化定義：

給定一個來自某未知分布的有标記示例集l={(x1, y1), (x2,

y2), ..., (xl, yl)}，其中xi是資料，yi是标簽。對于一個未标記示例集u = {xl+1, x l+1, ... , xl+u}，l<<u，于是，我們期望學得函數 f:x→y 可以準确地對未辨別的資料xi預測其标記yi。這裡均為d維向量, yi∈y為示例xi的标記。

圖4-3 半監督學習

形式化的定義比較抽象，下面我們列舉一個現實生活中的例子，來輔助說明這個概念。假設我們已經學習到：

(1) 馬曉雲同學（資料1）是個牛逼的人（标簽：牛逼的人）

(2) 馬曉騰同學（資料2）是個牛逼的人（标簽：牛逼的人）

(3) 假設我們并不知道李曉宏同學（資料3）是誰，也不知道他牛逼不牛逼，但考慮他經常和二馬同學共同出沒于高規格大會，都經常會被達官貴人接見（也就是說他們雖獨立，但同分布），我們很容易根據“物以類聚，人以群分”的思想，把李曉宏同學打上标簽：他也是一個很牛逼的人！

這樣一來，我們的已知領域（标簽資料）就擴大了（由兩個擴大到三個！），這也就完成了半監督學習。事實上，半監督學習就是以“已知之認知（标簽化的分類資訊）”，擴大“未知之領域（通過聚類思想将未知事物歸類為已知事物）”。但這裡隐含了一個基本假設——“聚類假設（cluster assumption）”，其核心要義就是：“相似的樣本，擁有相似的輸出”。

事實上，我們對半監督學習的現實需求，是非常強烈的。其原因很簡單，就是因為人們能收集到的标簽資料非常有限，而手工标記資料需要耗費大量的人力物力成本，但非标簽資料卻大量存在且觸手可及，這個現象在網際網路資料中更為凸顯，是以，“半監督學習”就顯得尤為重要性[2]。

人類的知識，其實都是這樣，以“半監督”的滾雪球的模式，越擴越大。“半監督學習”既用到了“監督學習”，也吸納了“非監督學習”的優點，二者兼顧。

如此一來，“半監督學習”就有點類似于我們中華文化的“中庸之道”了。

的确如此嗎？下面我們就聊聊機器學習的“中庸之道”。

說到“中庸之道”，很多人立馬想到的就是“平庸之道”，把它的含義了解為“不偏不倚、不上不下、不左不右、不前不後”。其實，這是一個很大的誤解！

據吳伯凡先生介紹[3]，“中”最早其實是一個器具，它看上去像一個槌子，為了拿起友善，就用搖桿穿越其中，即為“中”。

這個“中”可不得了，它非常重要，且隻有少數人才能使用。那都是誰來用呢？答案就是古代的軍事指揮官。在“鐵馬金戈風沙騰”的戰場上，軍旗飄飄，唯有一人高高站在戰車上，手握其“中”，其他将士都視其“中”而進退有方（見圖4-4第二行第一字），而手握其“中”的人，稱之為“史”（見圖4-4第一行第一字）。是以現在你知道了吧，其實“史”最早的本意，就是手握指揮大權的“大官”。

圖4-4 中庸之道，蘊意為何？

再後來，“中”就有各種各樣的引申含義。在中原地帶的人，在他們的語言裡頭到現在還保留一些古代遺風，比如說河南人說“對”或者“是”的時候，他說的是“中（zhóng）”，當他們說“中（zhóng）”的時候，就表示事情是正确的，是可行的。

其實，“中”還有一個讀音叫“中（zhòng）”，比如說成語裡就有“正中下懷”、“百發百中”等，這時“中（zhòng）”的含義就是恰到好處，不偏離原則，堅守關鍵點。

下面再來說說“庸”。“庸”的上半部是“庚”，“庚”同音于“更”，即“變化”之意。而“庸”的下半部是“用”，“用”之本意為“變化中的不變”，即為“常”。在程式設計語言中，我們常說“常量”，說的就是不變化的量。是以，“庸”的最佳解釋應該是“富有彈性的堅定”。

那麼“中庸”放在一起是什麼意思呢？那就是告訴我們“在變化中保持不變”。其中，所謂“變化”，就是我們所處的環境變化多端，是以我們也需要“随機應變，伺機而動”。而所謂“不變”就是要我們“守住底線，中心原則不變”。二者在一起，“中庸之道”就是要告訴我們要在靈活性（變）和原則性（不變）之間，保持一個最佳的平衡。

那說了半天，這“中庸之道”和機器學習有啥關系呢？其實這就是一個方法論問題。“監督學習”，就是告訴你“正誤之道”，即有“不變”之原則。而“非監督學習”，就有點“随心所欲，變化多端”，不易收斂，很易“無根”，“不用臨池更相笑，最無根蒂是浮萍。”

那“中庸之道”的機器學習應該是怎樣的呢？自然就是“半監督學習”，做有彈性的堅定學習。這裡的“堅定”自然就是“監督學習”，而“有彈性”自然就是“非監督學習”。

“有彈性”的變化，不是簡單的加加減減，而是要求導數（變化），而且還可能是導數的導數（變化中的變化）。隻有這樣，我們才能達到學習最本質的需求——性能的提升。在機器學習中，我們不正是以提高性能為原則，用梯度（導數）遞減的方式來完成的嗎？

是以，你看看，我們老祖先的方法論，其實是很牛逼的。隻不過是曆時太久遠了，其寶貴的内涵，被時間的塵埃蒙蔽了而已。

現在，我們經常提“文化自信”，哈哈，你看我這個例子算不算一個？

在本小節中，我們主要回顧了機器學習的三種主要形式：監督學習、非監督學習和半監督學習。它們之間核心差別在于是否（部分）使用了标簽資料。

然後我們又從老祖先的“中庸之道”，談了談機器學習的發展方向，不管是從人類自己的學習方式，還是“中庸之道”核心本質，“半監督學習”一定是未來機器學習的大趨勢。

我們這樣說是有依據的，因為人工智能的最高标準，不正是要模拟學習人類的智能嗎？而人類就是通過“半監督學習”擷取最妙、最高的智能啊，是以你有什麼理由不相信“機器學習（包括深度學習）”不是朝着這個方向發展的呢？

不管你信不信，反正我是信了！

好了，就此打住吧！在下一個小節中，我們真的該聊聊具體的神經網絡學習算法了。我們知道，“人之初，性本善”，那麼“神經”之初，又是什麼呢，自然就是“感覺機”了。在下一小節，我們就非常務實地聊聊“感覺機”的學習算法（并附上源代碼），它可是一切神經網絡學習（包括深度學習）的基礎，請你關注！

通過上面的學習，請你思考如下問題：

(1) 深度學習算法既有監督學習模式的，也有非監督學習模式的？它有沒有半監督學習模式的？如果有，請你分别列舉一二？

(2) 阿爾法狗再次“咬傷”了人類的最佳棋手柯潔，不出意外地再次“震驚世人”，有人說阿爾法狗是深度學習的典範之作？僅僅如此嗎？除了深度學習之外,它還結合使用了什麼技術？

(3) 中國古代的銅錢，也展現有“中庸之道”，你知道是什麼嗎？

寫下你的感悟，祝你每天都有收獲！

[1] han j. data mining: concepts and techniques[m].

morgan kaufmann publishers inc. 2005.

[2] 周志華.機器學習.北京：清華大學出版社.2016.1

[3]吳伯凡.中庸之美.得到.2017.2

審校：我是主題曲哥哥。

（未完待續）

<a href="https://yq.aliyun.com/articles/93540" target="_blank">hello world感覺機，懂你我心才安息(深度學習入門系列之五)</a>

<a href="https://yq.aliyun.com/articles/96427" target="_blank">損失函數減肥用，神經網絡調權重（深度學習入門系列之六）</a>

<a href="https://yq.aliyun.com/articles/105339" target="_blank">山重水複疑無路，最快下降問梯度（深度學習入門系列之七）</a>

<a href="https://yq.aliyun.com/articles/110025" target="_blank">bp算法雙向傳，鍊式求導最纏綿（深度學習入門系列之八）</a>

<a href="https://yq.aliyun.com/articles/152935" target="_blank">全面連接配接困何處，卷積網絡見解深（深度學習入門系列之九）</a>

<a href="https://yq.aliyun.com/articles/156269" target="_blank">卷地風來忽吹散，積得飄零美如畫（深度學習入門系列之十）</a>

<a href="https://yq.aliyun.com/articles/159710" target="_blank">局部連接配接來減參，權值共享肩并肩（深度學習入門系列之十一）</a>

<a href="https://yq.aliyun.com/articles/167391" target="_blank">激活引入非線性，池化預防過拟合（深度學習入門系列之十二）</a>

<a href="https://yq.aliyun.com/articles/169880" target="_blank">循環遞歸rnn，序列模組化套路深（深度學習入門系列之十三）</a>

<a href="https://yq.aliyun.com/articles/174256" target="_blank">lstm長短記，長序依賴可追憶（深度學習入門系列之十四）</a>

【深度學習之美】“機器學習”三重門，“中庸之道”趨若人（入門系列之四）

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希