目前課程的小結|筆記
不知不覺已經算是”開學“的第五周了,機器學習這門課已經過半,對模式識别和機器學習有了初步和整體的認識(就是知道它主要是在做什麼)。
名詞解釋
模式識别:對表征事物或現象的各種形式的資訊進行處理和分析,進而達到對事物或現象進行描述、辨認、分類和解釋的目的。
機器學習:機器從已知的經驗資料(樣本)中,通過某種特定的方法(算法),自己去尋找提煉(訓練/學習)出一些規律(模型);提煉出的規律就可以用來判斷一些未知的事情(預測)。
舉個例子
模式識别:人類見到一個東西之後,通常就會下意識地給其歸類:是動物還是植物,屬于哪一門綱目屬科,是否可以藥用,有果實嗎,花朵是否漂亮,是否有毒……這一大串歸類構成了人們對于這種事物的整體認知。這就屬于人類對于模式的識别,這種技能對于人們甚至是一些動物來說,是非常簡單而且幾乎是與生俱來的。
機器學習:,機器通過一百萬個單身狗的樣本,總結出了單身狗所具有的一些屬性。當下次再給一個樣本時,機器就可以很快判斷出這個樣本究竟是不是單身狗。(🐕)
學習過程
基于距離的分類器
基本概念
- 定義:把測試樣本到每個類之間的距離作為決策模型,将測試樣本判定為與其距離最近的類。
- 兩個問題:1.類的原型問題:如何計算單個向量到多個向量的距離問題。2.距離度量問題:計算測試樣本到類的何種距離。
類的原型:1.均值。2.最近鄰
距離的度量:1. 歐式距離 2.曼哈頓距離 3.權重歐式距離
MED分類器
- 基于歐氏距離的分類器。
- 類的原型:均值
- 特點:易導緻分類錯誤,一般不直接用歐式距離進行分類
MICD分類器
- 基于馬氏距離的分類器
- 特點:消除了特征間的相關性并使特征具有相同方差,提高分類準确度,但易選擇方差較大的類。
MAP分類器
- 基于後驗機率的分類器
- 選擇後驗機率最大的類,等于最小化平均機率誤差,即最小化機率誤差。
貝葉斯分類器
- 在MAP分類器基礎上,加入決策風險因素,得到貝葉斯分類器
- 給定所有測試樣本,貝葉斯分類器的決策目标:最小化期望損失
- 對每個樣本均歸類于其決策風險最小的類别,可使損失期望之和最小化
參數估計方法
最大似然估計
- 求 θ使得似然函數最大
- 可對函數求一階導數為0,得到極大值點,即函數最大值
貝葉斯估計
- 相對于似然估計,貝葉斯估計将 θ當作了随機變量
- 具備不斷學習的能力,随着訓練樣本的不斷增加,可以串行地不斷修正參數的估計值,進而不斷逼近參數的期望真值。
機器學習等人工智能領域的前沿技術介紹、展望、應用
自動化機器學習(AutoML)
近年來,在深度學習領域裡,出現了一種「新式學習法」,很多人視它改變了設計複雜的深度學習網絡,把看似高不可攀的深度學習,「拉」到了人人觸手可及的程度。這個新方式,就是 AutoML。
2017 年 5 月,谷歌在 I/O 大會上釋出了 AutoML,他們将 AutoML 應用到了深度學習的圖像識别和語言模組化的兩大資料集中,他們提供的 Cloud AutoML 和 Google NAS 算法結合,把完整的機器學習工作做成了雲端産品,使用者隻需要提供資料,Cloud AutoML 将自動建構深度學習模型。
傳統的AI模型訓練往往要經曆特征分析、模型選擇、調參、評估等步驟,這些步驟需要經曆數月的時間,如果完全沒經驗,時間會更長。AutoML雖然也需要經曆這些步驟,但是通過自動化的方式,可以減少這些步驟的時間。(雖然友善了許多,但是必然在較為複雜的情況下,不如人為分析好,我認為AutioML隻能進行簡單的機器學習,至少在短期内是這樣的)