機器學習
概念:
- 機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特别是如何在經驗學習中改善具體算法的性能。
- 機器學習是對能通過經驗自動改進的計算機算法的研究。
-
機器學習是用資料或以往的經驗,以此優化計算機程式的性能标準。
(官方語言來自***)
簡單了解就是通過讓機器學習相關算法,擁有預測的能力,然後做出相關操作。機器學習的本質就是通過給機器資料,讓機器在資料中尋找相關關系
人工智能相關概念圖解
簡單的了解人工智能包括了機器學習算法、搜尋算法等,深度學習又是機器學習的一種延伸。
資料
資料集:一種由資料所組成的集合,一般資料含有集有特征與标簽,每一行的資料表示為一個樣本,每一列的資料(除最後一列外)表示為一個特征,最後一列的資料表示為标簽。在具體的算法中資料集包括訓練集與測試集。利用資料集可視化可以生産特征空間,根據特征的次元可以生産高維的特征空間。
流程
通用流程:
學習資料-->機器學習算法-->模型-->輸入樣例-->輸出結果
預測結果:
分類
分類、回歸
- 根據機器學習的流程來選擇兩類任務
- 分類:當希望機器學習可以預測類别的時候
- 常見的分類方式:二分類、多分類
- 回歸:希望機器學習可以預測連續數字的值
- 可以将回歸任務簡化為分類任務
- 分類:當希望機器學習可以預測類别的時候
有無監督:
監督學習、非監督學習、半監督學習、增強學習
- 監督學習:給機器的訓練資料擁有标記
- 常見的監督學習:K近鄰(KNN)、線性回歸、多項式回歸、邏輯回歸、SVM、決策樹、随機森林
- 非監督學習:給機器的訓練資料沒有任何“标記”
- 常見的非監督學習:聚類分析、對資料進行降維處理,資料集的特征提取提取
- 半監督學習:給機器的訓練資料一部分資料有标記,另一部分沒有
- 造成資料缺失的原因:各種原因産生的樣本或者标記缺失
- 半監督學習在平時比較常見,大多都需要我們在處理資料,再交給機器進行學習
- 增強學習:根據周五的環境采取行動,根據采取行動的結果,學習行動方式
- 以監督學習和半監督學習為基礎
學習環境:
批量學習、線上學習
- 批量學習:在訓練模型時,一次性的把所有樣本全部輸入
- 優點:簡單,寫好一個算法就不更改與完善
- 缺點:不能适應環境的變化、想适應變化需要重新批量學習
- 線上學習:在訓練模型時,每輸入一個樣本都會計算下誤差,調整一下參數
- 優點:及時反映新的環境變化
- 缺點:新的資料可能帶來的不良變化
學習方式:
參數學習、非參數學習
- 參數學習:基于資料,假設關系,找到關系參數
- 特點:通過資料集學習,學習到參數,當學習到參數時,就不再需要原有資料集
- 非參數學習:不對模型進行過多假設
- 注意:非參數不等于沒參數