天天看點

機器學習從入門到放棄(1)

機器學習

概念:

  • 機器學習是一門人工智能的科學,該領域的主要研究對象是人工智能,特别是如何在經驗學習中改善具體算法的性能。
  • 機器學習是對能通過經驗自動改進的計算機算法的研究。
  • 機器學習是用資料或以往的經驗,以此優化計算機程式的性能标準。

    (官方語言來自***)

    簡單了解就是通過讓機器學習相關算法,擁有預測的能力,然後做出相關操作。機器學習的本質就是通過給機器資料,讓機器在資料中尋找相關關系

人工智能相關概念圖解

簡單的了解人工智能包括了機器學習算法、搜尋算法等,深度學習又是機器學習的一種延伸。

資料

資料集:一種由資料所組成的集合,一般資料含有集有特征與标簽,每一行的資料表示為一個樣本,每一列的資料(除最後一列外)表示為一個特征,最後一列的資料表示為标簽。在具體的算法中資料集包括訓練集與測試集。利用資料集可視化可以生産特征空間,根據特征的次元可以生産高維的特征空間。

流程

通用流程:

學習資料-->機器學習算法-->模型-->輸入樣例-->輸出結果

預測結果:

分類

分類、回歸

  • 根據機器學習的流程來選擇兩類任務
    • 分類:當希望機器學習可以預測類别的時候
      • 常見的分類方式:二分類、多分類
    • 回歸:希望機器學習可以預測連續數字的值
      • 可以将回歸任務簡化為分類任務
有無監督:

監督學習、非監督學習、半監督學習、增強學習

  • 監督學習:給機器的訓練資料擁有标記
    • 常見的監督學習:K近鄰(KNN)、線性回歸、多項式回歸、邏輯回歸、SVM、決策樹、随機森林
  • 非監督學習:給機器的訓練資料沒有任何“标記”
    • 常見的非監督學習:聚類分析、對資料進行降維處理,資料集的特征提取提取
  • 半監督學習:給機器的訓練資料一部分資料有标記,另一部分沒有
    • 造成資料缺失的原因:各種原因産生的樣本或者标記缺失
    • 半監督學習在平時比較常見,大多都需要我們在處理資料,再交給機器進行學習
  • 增強學習:根據周五的環境采取行動,根據采取行動的結果,學習行動方式
    • 以監督學習和半監督學習為基礎
學習環境:

批量學習、線上學習

  • 批量學習:在訓練模型時,一次性的把所有樣本全部輸入
    • 優點:簡單,寫好一個算法就不更改與完善
    • 缺點:不能适應環境的變化、想适應變化需要重新批量學習
  • 線上學習:在訓練模型時,每輸入一個樣本都會計算下誤差,調整一下參數
    • 優點:及時反映新的環境變化
    • 缺點:新的資料可能帶來的不良變化
學習方式:

參數學習、非參數學習

  • 參數學習:基于資料,假設關系,找到關系參數
    • 特點:通過資料集學習,學習到參數,當學習到參數時,就不再需要原有資料集
  • 非參數學習:不對模型進行過多假設
    • 注意:非參數不等于沒參數