天天看點

機器學習實踐(一)—sklearn之概述

1956年,人工智能元年。

人類能夠創造出人類還未知的東西。

這未知的東西人類能夠保證它不誤入歧途嗎。

一、機器學習和人工智能,深度學習的關系

  • 機器學習是人工智能的一個實作途徑
  • 深度學習是機器學習的一個方法發展而來

二、機器學習,深度學習的應用場景

  • 挖掘、預測領域:
    • 應用場景:店鋪銷量預測、量化投資、廣告推薦、企業客戶分類、SQL語句安全檢測分類…
  • 圖像領域:
    • 應用場景:街道交通标志檢測、人臉識别等等
  • 自然語言處理領域:
    • 應用場景:語音識别,文本分類、情感分析、自動聊天、文本檢測等等

三、什麼是機器學習

定義

  • 機器學習是從資料中自動分析獲得模型,并利用模型對未知資料進行預測。

解釋

  • 我們可以從大量的日常經驗中歸納規律,當面臨新的問題的時候,就可以利用以往總結的規律去分析現實狀況,采取最佳政策。

例子

  • 從資料(大量的貓和狗的圖檔)中自動分析獲得模型(辨識貓和狗的規律),進而使機器擁有識别貓和狗的能力。
  • 從資料(房屋的各種資訊)中自動分析獲得模型(判斷房屋價格的規律),進而使機器擁有預測房屋價格的能力。

四、資料集構成

  • 結構:特征值+目标值

    注:

    對于每一行資料我們可以稱之為樣本。

    有些資料集可以沒有目标值:

五、機器學習算法分類

算法分類

  • 監督學習(supervised learning)
    • 定義:輸入資料是由輸入特征值和目标值所組成。函數的輸出可以是一個連續的值(回歸),或是輸出是有限個離散值(分類)。
    • 回歸:線性回歸、嶺回歸
    • 分類:k-近鄰算法、貝葉斯分類、決策樹與随機森林、邏輯回歸、神經網絡
  • 無監督學習(unsupervised learning)
    • 定義:輸入資料是由輸入特征值所組成。
    • 聚類:k-means

示例:

  • 特征值:貓/狗的圖檔;目标值:貓/狗-類别
    • 分類問題
  • 特征值:房屋的各個屬性資訊;目标值:房屋價格-連續型資料
    • 回歸問題
  • 特征值:人物的各個屬性資訊;目标值:無
    • 無監督學習

六、機器學習開發流程

  1. 擷取資料
    • sql、mysql
  2. 資料預處理
    • 缺失值處理,資料類型轉換,資料清洗
  3. 特征工程
    • 特征提取,特征預處理,特征降維
  4. 機器學習
    • 訓練模型
  5. 模型評估
    • 準确率,召回率,auc,ks,業務名額
    • 如不合格,傳回(4
  6. 實施落地
    • 開發産品,api

七、學習架構和資料介紹

  • 算法是核心,資料與計算是基礎
  • 算法工程師
    • 線代、高數、機率統計
    • 李航<統計學習方法>
    • 周志華<機器學習>
    • PRML
  • 算法落地工程師
    • 大部分複雜模型的算法設計都是算法工程師在做,而應用者
      • 分析很多的資料
      • 分析具體的業務
      • 應用常見的算法
      • 特征工程、調參數、優化
      • 學會分析問題,使用機器學習算法的目的,想要算法完成何種任務
      • 掌握算法基本思想,學會對問題用相應的算法解決
      • 學會利用庫或者架構解決問題
    • 架構
      • SKlearn
      • tensorflow
      • pytorch

繼續閱讀