機器學習工作流程
一、什麼是機器學習
機器學習是從資料中自動分析獲得模型,并利用模型對未知資料進行預測。
二、機器學習工作流程
機器學習工作流程總結:
- 1.擷取資料
- 2.資料基本處理
- 3.特征工程
- 4.機器學習(模型訓練)
- 5.模型評估 - 結果達到要求,上線服務 - 沒有達到要求,重新上面步驟
1、擷取到的資料集介紹
資料簡介
- 在資料集中一般:
- 一行資料我們稱為一個樣本
- 一列資料我們成為一個特征
- 有些資料有目标值(标簽值),有些資料沒有目标值(如上表中,電影類型就是這個資料集的目标值)
- 資料類型構成:
- 資料類型一:特征值+目标值(目标值是連續的和離散的)
- 資料類型二:隻有特征值,沒有目标值
- 資料分割:
- 機器學習一般的資料集會劃分為兩個部分: - 訓練資料:用于訓練,構模組化型 - 測試資料:在模型檢驗時使用,用于評估模型是否有效
- 劃分比例: - 訓練集:70% 80% 75% - 測試集:30% 20% 25%
2、資料基本處理
即對資料進行缺失值、去除異常值等處理。
3、特征工程
3.1、什麼是特征工程
特征工程(Feature Engineering)是使用專業背景知識和技巧處理資料,使得特征能在機器學習算法上發揮更好的作用的過程。
- 意義:會直接影響機器學習的效果
3.2、為什麼需要特征工程
機器學習領域的大神Andrew Ng(吳恩達)老師說“Coming up with features is difficult, time-consuming, requires expert knowledge. “Applied machine learning” is basically feature engineering. ”
注:業界廣泛流傳:資料和特征決定了機器學習的上限,而模型和算法隻是逼近這個上限而已。
3.3 特征工程包含内容
- 特征提取
- 特征預處理
- 特征降維
3.4 特征工程類别介紹
- 特征提取 将任意資料(如文本或圖像)轉換為可用于機器學習的數字特征
特征預處理
- 通過一些轉換函數将特征資料轉換成更加适合算法模型的特征資料過程
特征降維
- 指在某些限定條件下,降低随機變量(特征)個數,得到一組“不相關”主變量的過程
4、機器學習
選擇合适的算法對模型進行訓練。
5、模型評估
對訓練好的模型進行評估。