09 回歸算法 - 機器學習調參

2018-10-17 23:50:00

__回顧：__同時使用L1正則和L2正則的線性回歸模型就稱為Elastic Net，$color{red}{彈性網絡算法}$

在實際工作中，對于各種算法模型(線性回歸)來講，__我們需要輸入θ、p、λ的值。__

θ=(XTX)-1XTY ；算法會自動生成，無需人工幹預。

p、λ 都是超參數；需要人工調整。

$color{red}{超參數}$ 是在開始學習過程之前設定值的參數，而不是通過訓練得到的參數資料。通常情況下，需要對超參數進行優化，給學習機選擇一組最優超參數，以提高學習的性能和效果。

求解p、λ的過程叫做調參(超參)

如交叉驗證：将訓練資料分成多份，其中一份進行資料驗證，并擷取最優的超參：p、λ；常見的方法：k折交叉驗證。五折交叉驗證 (scikit-learn中預設)

=== 訓練集與測試集劃分方法 ===

1、留出法 (hold-out) ：

一部分為訓練集，一部分為測試集。

盡量保證資料分布的一緻性，劃分比例可以是 2:1 或 4:1

對應函數：train_test_split(X,Y,test_size)

2、交叉驗證法 (k-fold cross validation) ：

劃分為k個互斥子集，用k-1作為訓練集，剩下一個為測試集，最終每一個子集都會作為測試集，其餘子集作為訓練集，共進行k次模組化，最終得到測試結果的均值。

k取值一般為10。

随機取k個互斥子集，進行p次，最後p個k-fold cv進行取平均，叫做p次k折交叉驗證。

k折交叉驗證即能幫我們挑選出最優參數，也能幫我們挑選出最優模型。

3、留一法LOOCV (leave-one-out cross validation)：

m個樣本，令k=m，作為k折交叉驗證的特例。隻有1種劃分方法，即每個測試集隻有一條資料。

優勢：每個模型都能很好的反應原始資料集的特性。

劣勢：計算量在資料量大的時候會非常大，還不算調參的計算量。

讓每一個樣本都做一次測試集，其他樣本都做訓練集。即做一次LOOCV 需要做m次的訓練，最後取平均。

4、Bootstrapping(自助法)：

設現在有一個資料集D，對D中的m個資料随機取樣，接着将資料放回原資料集。然後再一次繼續取樣，重複m次，産生一個新的資料集D' ,最後取得的資料作為測試集。

D={1,5,2,3} m=4

D‘ 長度也應該等于4 ，是以抽4次

第一次抽到了2，然後吧放回去 D’ = {2}

第二次抽到了2，然後把2放回去 D‘ = {2,2}

第三次抽到了2，然後把2放回去 D‘ = {2,2,2}

第四次抽到了3，然後把3放回去 D‘ = {2,2,2,3}

其中{1,5}沒有被抽到，将其作為測試集。

根據機率，__未取到的資料占比約為36.8%__：

09 回歸算法 - 機器學習調參

=== 訓練集與測試集劃分方法 ===

繼續閱讀

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希