機器學習的方差

統計學中偏離基準的方差和偏差的定義:

方差是什麼？電子表格（ spreadsheet）的大小為我們顯示一列。标準偏差是什麼？每個資料與均值之間的距離是與标準的偏差。

在機器學習方差中，我們可以确定單個列的記錄是否分散，或者換句話說，是否與資料集的含義的距離。

方差計算公式

計算标準偏差的公式

σ在希臘被稱為Sigma。

通過示例計算方差和與标準偏差

讓我們用一個例子來看一下。

在這個例子中，已經引入了幾隻狗并且他們想要采用差異來測量狗的狀況。

每隻狗到肩膀（胫骨）的高度分别為600mm，470mm，170mm，430mm，300mm。我們的任務是獲得方差和标準偏差以及平均值。

平均值 =（600 + 470 +170 +430 + 300）/ 5 =>

平均值 = 1970/5 =>

平均值= 395

是以上圖中的平均值如下：

平均視圖（綠線是平均值）

現在用平均值計算每隻狗的高度差，如下：

每條狗的高度與平均值的差異

現在我們要計算它們之間的差異：

計算方差的方法

現在，如果我們取方差的根，我們将标準偏差：

計算标準偏差

現在我們可以更新我們的形狀：

計算狗之間的标準差

現在我們可以輕松确定哪種标準适合我們。左邊的狗不是我們的标準，它們已經高于标準，中間的犬是最矮的狗，也不在我們這個資料集的标準中。

注意：關鍵是當方差很小并且接近于零時，這意味着列的記錄非常接近平均值并且彼此非常接近。高方差告訴我們，有多少記錄是平均值的支柱，彼此之間相差甚遠。

學習機器的方差概念：

這是方差和标準偏差的最簡單定義。但這種外觀隻是一種統計外觀，而不是資料科學家。作為資料科學家，您需要了解方差對機器學習的影響。

是以我們有兩個概念：

低差異：告訴您資料集中的最小變化會導緻結果在目标函數中發生變化。高差異：告訴您必須發生重大變化，以使目标函數在其估計值中發生變化。

機器學習中的低方差的示例包括線性回歸，線性分析，線性邏輯回歸和邏輯回歸。

機器學習中的高方差的示例包括決策樹，K鄰近鄰居（K-Nearby Neighbor）和支援向量機。

最後，在計算方差和标準偏差時，可能會遇到樣本和總體兩個概念：

在談論我們的樣本和總體時，我們實際上想在我最初為您提供的公式中讨論N. 讓我們看一下與一組狗相同的例子。如果我們的整個資料集具有相同數量的狗，我們将方差除以該集合的列中的記錄總數，其中五個（總共五隻狗）。如果這個狗的數量是一個更大的資料集的一個例子，我們應該在公式中加入N-1，而不是n.是以：

什麼是總體？我們計算總體資料集列的總記錄。什麼是樣本？要從示例資料集計算列的多個記錄。

樣本中的是不需要統計資料的，需要的是計算整個資料集。模式的唯一索引為我們提供了最多的資訊。但是也要考慮使用樣本會失去在資料集中的準确度，但是卻減少了很多時間。

最後，這裡有；兩種偏離公式的算法：

兩種顯示偏離公式的方法

機器學習的方差

繼續閱讀

K-近鄰算法以及圖像分類應用

小i機器人受邀赴韓交流，CFO首爾亞洲金融論壇演講

吳恩達deeplearning

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普