天天看點

機器學習的方差

機器學習的方差

統計學中偏離基準的方差和偏差的定義:

方差是什麼? 電子表格( spreadsheet)的大小為我們顯示一列。 标準偏差是什麼?每個資料與均值之間的距離是與标準的偏差。

在機器學習方差中,我們可以确定單個列的記錄是否分散,或者換句話說,是否與資料集的含義的距離。

機器學習的方差

方差計算公式

機器學習的方差

計算标準偏差的公式

σ在希臘被稱為Sigma。

通過示例計算方差和與标準偏差

讓我們用一個例子來看一下。

在這個例子中,已經引入了幾隻狗并且他們想要采用差異來測量狗的狀況。

機器學習的方差

每隻狗到肩膀(胫骨)的高度分别為600mm,470mm,170mm,430mm,300mm。我們的任務是獲得方差和标準偏差以及平均值。

平均值 =(600 + 470 +170 +430 + 300)/ 5 =>

平均值 = 1970/5 =>

平均值= 395

是以上圖中的平均值如下:

機器學習的方差

平均視圖(綠線是平均值)

現在用平均值計算每隻狗的高度差,如下:

機器學習的方差

每條狗的高度與平均值的差異

現在我們要計算它們之間的差異:

機器學習的方差

計算方差的方法

現在,如果我們取方差的根,我們将标準偏差:

機器學習的方差

計算标準偏差

現在我們可以更新我們的形狀:

機器學習的方差

計算狗之間的标準差

現在我們可以輕松确定哪種标準适合我們。左邊的狗不是我們的标準,它們已經高于标準,中間的犬是最矮的狗,也不在我們這個資料集的标準中。

注意:關鍵是當方差很小并且接近于零時,這意味着列的記錄非常接近平均值并且彼此非常接近。高方差告訴我們,有多少記錄是平均值的支柱,彼此之間相差甚遠。

學習機器的方差概念:

這是方差和标準偏差的最簡單定義。但這種外觀隻是一種統計外觀,而不是資料科學家。作為資料科學家,您需要了解方差對機器學習的影響。

是以我們有兩個概念:

低差異:告訴您資料集中的最小變化會導緻結果在目标函數中發生變化。 高差異:告訴您必須發生重大變化,以使目标函數在其估計值中發生變化。

機器學習中的低方差的示例包括線性回歸,線性分析,線性邏輯回歸和邏輯回歸。

機器學習中的高方差的示例包括決策樹,K鄰近鄰居(K-Nearby Neighbor)和支援向量機。

最後,在計算方差和标準偏差時,可能會遇到樣本和總體兩個概念:

在談論我們的樣本和總體時,我們實際上想在我最初為您提供的公式中讨論N. 讓我們看一下與一組狗相同的例子。如果我們的整個資料集具有相同數量的狗,我們将方差除以該集合的列中的記錄總數,其中五個(總共五隻狗)。如果這個狗的數量是一個更大的資料集的一個例子,我們應該在公式中加入N-1,而不是n.是以:

什麼是總體?我們計算總體資料集列的總記錄。 什麼是樣本?要從示例資料集計算列的多個記錄。

樣本中的是不需要統計資料的,需要的是計算整個資料集。模式的唯一索引為我們提供了最多的資訊。但是也要考慮使用樣本會失去在資料集中的準确度,但是卻減少了很多時間。

最後,這裡有;兩種偏離公式的算法:

機器學習的方差

兩種顯示偏離公式的方法

上一篇: 二維數組
下一篇: 二維數組

繼續閱讀