統計學中偏離基準的方差和偏差的定義:
方差是什麼? 電子表格( spreadsheet)的大小為我們顯示一列。 标準偏差是什麼?每個資料與均值之間的距離是與标準的偏差。
在機器學習方差中,我們可以确定單個列的記錄是否分散,或者換句話說,是否與資料集的含義的距離。
方差計算公式
計算标準偏差的公式
σ在希臘被稱為Sigma。
通過示例計算方差和與标準偏差
讓我們用一個例子來看一下。
在這個例子中,已經引入了幾隻狗并且他們想要采用差異來測量狗的狀況。
每隻狗到肩膀(胫骨)的高度分别為600mm,470mm,170mm,430mm,300mm。我們的任務是獲得方差和标準偏差以及平均值。
平均值 =(600 + 470 +170 +430 + 300)/ 5 =>
平均值 = 1970/5 =>
平均值= 395
是以上圖中的平均值如下:
平均視圖(綠線是平均值)
現在用平均值計算每隻狗的高度差,如下:
每條狗的高度與平均值的差異
現在我們要計算它們之間的差異:
計算方差的方法
現在,如果我們取方差的根,我們将标準偏差:
計算标準偏差
現在我們可以更新我們的形狀:
計算狗之間的标準差
現在我們可以輕松确定哪種标準适合我們。左邊的狗不是我們的标準,它們已經高于标準,中間的犬是最矮的狗,也不在我們這個資料集的标準中。
注意:關鍵是當方差很小并且接近于零時,這意味着列的記錄非常接近平均值并且彼此非常接近。高方差告訴我們,有多少記錄是平均值的支柱,彼此之間相差甚遠。
學習機器的方差概念:
這是方差和标準偏差的最簡單定義。但這種外觀隻是一種統計外觀,而不是資料科學家。作為資料科學家,您需要了解方差對機器學習的影響。
是以我們有兩個概念:
低差異:告訴您資料集中的最小變化會導緻結果在目标函數中發生變化。 高差異:告訴您必須發生重大變化,以使目标函數在其估計值中發生變化。
機器學習中的低方差的示例包括線性回歸,線性分析,線性邏輯回歸和邏輯回歸。
機器學習中的高方差的示例包括決策樹,K鄰近鄰居(K-Nearby Neighbor)和支援向量機。
最後,在計算方差和标準偏差時,可能會遇到樣本和總體兩個概念:
在談論我們的樣本和總體時,我們實際上想在我最初為您提供的公式中讨論N. 讓我們看一下與一組狗相同的例子。如果我們的整個資料集具有相同數量的狗,我們将方差除以該集合的列中的記錄總數,其中五個(總共五隻狗)。如果這個狗的數量是一個更大的資料集的一個例子,我們應該在公式中加入N-1,而不是n.是以:
什麼是總體?我們計算總體資料集列的總記錄。 什麼是樣本?要從示例資料集計算列的多個記錄。
樣本中的是不需要統計資料的,需要的是計算整個資料集。模式的唯一索引為我們提供了最多的資訊。但是也要考慮使用樣本會失去在資料集中的準确度,但是卻減少了很多時間。
最後,這裡有;兩種偏離公式的算法:
兩種顯示偏離公式的方法