统计学中偏离基准的方差和偏差的定义:
方差是什么? 电子表格( spreadsheet)的大小为我们显示一列。 标准偏差是什么?每个数据与均值之间的距离是与标准的偏差。
在机器学习方差中,我们可以确定单个列的记录是否分散,或者换句话说,是否与数据集的含义的距离。
方差计算公式
计算标准偏差的公式
σ在希腊被称为Sigma。
通过示例计算方差和与标准偏差
让我们用一个例子来看一下。
在这个例子中,已经引入了几只狗并且他们想要采用差异来测量狗的状况。
每只狗到肩膀(胫骨)的高度分别为600mm,470mm,170mm,430mm,300mm。我们的任务是获得方差和标准偏差以及平均值。
平均值 =(600 + 470 +170 +430 + 300)/ 5 =>
平均值 = 1970/5 =>
平均值= 395
所以上图中的平均值如下:
平均视图(绿线是平均值)
现在用平均值计算每只狗的高度差,如下:
每条狗的高度与平均值的差异
现在我们要计算它们之间的差异:
计算方差的方法
现在,如果我们取方差的根,我们将标准偏差:
计算标准偏差
现在我们可以更新我们的形状:
计算狗之间的标准差
现在我们可以轻松确定哪种标准适合我们。左边的狗不是我们的标准,它们已经高于标准,中间的犬是最矮的狗,也不在我们这个数据集的标准中。
注意:关键是当方差很小并且接近于零时,这意味着列的记录非常接近平均值并且彼此非常接近。高方差告诉我们,有多少记录是平均值的支柱,彼此之间相差甚远。
学习机器的方差概念:
这是方差和标准偏差的最简单定义。但这种外观只是一种统计外观,而不是数据科学家。作为数据科学家,您需要了解方差对机器学习的影响。
所以我们有两个概念:
低差异:告诉您数据集中的最小变化会导致结果在目标函数中发生变化。 高差异:告诉您必须发生重大变化,以使目标函数在其估计值中发生变化。
机器学习中的低方差的示例包括线性回归,线性分析,线性逻辑回归和逻辑回归。
机器学习中的高方差的示例包括决策树,K邻近邻居(K-Nearby Neighbor)和支持向量机。
最后,在计算方差和标准偏差时,可能会遇到样本和总体两个概念:
在谈论我们的样本和总体时,我们实际上想在我最初为您提供的公式中讨论N. 让我们看一下与一组狗相同的例子。如果我们的整个数据集具有相同数量的狗,我们将方差除以该集合的列中的记录总数,其中五个(总共五只狗)。如果这个狗的数量是一个更大的数据集的一个例子,我们应该在公式中加入N-1,而不是n.所以:
什么是总体?我们计算总体数据集列的总记录。 什么是样本?要从示例数据集计算列的多个记录。
样本中的是不需要统计数据的,需要的是计算整个数据集。模式的唯一索引为我们提供了最多的信息。但是也要考虑使用样本会失去在数据集中的准确度,但是却减少了很多时间。
最后,这里有;两种偏离公式的算法:
两种显示偏离公式的方法