天天看点

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

文章目录

    • 一、高尔顿数据集回归分析
    • 二、Anscombe四重奏数据集回归分析
    • 三、总结
    • 四、参考

一、高尔顿数据集回归分析

“父亲高则儿子高,父亲矮则儿子矮”(即父亲与儿子身高相关,且为正相关)、“母高高一窝,父高高一个”(即母亲的身高比父亲的身高对子女的影响更大)的习俗传说是否成立?请在“父母子女身高”数据集(高尔顿数据集)基础上利用线性回归做出科学分析。

1)选取父子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。 现在如果有一个新家庭的数据,已知父亲身高75英寸,请测算儿子的身高为多少?

2)选取母子身高数据为X-Y,用Excel计算线性回归方程和相关系数、方差、p值等,判断回归方程是否成立。

3)根据以上数据,阐明你对习俗说法是否正确的分析。

4)你能用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程吗?

1)选取父子身高数据为X-Y

1.对数据进行处理

筛选出儿子的身高数据行

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

然后进行回归分析,得到图表进行处理

添加趋势线,显示回归方程和R值

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)
Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

通过上面的公式y=0.2547x+49.872,发现当父亲身高每增加1个单位,其儿子的身高平均增加0.2547个单位。同时说明父亲身高和儿子身高成正相关。

相关系数R平方计算的结果约为0.7969,表面父亲身高与儿子身高的线性相关性比较高。通过方差分析的表格可以看出F>F表,说明数据存在显著差异。P值远小于0.01,说明得到的回归方程是可靠的。

2)选取母子身高数据为X-Y

1、回归分析结果如下

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)
Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

通过上面的公式会发现母亲身高和儿子身高成负相关,而且相关系数R的平方很小,说明两者不具有相关性。

3)根据以上数据,阐明你对习俗说法是否正确的分析。

通过上面两者的对比,发现儿子身高跟父亲身高具有的相关性会更大。父亲身高对儿子身高是成正相关的,母亲的身高跟儿子的身高不具相关性。从数据表明,儿子的身高主要受父亲身高的影响。我认为 “ 父亲高则儿子高,父亲矮则儿子矮 ”是正确的,“ 母高高一窝,父高高一个 ”不完全正确

4)用多元线性回归方法,计算出父亲、母亲与儿子身高的回归方程

回归分析结果如下

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

x1表示父亲身高,x2表示母亲身高,y表示子女身高

估算回归方程为:

y = 22.30971 + 0.379897 x 1 + 0.283215 x 2

二、Anscombe四重奏数据集回归分析

分析结果如下

数据集一:

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

数据集一回归方程不成立,散点多居于直线两侧,无法做回归分析;

数据集二:

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

数据集二散点呈抛物线,方程不成立,但是当做多项式拟合时却十分契合

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

数据集三:

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

数据集三线性拟合性高,数据多与直线贴近,方程成立;

数据集四:

Excel线性回归分析(高尔顿数据集;Anscombe四重奏数据集)

数据集四从图形上看,受最右侧的点影响,方程不成立,但是排除那个点,拟合程度很好。

做完四组数据集的回归分析之后会发现,各项基本的统计特性都极为接近,但是绘制出的图形却差别极大,需要各自结合图形分析

三、总结

excel 的线性回归分析功能十分强大且很便捷,学习对数据进行处理,结合统计数据与图形进行分析,为人工智能与机器学习的学习打下基础

四、参考

https://www.osgeo.cn/matplotlib/gallery/specialty_plots/anscombe.html

Excel回归分析结果的详细阐释

继续阅读