文章目錄
-
- 一、高爾頓資料集回歸分析
- 二、Anscombe四重奏資料集回歸分析
- 三、總結
- 四、參考
一、高爾頓資料集回歸分析
“父親高則兒子高,父親矮則兒子矮”(即父親與兒子身高相關,且為正相關)、“母高高一窩,父高高一個”(即母親的身高比父親的身高對子女的影響更大)的習俗傳說是否成立?請在“父母子女身高”資料集(高爾頓資料集)基礎上利用線性回歸做出科學分析。
1)選取父子身高資料為X-Y,用Excel計算線性回歸方程和相關系數、方差、p值等,判斷回歸方程是否成立。 現在如果有一個新家庭的資料,已知父親身高75英寸,請測算兒子的身高為多少?
2)選取母子身高資料為X-Y,用Excel計算線性回歸方程和相關系數、方差、p值等,判斷回歸方程是否成立。
3)根據以上資料,闡明你對習俗說法是否正确的分析。
4)你能用多元線性回歸方法,計算出父親、母親與兒子身高的回歸方程嗎?
1)選取父子身高資料為X-Y
1.對資料進行處理
篩選出兒子的身高資料行
![](https://img.laitimes.com/img/9ZDMuAjOiMmIsIjOiQnIsICM38FdsYkRGZkRG9lcvx2bjxiNx8VZ6l2cs0TPnFWcKhVZz5kMMBjVtJWd0ckW65UbM5WOHJWa5kHT20ESjBjUIF2X0hXZ0xCMx81dvRWYoNHLrdEZwZ1Rh5WNXp1bwNjW1ZUba9VZwlHdssmch1mclRXY39CXldWYtlWPzNXZj9mcw1ycz9WL49zZuBnLwIjM1UzNyQTMxMzMwEjMwIzLc52YucWbp5GZzNmLn9Gbi1yZtl2Lc9CX6MHc0RHaiojIsJye.png)
然後進行回歸分析,得到圖表進行處理
添加趨勢線,顯示回歸方程和R值
通過上面的公式y=0.2547x+49.872,發現當父親身高每增加1個機關,其兒子的身高平均增加0.2547個機關。同時說明父親身高和兒子身高成正相關。
相關系數R平方計算的結果約為0.7969,表面父親身高與兒子身高的線性相關性比較高。通過方差分析的表格可以看出F>F表,說明資料存在顯著差異。P值遠小于0.01,說明得到的回歸方程是可靠的。
2)選取母子身高資料為X-Y
1、回歸分析結果如下
通過上面的公式會發現母親身高和兒子身高成負相關,而且相關系數R的平方很小,說明兩者不具有相關性。
3)根據以上資料,闡明你對習俗說法是否正确的分析。
通過上面兩者的對比,發現兒子身高跟父親身高具有的相關性會更大。父親身高對兒子身高是成正相關的,母親的身高跟兒子的身高不具相關性。從資料表明,兒子的身高主要受父親身高的影響。我認為 “ 父親高則兒子高,父親矮則兒子矮 ”是正确的,“ 母高高一窩,父高高一個 ”不完全正确
4)用多元線性回歸方法,計算出父親、母親與兒子身高的回歸方程
回歸分析結果如下
x1表示父親身高,x2表示母親身高,y表示子女身高
估算回歸方程為:
y = 22.30971 + 0.379897 x 1 + 0.283215 x 2
二、Anscombe四重奏資料集回歸分析
分析結果如下
資料集一:
資料集一回歸方程不成立,散點多居于直線兩側,無法做回歸分析;
資料集二:
資料集二散點呈抛物線,方程不成立,但是當做多項式拟合時卻十分契合
資料集三:
資料集三線性拟合性高,資料多與直線貼近,方程成立;
資料集四:
資料集四從圖形上看,受最右側的點影響,方程不成立,但是排除那個點,拟合程度很好。
做完四組資料集的回歸分析之後會發現,各項基本的統計特性都極為接近,但是繪制出的圖形卻差别極大,需要各自結合圖形分析
三、總結
excel 的線性回歸分析功能十分強大且很便捷,學習對資料進行處理,結合統計資料與圖形進行分析,為人工智能與機器學習的學習打下基礎
四、參考
https://www.osgeo.cn/matplotlib/gallery/specialty_plots/anscombe.html
Excel回歸分析結果的詳細闡釋