天天看點

Kaggle心得(二)House Prices: Advanced Regression Techniques

House Prices: Advanced Regression Techniques

1. 了解模型的好壞

第一遍送出的時候,隻是單純比較了線性回歸模型和随機森林模型對驗證集的mean square error。壓根就沒計算模型對于訓練集的mean square error。這樣其實是很不負責任的。我根本沒辦法知道模型是under-fit還是over-fit。

2. 多浏覽大牛的部落格

第一次送出版本的mean squre error比較高,不是很滿意。就去讨論區看别人的部落格。确實學到了很多關于對于資料分布處理的知識(是以也從另一個側面反映了統計的重要性,大學真應該多上幾門統計課)。經過疊代之後的算法mean square error降低了0.00223,真的是又心酸又高興。雖然進步得很慢,但是是在正确的道路上。

3.形成自己的體系

兩個project下來确實還是有些心得。對于資料處理、模型調用有了一些自己的看法。對整個流程也更加熟悉。将自己常用的資料處理做成了一個package(寫了自己的util包),這樣将極大地加快以後對于資料處理的進度。