天天看點

《寫給程式員的資料挖掘實踐指南》——

本節書摘來自異步社群出版社《寫給程式員的資料挖掘實踐指南》一書中的第5章,第5.8節,作者:【美】ron zacharski(紮哈爾斯基),更多章節内容可以通路雲栖社群“異步社群”公衆号檢視。

幾年前我在墨西哥城參加一個學術會議,那次會議的會程與其他會議有點不同:第一天做報告,而第二天則是一天的遊覽(包括帝王蝶、印加遺迹等)。遊覽的那天涉及一段在公共汽車上的長途旅行,而汽車出了點故障。于是,在汽車進行檢修時,一大堆博士有很多時間站在路邊互相交談。這段馬路上的交流對我而言是那次會議的亮點。其中和我交談的一個人叫eric brill,他因為開發一個稱為brill的詞性标注器而聞名。與前幾章類似的是,brill标注器做的也是對資料分類,此時,它将詞按照詞性(名詞、動詞等)分類。brill建構的算法要顯著優于前人的算法(是以,brill在自然語言處理領域變得十分出名)。在那條墨西哥公路邊,我同eric brill探讨提高算法性能的問題。他的觀點是,通過獲得更多訓練資料帶來的提高會比算法改進帶來的提高要大。實際上,他感覺如果保留原始的詞性标注算法并且單純增大訓練資料的規模,所帶來的提高會高于新提出的算法所帶來的進步。盡管如此,他也說,隻是搜集更多的資料無法獲得博士學位,但是通過開發出一個具有少量性能提高的算法卻能實作這一點!

《寫給程式員的資料挖掘實踐指南》——

這裡給出了另一個例子。在很多機器翻譯競賽中,google往往名列前茅。我們得承認google擁有大量極其聰明的人在開發偉大的算法,但是google之是以勝出很大部分原因應歸功于其從web上獲得的極大規模訓練集。

《寫給程式員的資料挖掘實踐指南》——

這并不是說不應該選擇最佳的算法。我們已經看到,選擇好的算法會帶來顯著的不同。但是,如果想解決一個實際問題(而不是發表學術論文),那麼可能不值得花費大量時間研究和調整算法。如果集中去擷取更多資料的話,你或許會得到更高的成本效益或者時間上的更好回報。

在認識到資料重要性的同時,我将繼續想辦法引入新的算法。

人們将knn分類器用于:

amazon上的物品推薦

消費者信貸風險的評估

利用圖像分析技術對地表分類

人臉識别

識别圖像中的人物性别

推薦web網頁

推薦度假套餐

1introduction to data mining. 2005. addison-wesley

本文僅用于學習和交流目的,不代表異步社群觀點。非商業轉載請注明作譯者、出處,并保留本文的原始連結。

繼續閱讀