天天看點

【經驗】零基礎該如何入門資料挖掘?

小天說

在天池創立之初,我們的使命就是:讓無法觸及大資料的人能夠觸及到真正企業級的大資料。秉承着這樣的理念,我們在天池平台上培養和鍛煉了一批又一批的大資料人才。現在,除了高校學子,越來越多的創業者和資料愛好者也加入了我們的隊伍,本文的作者魯軍(隊名:啊速度快了幾分)就是這樣的例子,在創業公司任職前端工程師的他,由天池開始走上了大資料之路。

//初識//

我是一名在Web前端工程師(程式猿),一直在html, css, javascript的世界中探索。因為公司一直在使用阿裡雲的産品,是以每天都會去阿裡雲網站處理業務,某天在阿裡雲的官網上看到天池的比賽,第一感覺太Cool了,太神奇了,原來大資料還可以這樣玩兒,複雜的業務場景被抽象成所有人可以看得懂的題目,通過簡單的規則可以拿到結果,大資料看起來高大上,實則是人人可以參與的,每個人都能為其貢獻智慧,這才是屬于我們的大資料啊。不要被《黑客帝國》給搞蒙圈了,大資料才不是藍色螢幕加黑色文字不斷跑馬燈。

//開始上路//

對于零基礎的我來說,新手上路可不那麼好玩兒,當我把資料下載下傳導入到電腦中執行一個count指令的時候,徹底蒙圈了。納尼2300W條資料,執行一個簡單的查詢,電腦都快罷工了。這一定是我的打開方式不對,趕緊找“谷哥“ 問“度娘“,看天池論壇的新手入門貼。毫無疑問我就是這樣幹的,而且确實有效,特别是天池論壇為零基礎的同學準備的視訊,圖文教程讓我受益匪淺,在我還沒有被海量資料蹂躏得體無完膚的時候,就可以拿到一點點成績,獲得不小的成就感。

//初次送出結果//

第一次計算并沒有高大上的算法和公式,簡單計算出了2W多條記錄作為送出的結果,但當我拿到成績時,馬上就興奮了,就像是當年用javascript在浏覽器中第一次列印出"hell world"的感覺,被這個世界認可了,并且給我了不全是0的成績(準确率0.004%,不要笑我太差)作為回報。當天晚上興奮得一直寫代碼到2點才睡覺,第二天又早早的起床準備計算送出新的計算結果。在後面的幾天幾乎瘋狂了,每天一下班就馬上會投入到資料計算中,不斷的尋找突破點,感覺時間過得飛快。 這樣在每天在固定的工作時間之外,又多了一件讓我興奮的事情。

讓我興奮的不僅是成績的上升,更主要的是在不斷探索的時候發現的新奇事物。慢慢的了解一個未知的領域,知道大資料是未來的趨勢,現在又邁出了第一步,必然會讓我在未來的工作中更具備競争力。

//成績無法提高?//

最容易給你造成挫折的地方就是成績一直上不去(當然我不是頂尖選手,所遭遇難度遠小于那些冠軍先手),對于所有人來說成績上不去都再正常不過,提高這是一個漸進的過程。論壇中那些前輩們的文章早有指點,在正式比賽中大神們都經常被蹂躏,1周、2周都毫無進展。是以放寬心态才重要,大神亦是如此,我等凡人何必揪心,而且我堅信隻要再多嘗試一次,多花一些精力總能提高我的成績。有一顆無堅不摧的内心才夠強大。我們可以設定一個要拿第一名的目标,也需要忘記目标腳踏實地的努力,我是這樣安慰自己的。而且對于零基礎的同學來說,一邊參與新人賽,一邊學習資料挖掘的入門知識才能更我們走得更遠。

//收獲//

真正參與到資料挖掘中來的時候,那些平時看起來死闆的資料,也會變得友好。比如計算使用者浏覽次數對第二天的購買率就會發現存在一定規律,同理“收藏“,“加入購物車“等行為同樣對購買率也有影響,當把這些資料全部展開做成一個圖表的時候,普通的業務資料馬上讓我茅塞頓開,使用者的微觀行為被宏觀的表達了,隻有對資料的深入分析,才能獲得這樣确切的結果。這樣的數字對業務、産品決策一定有幫助,估計這就是工程師關心業務的最有效方法,有了這樣的實踐,指不定什麼時候這些方法就會被引入到我們的工作流當中來,幫助自己的業務發展。

最後感謝天池,給了所有資料愛好者一個提升自己的機會,讓大資料小菜鳥能夠在此振翅翺翔!

繼續閱讀