天天看點

幹貨 | 從菜鳥到老司機,資料科學的 17 個必用資料集推薦

編者按:資料集可謂是資料科學的練兵場,不管是對菜鳥入門還是老司機上路,能找到一個好用的資料集無異于如虎添翼。以下是雷鋒網(公衆号:雷鋒網)整理編譯的 17 個常用資料集,并列舉了适用的典型問題,從菜鳥到老司機,總有一款适合你。

在模式識别文獻中,iris 資料集恐怕是最通用也是最簡單的資料集了。要學習分類技術,iris 資料集絕對是最友善的途徑。如果你之前從未接觸過資料科學這一概念,從這裡開始一定沒錯,因為該資料集隻有 4 列 150 行。

典型問題:在可用屬性基礎上預測花的類型。

泰坦尼克資料集也是全球資料科學殿堂中出鏡率最高的資料集之一。借助一些教程和指導,泰坦尼克資料集可以讓你深入了解資料科學。通過對類别、數字、文本等資料的結合,你能從該資料集中總結出最瘋狂的想法。該資料集更重視分類問題,共有 12 列 891 行。

典型問題:預測泰坦尼克号上生還的幸存者人數。

在所有行業中,最為倚重資料分析技術的就是保險業。貸款預測資料集可以讓保險公司對即将面對的挑戰、選擇的應對方式和影響有一個清晰的認識。與泰坦尼克資料集相同,它也是一個分類問題,該資料集共有 13 列 615 行。

典型問題:預測貸款申請能否得到準許。

零售業也是資料分析技術的重度使用者之一,它們可以利用分析資料來優化整個商業流程。利用資料科學技術,管理人員可以準确的完成産品配置設定、庫存管理、供貨和打包等複雜流程。這一資料集的名字已經透露出了它的屬性,它就是商店的交易記錄,主要解決回歸問題。該資料集共有 12 列 8523 行。

典型問題:預測銷售情況。

該資料集也是模式識别文獻中的典型資料集,該資料集得名是因為波士頓的房地産行業,同時它也是一個回歸問題。該資料集共有 14 列 8506 行。是以,即使你手上的筆記本電腦性能較弱也能 hold 住該資料集。

典型問題:預測房屋售價的中間值。

該資料集是由 30 個受試人智能手機内置的傳感器收集的。許多機器學習課程中該資料集是學生聯手的重要助手。該資料集屬于多标記分類問題,共有 561 列 10299 行。

典型問題:預測人類活動的類别。

該資料集主要是由零售店的交易記錄組成的,它在資料集界資格很老,可以幫助商家了解自己商店每天的購物體驗。“黑五”資料集也是個回歸問題,它共有 12 列 550069 行。

典型問題:預測消費者購物量。 

該資料集包含航空公司飛行資料中關于航空安全問題的報告,屬于多标記分類的高維問題,雷鋒網了解到它共有 30438 列 21519 行。

典型問題:根據标簽為文檔分類。

該資料即來源于美國的一個單車分享服務,想掌握它,你必須擁有專業的資料整理技巧。該資料集 2010 年第四季度開始每季度都會總結出一個新文檔,每個文檔則擁有 7 列。它屬于典型的分類問題。

典型問題:預測使用者的類型。

是不是覺得很新奇,原來這項技術還能用在娛樂業啊。該資料集能幫你完成回歸問題,它包括 515345 個觀察值和 90 個變量。不過,這還隻是百萬首歌曲資料庫中的一個小子集。

典型問題:預測發行歌曲的最佳年份。

該資料集屬于非平衡資料分類和機器學習問題。衆多周知,機器學習在解決非平衡問題上效果顯著,它可以執行癌症和欺詐檢測等任務。該資料集共有 14 列 48842 行。

典型問題:預測美國人的收入階層。

利用該資料集,你能搭建一個推薦引擎。同時,該資料集也是資料科學行業的老兵之一,它可運用在許多領域。它資料相當龐大,共有 4000 部電影和 6000 多位使用者發出的超過 100 萬個評分。

典型問題:為使用者推薦新電影。

該資料集能讓你學習、分析并認識圖檔中的各種元素,它就是相機中圖檔和面部識别的技術基礎。該資料技術與數字識别問題,共有 28x28 大小的圖檔 7 千張,大小為 31mb。

典型問題:在圖檔中定義數字。

該資料集誕生于著名的 yelp 資料集挑戰賽第 8 輪。它由 20 萬張圖檔組稱,3 個 json 文檔的大小都達到了 2 gb。這些圖檔包含了 4 個不同國家 10 大城市本地企業的資訊,你需要通過文化、季節、資料挖掘、社交圖挖掘和類别推斷等方式來洞察複雜的資料。

典型問題:從圖檔中找亮點。

imagenet資料集可以運用在多種問題中,包括目标檢測、定位、分類和螢幕解析。眼下,其圖檔引擎中共有 1419 萬多張圖檔,容量達到了 140gb ,你可以任選圖檔并圍繞其打造自己的項目。

典型問題:問題的解決要圍繞下載下傳的圖檔展開。 

說到資料集,kdd cup 這一大名可不能不提,它是世界上首個國際知識發現和資料挖掘競賽。kdd 1999 資料集屬于分類問題,它共包含 48 列和 400 萬行,文檔體積約為 1.2gb 。

典型問題:判斷網絡入侵探測器是否完成了任務。

如今,能否 hold 住大型的資料集已經是檢驗資料專家是否合格的試金石了。許多資料分析公司不再依靠簡單的模型,它們開始使用完整的資料。通過該資料集,你能掌握大量在自己電腦上分析大型資料集的經驗。想解決這一問題不難,但學會資料管理并不容易。芝加哥犯罪資料集中共有 600 萬個觀察值,屬于典型的多标記分類問題。

典型問題:預測犯罪的類型。

推薦閱讀:

<a href="http://www.leiphone.com/news/201610/bo67khxgucxbdfal.html">幹貨 | 如何從零學習人工智能?最好的資源都在這裡了</a>

<a href="http://www.leiphone.com/news/201611/tkbzemvarzbvqnd7.html">神經網絡初學者指南:基于scikit-learn的python子產品</a>

本文作者:大壯旅

繼續閱讀