幹貨 | 從菜鳥到老司機，資料科學的 17 個必用資料集推薦

編者按：資料集可謂是資料科學的練兵場，不管是對菜鳥入門還是老司機上路，能找到一個好用的資料集無異于如虎添翼。以下是雷鋒網(公衆号：雷鋒網)整理編譯的 17 個常用資料集，并列舉了适用的典型問題，從菜鳥到老司機，總有一款适合你。

在模式識别文獻中，iris 資料集恐怕是最通用也是最簡單的資料集了。要學習分類技術，iris 資料集絕對是最友善的途徑。如果你之前從未接觸過資料科學這一概念，從這裡開始一定沒錯，因為該資料集隻有 4 列 150 行。

典型問題：在可用屬性基礎上預測花的類型。

泰坦尼克資料集也是全球資料科學殿堂中出鏡率最高的資料集之一。借助一些教程和指導，泰坦尼克資料集可以讓你深入了解資料科學。通過對類别、數字、文本等資料的結合，你能從該資料集中總結出最瘋狂的想法。該資料集更重視分類問題，共有 12 列 891 行。

典型問題：預測泰坦尼克号上生還的幸存者人數。

在所有行業中，最為倚重資料分析技術的就是保險業。貸款預測資料集可以讓保險公司對即将面對的挑戰、選擇的應對方式和影響有一個清晰的認識。與泰坦尼克資料集相同，它也是一個分類問題，該資料集共有 13 列 615 行。

典型問題：預測貸款申請能否得到準許。

零售業也是資料分析技術的重度使用者之一，它們可以利用分析資料來優化整個商業流程。利用資料科學技術，管理人員可以準确的完成産品配置設定、庫存管理、供貨和打包等複雜流程。這一資料集的名字已經透露出了它的屬性，它就是商店的交易記錄，主要解決回歸問題。該資料集共有 12 列 8523 行。

典型問題：預測銷售情況。

該資料集也是模式識别文獻中的典型資料集，該資料集得名是因為波士頓的房地産行業，同時它也是一個回歸問題。該資料集共有 14 列 8506 行。是以，即使你手上的筆記本電腦性能較弱也能 hold 住該資料集。

典型問題：預測房屋售價的中間值。

該資料集是由 30 個受試人智能手機内置的傳感器收集的。許多機器學習課程中該資料集是學生聯手的重要助手。該資料集屬于多标記分類問題，共有 561 列 10299 行。

典型問題：預測人類活動的類别。

該資料集主要是由零售店的交易記錄組成的，它在資料集界資格很老，可以幫助商家了解自己商店每天的購物體驗。“黑五”資料集也是個回歸問題，它共有 12 列 550069 行。

典型問題：預測消費者購物量。

該資料集包含航空公司飛行資料中關于航空安全問題的報告，屬于多标記分類的高維問題，雷鋒網了解到它共有 30438 列 21519 行。

典型問題：根據标簽為文檔分類。

該資料即來源于美國的一個單車分享服務，想掌握它，你必須擁有專業的資料整理技巧。該資料集 2010 年第四季度開始每季度都會總結出一個新文檔，每個文檔則擁有 7 列。它屬于典型的分類問題。

典型問題：預測使用者的類型。

是不是覺得很新奇，原來這項技術還能用在娛樂業啊。該資料集能幫你完成回歸問題，它包括 515345 個觀察值和 90 個變量。不過，這還隻是百萬首歌曲資料庫中的一個小子集。

典型問題：預測發行歌曲的最佳年份。

該資料集屬于非平衡資料分類和機器學習問題。衆多周知，機器學習在解決非平衡問題上效果顯著，它可以執行癌症和欺詐檢測等任務。該資料集共有 14 列 48842 行。

典型問題：預測美國人的收入階層。

利用該資料集，你能搭建一個推薦引擎。同時，該資料集也是資料科學行業的老兵之一，它可運用在許多領域。它資料相當龐大，共有 4000 部電影和 6000 多位使用者發出的超過 100 萬個評分。

典型問題：為使用者推薦新電影。

該資料集能讓你學習、分析并認識圖檔中的各種元素，它就是相機中圖檔和面部識别的技術基礎。該資料技術與數字識别問題，共有 28x28 大小的圖檔 7 千張，大小為 31mb。

典型問題：在圖檔中定義數字。

該資料集誕生于著名的 yelp 資料集挑戰賽第 8 輪。它由 20 萬張圖檔組稱，3 個 json 文檔的大小都達到了 2 gb。這些圖檔包含了 4 個不同國家 10 大城市本地企業的資訊，你需要通過文化、季節、資料挖掘、社交圖挖掘和類别推斷等方式來洞察複雜的資料。

典型問題：從圖檔中找亮點。

imagenet資料集可以運用在多種問題中，包括目标檢測、定位、分類和螢幕解析。眼下，其圖檔引擎中共有 1419 萬多張圖檔，容量達到了 140gb ，你可以任選圖檔并圍繞其打造自己的項目。

典型問題：問題的解決要圍繞下載下傳的圖檔展開。

說到資料集，kdd cup 這一大名可不能不提，它是世界上首個國際知識發現和資料挖掘競賽。kdd 1999 資料集屬于分類問題，它共包含 48 列和 400 萬行，文檔體積約為 1.2gb 。

典型問題：判斷網絡入侵探測器是否完成了任務。

如今，能否 hold 住大型的資料集已經是檢驗資料專家是否合格的試金石了。許多資料分析公司不再依靠簡單的模型，它們開始使用完整的資料。通過該資料集，你能掌握大量在自己電腦上分析大型資料集的經驗。想解決這一問題不難，但學會資料管理并不容易。芝加哥犯罪資料集中共有 600 萬個觀察值，屬于典型的多标記分類問題。

典型問題：預測犯罪的類型。

幹貨 | 從菜鳥到老司機，資料科學的 17 個必用資料集推薦

繼續閱讀

Anaconda3安裝face_recognitionAnaconda3(python3.7.4)安裝face_recognition

資料挖掘中的隐私保護

資料挖掘研究内容和本質（轉）

資料挖掘分類技術

淺談資料挖掘評估技術

資料挖掘001

視訊對象分割（Video Object Segmentation）研究小記任務定義與資料集技術路線分類基于神經網絡的模型總結

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

opencv視覺跟蹤——消除背景模組化

圖形處理單元(GPU)的演進

2021-09-30三維點雲測量正方形包裹體積

DOG算子

用Matlab搞計算機視覺是怎樣的體驗？

K-近鄰算法以及圖像分類應用

在weka中內建自己的算法

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡