NLP項目常用資料
- 概述
- 資料集來源
-
- 1. 搜狗實驗室資料
-
- 1.1 網際網路語料庫(SogouT)
- 1.2 全網新聞資料(SogouCA)
- 1.3 搜狐新聞資料(SogouCS)
- 1.4 文本分類評價(SogouTCE)
- 1.5 網際網路詞庫(SogouW)
- 2. 阿裡雲天池
- 3. 百度大腦|AI開放平台
- 4. IMDB Reviews
- 5. Sentiment140
- 6. 今日頭條新聞文本分類資料集
- 寫在最後
概述
在NLP項目中,主要的項目包含:文本分類、輿情分析、摘要抽取、文本糾錯、情感分析以及智能分詞等。而在學習這類項目的過程中,在了解理論的同時,還需要自己動手實訓。是以資料集對于我們來說是非常重要的。以下将介紹幾個開源的資料集。
資料集來源
1. 搜狗實驗室資料
搜狗實驗室(Sogo Labs)是搜狗搜尋核心研發團隊對外交流的視窗,包含資料資源、資料挖掘雲、研究合作等幾個欄目。資料資源包括評測集合、語料資料、新聞資料、圖檔資料和自然語言處理相關資料,網址為http://www.sogou.com/labs/resource/list_pingce.php
1.1 網際網路語料庫(SogouT)
SogouT來自網際網路各種類型的1.3億個原始網頁, 壓縮前的大小超過了5TB,格式如下:
// 資料存儲示例
<doc>
<docno>頁面ID</docno>
<url>頁面URL</url>
頁面原始内容
</doc>
為了滿足不同需求,SogouT分為了不同的版本,差别展現在資料量上:
- 迷你版(樣例資料, 61KB):tar.gz格式,zip格式
- 完整版(1TB):(硬碟拷貝)
- 曆史版本(130GB):V2.0(硬碟拷貝)
1.2 全網新聞資料(SogouCA)
SogouCA來自若幹新聞站點2012年6月—7月期間國内,國際,體育,社會,娛樂等18個頻道的新聞資料,提供URL和正文資訊,格式如下:
<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>
為了滿足不同需求,SogouCA分為了不同的版本,差别展現在資料量上:
- 迷你版(樣例資料, 101KB):tar.gz格式,zip格式
- 完整版(711MB):tar.gz格式,zip格式
曆史版本:
- 完整版(同時提供硬碟拷貝,1.02GB):tar.gz格式
- 迷你版(樣例資料, 3KB):tar.gz格式
- 精簡版(一個月資料, 437MB):tar.gz格式
1.3 搜狐新聞資料(SogouCS)
SogouCS來自搜狐新聞2012年6月—7月期間國内,國際,體育,社會,娛樂等18個頻道的新聞資料,提供URL和正文資訊,格式如下:
<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>
為了滿足不同需求,SogouCS分為了不同的版本,差别展現在資料量上:
- 迷你版(樣例資料, 110KB):tar.gz格式,zip格式
- 完整版(648MB):tar.gz格式,zip格式
曆史版本:
- 完整版(同時提供硬碟拷貝,65GB):tar.gz格式
- 迷你版(樣例資料, 1KB):tar.gz格式
- 精簡版(一個月資料, 347MB):tar.gz格式
- 特别版(王燦輝WWW08論文資料, 647KB):tar.gz格式
1.4 文本分類評價(SogouTCE)
SogouTCE用以評估文本分類結果的正确性,語料來自搜狐等多個新聞網站近20個頻道,格式如下:
URL字首\t對應類别标記
SogouTCE隻包含URL字首和對應類别标記的資料,原始的文本資料可以使用SogouCA和SogouCS。
1.5 網際網路詞庫(SogouW)
SogouW來自于對SOGOU搜尋引擎所索引到的中文網際網路語料的統計分析,統計所進行的時間是2006年10月,涉及到的網際網路語料規模在1億頁面以上。統計出的詞條數約為15萬條高頻詞,除标出這部分詞條的詞頻資訊之外,還标出了常用的詞性資訊,格式如下:
詞A 詞頻 詞性1 詞性2 … 詞性N
詞B 詞頻 詞性1 詞性2 … 詞性N
詞C 詞頻 詞性1 詞性2 … 詞性N
2. 阿裡雲天池
天池作為國内較為出名的比賽平台,除了釋出一系列比賽資訊及任務外,還有很多教學視訊及資料可供大家學習成長。當然,針對本文所述内容,重中之重便是其中也不乏一些開源資料集。
網址:https://tianchi.aliyun.com/dataset/
3. 百度大腦|AI開放平台
百度AI開放平台上不僅隻有他們開放的一些功能的API,在其開發平台上,也會提供一系列的資料集,用于大家學習實踐。其中大部分資料集也是大家本着開源的心态共享上去的,是以格式複雜。
網址:https://aistudio.baidu.com/aistudio/datasetoverview
4. IMDB Reviews
網際網路電影資料庫(Internet Movie Database,簡稱IMDB)是一個關于電影演員、電影、電視節目、電視明星和電影制作的線上資料庫。IMDB Reviews是記錄了觀衆對IMDB中作品的評價。除了訓練和測試評估示例之外,還有更多未标記的資料可供使用,包括文本和預處理的詞袋格式。IMDB Reviews包含25,000個高度差異化的電影評論用于訓練,25,000個測試,通常用于英文的情感了解。
5. Sentiment140
Sentiment140是一個可用于情感分析的資料集,包含160,000條推文。一個流行的資料集,非常适合開始你的NLP旅程。情緒已經從資料中預先移除。最終的資料集具有以下6個特征:
- 推文的極性
- 推文的ID
- 推文的日期
- 問題
- 推文的使用者名
- 推文的文本
6. 今日頭條新聞文本分類資料集
今日頭條新聞文本分類資料集共382688條,分布于15個分類中,分類code與名稱:
- 100 民生 故事 news_story
- 101 文化 文化 news_culture
- 102 娛樂 娛樂 news_entertainment
- 103 體育 體育 news_sports
- 104 财經 财經 news_finance
- 106 房産 房産 news_house
- 107 汽車 汽車 news_car
- 108 教育 教育 news_edu
- 109 科技 科技 news_tech
- 110 軍事 軍事 news_military
- 112 旅遊 旅遊 news_travel
- 113 國際 國際 news_world
- 114 證券 股票 stock
- 115 農業 三農 news_agriculture
-
116 電競 遊戲 news_game
資料格式為:
6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網絡謠言,
之後她的兩個行為給自己加分_!_佟麗娅,網絡謠言,快樂大學營,李浩菲,謝娜,觀衆們
每行為一條資料,以_!_分割的個字段,從前往後分别是 新聞ID,分類code,分類名稱,新聞字元串(僅含标題),新聞關鍵詞.
項目首頁在github上,運作get_data.py即可擷取實時擷取對應的資料。
https://github.com/fateleak/toutiao-text-classfication-dataset
也可以直接使用github上的曆史資料進行分析。
https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip
寫在最後
本文最後推薦一個非常好的開源的NLP學習項目,其簡介為:
NLP民工的樂園: 幾乎最全的中文NLP資源庫
- 詞庫
- 工具包
- 學習資料
網址: https://github.com/fighting41love/funNLP