NLP項目常用資料

概述
資料集來源
- 1. 搜狗實驗室資料
- - 1.1 網際網路語料庫(SogouT)
  - 1.2 全網新聞資料(SogouCA)
  - 1.3 搜狐新聞資料(SogouCS)
  - 1.4 文本分類評價(SogouTCE)
  - 1.5 網際網路詞庫(SogouW)
- 2. 阿裡雲天池
- 3. 百度大腦|AI開放平台
- 4. IMDB Reviews
- 5. Sentiment140
- 6. 今日頭條新聞文本分類資料集
- 寫在最後

概述

在NLP項目中，主要的項目包含：文本分類、輿情分析、摘要抽取、文本糾錯、情感分析以及智能分詞等。而在學習這類項目的過程中，在了解理論的同時，還需要自己動手實訓。是以資料集對于我們來說是非常重要的。以下将介紹幾個開源的資料集。

資料集來源

1. 搜狗實驗室資料

搜狗實驗室（Sogo Labs）是搜狗搜尋核心研發團隊對外交流的視窗，包含資料資源、資料挖掘雲、研究合作等幾個欄目。資料資源包括評測集合、語料資料、新聞資料、圖檔資料和自然語言處理相關資料，網址為http://www.sogou.com/labs/resource/list_pingce.php

1.1 網際網路語料庫(SogouT)

SogouT來自網際網路各種類型的1.3億個原始網頁, 壓縮前的大小超過了5TB，格式如下：

// 資料存儲示例
<doc>
<docno>頁面ID</docno>
<url>頁面URL</url>
頁面原始内容
</doc>

為了滿足不同需求，SogouT分為了不同的版本，差别展現在資料量上：

迷你版(樣例資料, 61KB)：tar.gz格式,zip格式
完整版(1TB)：(硬碟拷貝)
曆史版本(130GB)：V2.0(硬碟拷貝)

1.2 全網新聞資料(SogouCA)

SogouCA來自若幹新聞站點2012年6月—7月期間國内，國際，體育，社會，娛樂等18個頻道的新聞資料，提供URL和正文資訊，格式如下：

<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>

為了滿足不同需求，SogouCA分為了不同的版本，差别展現在資料量上：

迷你版(樣例資料, 101KB)：tar.gz格式，zip格式
完整版(711MB)：tar.gz格式，zip格式

曆史版本：

完整版(同時提供硬碟拷貝,1.02GB)：tar.gz格式
迷你版(樣例資料, 3KB)：tar.gz格式
精簡版(一個月資料, 437MB)：tar.gz格式

1.3 搜狐新聞資料(SogouCS)

SogouCS來自搜狐新聞2012年6月—7月期間國内，國際，體育，社會，娛樂等18個頻道的新聞資料，提供URL和正文資訊，格式如下：

<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>

為了滿足不同需求，SogouCS分為了不同的版本，差别展現在資料量上：

迷你版(樣例資料, 110KB)：tar.gz格式，zip格式
完整版(648MB)：tar.gz格式，zip格式

曆史版本：

完整版(同時提供硬碟拷貝,65GB)：tar.gz格式
迷你版(樣例資料, 1KB)：tar.gz格式
精簡版(一個月資料, 347MB)：tar.gz格式
特别版(王燦輝WWW08論文資料, 647KB)：tar.gz格式

1.4 文本分類評價(SogouTCE)

SogouTCE用以評估文本分類結果的正确性，語料來自搜狐等多個新聞網站近20個頻道，格式如下：

URL字首\t對應類别标記

SogouTCE隻包含URL字首和對應類别标記的資料，原始的文本資料可以使用SogouCA和SogouCS。

1.5 網際網路詞庫(SogouW)

SogouW來自于對SOGOU搜尋引擎所索引到的中文網際網路語料的統計分析，統計所進行的時間是2006年10月，涉及到的網際網路語料規模在1億頁面以上。統計出的詞條數約為15萬條高頻詞，除标出這部分詞條的詞頻資訊之外，還标出了常用的詞性資訊，格式如下：

詞A 詞頻 詞性1 詞性2 … 詞性N

詞B 詞頻 詞性1 詞性2 … 詞性N

詞C 詞頻 詞性1 詞性2 … 詞性N

2. 阿裡雲天池

天池作為國内較為出名的比賽平台，除了釋出一系列比賽資訊及任務外，還有很多教學視訊及資料可供大家學習成長。當然，針對本文所述内容，重中之重便是其中也不乏一些開源資料集。

網址：https://tianchi.aliyun.com/dataset/

3. 百度大腦|AI開放平台

百度AI開放平台上不僅隻有他們開放的一些功能的API，在其開發平台上，也會提供一系列的資料集，用于大家學習實踐。其中大部分資料集也是大家本着開源的心态共享上去的，是以格式複雜。

網址：https://aistudio.baidu.com/aistudio/datasetoverview

4. IMDB Reviews

網際網路電影資料庫（Internet Movie Database，簡稱IMDB）是一個關于電影演員、電影、電視節目、電視明星和電影制作的線上資料庫。IMDB Reviews是記錄了觀衆對IMDB中作品的評價。除了訓練和測試評估示例之外，還有更多未标記的資料可供使用，包括文本和預處理的詞袋格式。IMDB Reviews包含25,000個高度差異化的電影評論用于訓練，25,000個測試，通常用于英文的情感了解。

5. Sentiment140

Sentiment140是一個可用于情感分析的資料集，包含160,000條推文。一個流行的資料集，非常适合開始你的NLP旅程。情緒已經從資料中預先移除。最終的資料集具有以下6個特征：

推文的極性
推文的ID
推文的日期
問題
推文的使用者名
推文的文本

6. 今日頭條新聞文本分類資料集

今日頭條新聞文本分類資料集共382688條，分布于15個分類中，分類code與名稱：

100 民生故事 news_story
101 文化文化 news_culture
102 娛樂娛樂 news_entertainment
103 體育體育 news_sports
104 财經财經 news_finance
106 房産房産 news_house
107 汽車汽車 news_car
108 教育教育 news_edu
109 科技科技 news_tech
110 軍事軍事 news_military
112 旅遊旅遊 news_travel
113 國際國際 news_world
114 證券股票 stock
115 農業三農 news_agriculture
116 電競遊戲 news_game

資料格式為：

6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網絡謠言，

之後她的兩個行為給自己加分_!_佟麗娅,網絡謠言,快樂大學營,李浩菲,謝娜,觀衆們

每行為一條資料，以_!_分割的個字段，從前往後分别是新聞ID，分類code，分類名稱，新聞字元串（僅含标題），新聞關鍵詞.

項目首頁在github上，運作get_data.py即可擷取實時擷取對應的資料。

https://github.com/fateleak/toutiao-text-classfication-dataset

也可以直接使用github上的曆史資料進行分析。

https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip

寫在最後

本文最後推薦一個非常好的開源的NLP學習項目，其簡介為：

NLP民工的樂園: 幾乎最全的中文NLP資源庫

詞庫
工具包
學習資料

網址： https://github.com/fighting41love/funNLP

NLP學習過程中常用資料概述資料集來源

NLP項目常用資料

概述

資料集來源

1. 搜狗實驗室資料

1.1 網際網路語料庫(SogouT)

1.2 全網新聞資料(SogouCA)

1.3 搜狐新聞資料(SogouCS)

1.4 文本分類評價(SogouTCE)

1.5 網際網路詞庫(SogouW)

2. 阿裡雲天池

3. 百度大腦|AI開放平台

4. IMDB Reviews

5. Sentiment140

6. 今日頭條新聞文本分類資料集

寫在最後

繼續閱讀

seq2seq模型 + Attention機制

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合