天天看點

NLP學習過程中常用資料概述資料集來源

NLP項目常用資料

  • 概述
  • 資料集來源
    • 1. 搜狗實驗室資料
      • 1.1 網際網路語料庫(SogouT)
      • 1.2 全網新聞資料(SogouCA)
      • 1.3 搜狐新聞資料(SogouCS)
      • 1.4 文本分類評價(SogouTCE)
      • 1.5 網際網路詞庫(SogouW)
    • 2. 阿裡雲天池
    • 3. 百度大腦|AI開放平台
    • 4. IMDB Reviews
    • 5. Sentiment140
    • 6. 今日頭條新聞文本分類資料集
    • 寫在最後

概述

在NLP項目中,主要的項目包含:文本分類、輿情分析、摘要抽取、文本糾錯、情感分析以及智能分詞等。而在學習這類項目的過程中,在了解理論的同時,還需要自己動手實訓。是以資料集對于我們來說是非常重要的。以下将介紹幾個開源的資料集。

資料集來源

1. 搜狗實驗室資料

搜狗實驗室(Sogo Labs)是搜狗搜尋核心研發團隊對外交流的視窗,包含資料資源、資料挖掘雲、研究合作等幾個欄目。資料資源包括評測集合、語料資料、新聞資料、圖檔資料和自然語言處理相關資料,網址為http://www.sogou.com/labs/resource/list_pingce.php

1.1 網際網路語料庫(SogouT)

SogouT來自網際網路各種類型的1.3億個原始網頁, 壓縮前的大小超過了5TB,格式如下:

// 資料存儲示例
<doc>
<docno>頁面ID</docno>
<url>頁面URL</url>
頁面原始内容
</doc>
           

為了滿足不同需求,SogouT分為了不同的版本,差别展現在資料量上:

  • 迷你版(樣例資料, 61KB):tar.gz格式,zip格式
  • 完整版(1TB):(硬碟拷貝)
  • 曆史版本(130GB):V2.0(硬碟拷貝)

1.2 全網新聞資料(SogouCA)

SogouCA來自若幹新聞站點2012年6月—7月期間國内,國際,體育,社會,娛樂等18個頻道的新聞資料,提供URL和正文資訊,格式如下:

<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>
           

為了滿足不同需求,SogouCA分為了不同的版本,差别展現在資料量上:

  • 迷你版(樣例資料, 101KB):tar.gz格式,zip格式
  • 完整版(711MB):tar.gz格式,zip格式

曆史版本:

  • 完整版(同時提供硬碟拷貝,1.02GB):tar.gz格式
  • 迷你版(樣例資料, 3KB):tar.gz格式
  • 精簡版(一個月資料, 437MB):tar.gz格式

1.3 搜狐新聞資料(SogouCS)

SogouCS來自搜狐新聞2012年6月—7月期間國内,國際,體育,社會,娛樂等18個頻道的新聞資料,提供URL和正文資訊,格式如下:

<doc>
<url>頁面URL</url>
<docno>頁面ID</docno>
<contenttitle>頁面标題</contenttitle>
<content>頁面内容</content>
</doc>
           

為了滿足不同需求,SogouCS分為了不同的版本,差别展現在資料量上:

  • 迷你版(樣例資料, 110KB):tar.gz格式,zip格式
  • 完整版(648MB):tar.gz格式,zip格式

曆史版本:

  • 完整版(同時提供硬碟拷貝,65GB):tar.gz格式
  • 迷你版(樣例資料, 1KB):tar.gz格式
  • 精簡版(一個月資料, 347MB):tar.gz格式
  • 特别版(王燦輝WWW08論文資料, 647KB):tar.gz格式

1.4 文本分類評價(SogouTCE)

SogouTCE用以評估文本分類結果的正确性,語料來自搜狐等多個新聞網站近20個頻道,格式如下:

URL字首\t對應類别标記
           

SogouTCE隻包含URL字首和對應類别标記的資料,原始的文本資料可以使用SogouCA和SogouCS。

1.5 網際網路詞庫(SogouW)

SogouW來自于對SOGOU搜尋引擎所索引到的中文網際網路語料的統計分析,統計所進行的時間是2006年10月,涉及到的網際網路語料規模在1億頁面以上。統計出的詞條數約為15萬條高頻詞,除标出這部分詞條的詞頻資訊之外,還标出了常用的詞性資訊,格式如下:

詞A 詞頻 詞性1 詞性2 … 詞性N

詞B 詞頻 詞性1 詞性2 … 詞性N

詞C 詞頻 詞性1 詞性2 … 詞性N
           

2. 阿裡雲天池

天池作為國内較為出名的比賽平台,除了釋出一系列比賽資訊及任務外,還有很多教學視訊及資料可供大家學習成長。當然,針對本文所述内容,重中之重便是其中也不乏一些開源資料集。

網址:https://tianchi.aliyun.com/dataset/

3. 百度大腦|AI開放平台

百度AI開放平台上不僅隻有他們開放的一些功能的API,在其開發平台上,也會提供一系列的資料集,用于大家學習實踐。其中大部分資料集也是大家本着開源的心态共享上去的,是以格式複雜。

網址:https://aistudio.baidu.com/aistudio/datasetoverview

4. IMDB Reviews

網際網路電影資料庫(Internet Movie Database,簡稱IMDB)是一個關于電影演員、電影、電視節目、電視明星和電影制作的線上資料庫。IMDB Reviews是記錄了觀衆對IMDB中作品的評價。除了訓練和測試評估示例之外,還有更多未标記的資料可供使用,包括文本和預處理的詞袋格式。IMDB Reviews包含25,000個高度差異化的電影評論用于訓練,25,000個測試,通常用于英文的情感了解。

5. Sentiment140

Sentiment140是一個可用于情感分析的資料集,包含160,000條推文。一個流行的資料集,非常适合開始你的NLP旅程。情緒已經從資料中預先移除。最終的資料集具有以下6個特征:

  • 推文的極性
  • 推文的ID
  • 推文的日期
  • 問題
  • 推文的使用者名
  • 推文的文本

6. 今日頭條新聞文本分類資料集

今日頭條新聞文本分類資料集共382688條,分布于15個分類中,分類code與名稱:

  • 100 民生 故事 news_story
  • 101 文化 文化 news_culture
  • 102 娛樂 娛樂 news_entertainment
  • 103 體育 體育 news_sports
  • 104 财經 财經 news_finance
  • 106 房産 房産 news_house
  • 107 汽車 汽車 news_car
  • 108 教育 教育 news_edu
  • 109 科技 科技 news_tech
  • 110 軍事 軍事 news_military
  • 112 旅遊 旅遊 news_travel
  • 113 國際 國際 news_world
  • 114 證券 股票 stock
  • 115 農業 三農 news_agriculture
  • 116 電競 遊戲 news_game

    資料格式為:

6552431613437805063_!_102_!_news_entertainment_!_謝娜為李浩菲澄清網絡謠言,

之後她的兩個行為給自己加分_!_佟麗娅,網絡謠言,快樂大學營,李浩菲,謝娜,觀衆們
           

每行為一條資料,以_!_分割的個字段,從前往後分别是 新聞ID,分類code,分類名稱,新聞字元串(僅含标題),新聞關鍵詞.

項目首頁在github上,運作get_data.py即可擷取實時擷取對應的資料。

https://github.com/fateleak/toutiao-text-classfication-dataset
           

也可以直接使用github上的曆史資料進行分析。

https://github.com/fateleak/toutiao-text-classfication-dataset/raw/master/toutiao_cat_data.txt.zip

寫在最後

本文最後推薦一個非常好的開源的NLP學習項目,其簡介為:

NLP民工的樂園: 幾乎最全的中文NLP資源庫

  • 詞庫
  • 工具包
  • 學習資料

網址: https://github.com/fighting41love/funNLP

繼續閱讀