天天看點

中文自然語言處理資料集:ChineseNLPCorpus(附連結)

來源:AINLP

文章來源:微信公衆号 資料派THU

本文約1300字,建議閱讀5分鐘。

本文為你推薦中文自然語言處理資料集。

推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理資料集的相關連結,可以用來練手,點選閱讀原文可以直達該項目連結:

https://github.com/InsaneLife/ChineseNLPCorpus

以下來自該項目介紹頁

中文自然語言處理資料集,平時做做實驗的材料。歡迎補充送出合并。

文本分類

新聞分類

資料規模:共38萬條,分布于15個分類中。

采集時間:2018年05月。

以0.7 0.15 0.15做分割 。

  • 清華新聞分類語料:

根據新浪新聞RSS訂閱頻道2005~2011年間的曆史資料篩選過濾生成。

資料量:74萬篇新聞文檔(2.19 GB)

小資料實驗可以篩選類别:體育, 财經, 房産, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗:

https://github.com/

gaussic/text-classification-cnn-rnn

情感/觀點/評論 傾向性分析

中文自然語言處理資料集:ChineseNLPCorpus(附連結)

實體識别&詞性标注

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson
  • 1998年人民日報資料集。

    人名、地名、組織名三種實體類型

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao
  • MSRA微軟亞洲研究院資料集。
  1. 萬多條中文命名實體識别标注資料(包括地點、機構、人物)
https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA
  • SIGHAN Bakeoff 2005:一共有四個資料集,包含繁體中文和簡體中文,下面是簡體中文分詞資料。

MSR:

http://sighan.cs.uchicago.edu/bakeoff2005/

PKU :

搜尋比對

OPPO手機搜尋排序

OPPO手機搜尋排序query-title語義比對資料集。

下載下傳連結:

https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw

網頁搜尋結果評價(SogouE)

使用者查詢及相關URL清單

https://www.sogou.com/labs/resource/e.php

推薦系統

中文自然語言處理資料集:ChineseNLPCorpus(附連結)

百科資料

維基百科

維基百科會定時将語料庫打包釋出:

百度百科

隻能自己爬,爬取得連結:

https://pan.baidu.

com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 :

http://conll.cemantix

.org/2012/data.html

預訓練:(詞向量or模型)

BERT

開源代碼:

google-research/bert

模型下載下傳:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開源代碼:

https://github.com/allenai/bilm-tf

預訓練的模型:

https://allennlp.org/elmo

騰訊詞向量

騰訊AI實驗室公開的中文詞向量資料集包含800多萬中文詞彙,其中每個詞對應一個200維的向量。

下載下傳位址:

https://ai.tencent.com

/ailab/nlp/embedding.html

上百種預訓練中文詞向量

Embedding/Chinese-Word-Vectors

中文完形填空資料集

ymcui/Chinese-RC-Dataset

中華古詩詞資料庫

最全中華古詩詞資料集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。

保險行業語料庫

Samurais/insuranceqa-corpus-zh

漢語拆字字典

英文可以做char embedding,中文不妨可以試試拆字

中文資料集平台

搜狗實驗室

  • 搜狗實驗室提供了一些高品質的中文文本資料集,時間比較早,多為2012年以前的資料。
https://www.sogou.com/labs/resource/list_pingce.php https://github.com/crownpku/Small-Chinese-Corpus

NLP工具

THULAC:

https://github.com/thunlp/THULAC

:包括中文分詞、詞性标注功能。

HanLP:

https://github.com/hankcs/HanLP

哈工大LTP:

https://github.com/HIT-SCIR/ltp

NLPIR :

https://github.com/NLPIR-team/NLPIR

jieba :

https://github.com/yanyiwu/cppjieba

編輯:于騰凱

繼續閱讀