中文自然語言處理資料集：ChineseNLPCorpus（附連結）

來源：AINLP

文章來源：微信公衆号資料派THU

本文約1300字，建議閱讀5分鐘。

本文為你推薦中文自然語言處理資料集。

推薦一個Github項目：ChineseNLPCorpus，該項目收集了一批中文自然語言處理資料集的相關連結，可以用來練手，點選閱讀原文可以直達該項目連結：

https://github.com/InsaneLife/ChineseNLPCorpus

以下來自該項目介紹頁

中文自然語言處理資料集，平時做做實驗的材料。歡迎補充送出合并。

文本分類

新聞分類

今日頭條中文新聞（短文本）分類資料集： https://github.com/fateleak/toutiao-text-classfication-dataset

資料規模：共38萬條，分布于15個分類中。

采集時間：2018年05月。

以0.7 0.15 0.15做分割。

清華新聞分類語料：

根據新浪新聞RSS訂閱頻道2005~2011年間的曆史資料篩選過濾生成。

資料量：74萬篇新聞文檔（2.19 GB）

小資料實驗可以篩選類别：體育, 财經, 房産, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂

http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5

rnn和cnn實驗：

https://github.com/

gaussic/text-classification-cnn-rnn

中科大新聞分類語料庫： http://www.nlpir.org/?action-viewnews-itemid-145

情感/觀點/評論傾向性分析

實體識别&詞性标注

微網誌實體識别。 https://github.com/hltcoe/golden-horse
boson資料。

包含6種實體類型。

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/boson

1998年人民日報資料集。

人名、地名、組織名三種實體類型

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/renMinRiBao

MSRA微軟亞洲研究院資料集。

萬多條中文命名實體識别标注資料（包括地點、機構、人物）

https://github.com/InsaneLife/ChineseNLPCorpus/tree/master/NER/MSRA

SIGHAN Bakeoff 2005：一共有四個資料集，包含繁體中文和簡體中文，下面是簡體中文分詞資料。

MSR:

http://sighan.cs.uchicago.edu/bakeoff2005/

PKU ：

搜尋比對

OPPO手機搜尋排序

OPPO手機搜尋排序query-title語義比對資料集。

下載下傳連結：

https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw

網頁搜尋結果評價(SogouE)

推薦系統

百科資料

維基百科

維基百科會定時将語料庫打包釋出：

資料處理部落格
https://dumps.wikimedia.org/zhwiki/

百度百科

隻能自己爬，爬取得連結：

https://pan.baidu.

com/share/init?surl=i3wvfil提取碼 neqs 。

指代消歧

CoNLL 2012 ：

http://conll.cemantix

.org/2012/data.html

預訓練：（詞向量or模型）

BERT

開源代碼:

google-research/bert

模型下載下傳：BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters

ELMO

開源代碼：

https://github.com/allenai/bilm-tf

預訓練的模型：

https://allennlp.org/elmo

騰訊詞向量

騰訊AI實驗室公開的中文詞向量資料集包含800多萬中文詞彙，其中每個詞對應一個200維的向量。

下載下傳位址：

https://ai.tencent.com

/ailab/nlp/embedding.html

上百種預訓練中文詞向量

Embedding/Chinese-Word-Vectors

中文完形填空資料集

ymcui/Chinese-RC-Dataset

中華古詩詞資料庫

最全中華古詩詞資料集，唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人，21050首詞。

https://github.com/chinese-poetry/chinese-poetry

保險行業語料庫

Samurais/insuranceqa-corpus-zh

漢語拆字字典

英文可以做char embedding，中文不妨可以試試拆字

https://github.com/kfcd/chaizi

中文資料集平台

搜狗實驗室

搜狗實驗室提供了一些高品質的中文文本資料集，時間比較早，多為2012年以前的資料。

https://www.sogou.com/labs/resource/list_pingce.php

中科大自然語言處理與資訊檢索共享平台 http://www.nlpir.org/?action-category-catid-28
中文語料小資料

包含了中文命名實體識别、中文關系識别、中文閱讀了解等一些小量資料。

https://github.com/crownpku/Small-Chinese-Corpus

維基百科資料集 https://dumps.wikimedia.org/

NLP工具

THULAC：

https://github.com/thunlp/THULAC

：包括中文分詞、詞性标注功能。

HanLP：

https://github.com/hankcs/HanLP

哈工大LTP：

https://github.com/HIT-SCIR/ltp

NLPIR ：

https://github.com/NLPIR-team/NLPIR

jieba ：

https://github.com/yanyiwu/cppjieba

編輯：于騰凱

中文自然語言處理資料集：ChineseNLPCorpus（附連結）

文本分類

實體識别&詞性标注

搜尋比對

OPPO手機搜尋排序

網頁搜尋結果評價(SogouE)

百科資料

預訓練：（詞向量or模型）

中文資料集平台

繼續閱讀

seq2seq模型 + Attention機制

傳統的seq2seq模型與seq2seq with attention的模型原理細節解析

torch.nn.Embedding的使用torch.nn.Embedding

nn.Embedding()參數的了解nn.Embedding()

pytorch中nn.RNN()總結

聯考志願填報：人工智能專業怎麼樣？人工智能行業發展前景如何？

【Python學習筆記】- Day6

Windows版本的Google word2vec和Stanford GloVe工具

seq2sqe與attenton實作聊天機器人

奮戰聊天機器人（四）自然語言進行中的文本分類nltk中的貝葉斯分類器

從詞向量衡量标準到全局向量的詞嵌入模型GloVe再到一詞多義的解決方式衡量标準Evaluation引子全局向量的詞嵌入應用對一詞多義的思考Reference

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

anaconda中科大鏡像

NLP從入門到放棄_IBM Model1IBM Model1

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合