來源:AINLP
文章來源:微信公衆号 資料派THU
本文約1300字,建議閱讀5分鐘。
本文為你推薦中文自然語言處理資料集。
推薦一個Github項目:ChineseNLPCorpus,該項目收集了一批中文自然語言處理資料集的相關連結,可以用來練手,點選閱讀原文可以直達該項目連結:
https://github.com/InsaneLife/ChineseNLPCorpus以下來自該項目介紹頁
中文自然語言處理資料集,平時做做實驗的材料。歡迎補充送出合并。
文本分類
新聞分類
- 今日頭條中文新聞(短文本)分類資料集: https://github.com/fateleak/toutiao-text-classfication-dataset
資料規模:共38萬條,分布于15個分類中。
采集時間:2018年05月。
以0.7 0.15 0.15做分割 。
- 清華新聞分類語料:
根據新浪新聞RSS訂閱頻道2005~2011年間的曆史資料篩選過濾生成。
資料量:74萬篇新聞文檔(2.19 GB)
小資料實驗可以篩選類别:體育, 财經, 房産, 家居, 教育, 科技, 時尚, 時政, 遊戲, 娛樂
http://thuctc.thunlp.org/#%E8%8E%B7%E5%8F%96%E9%93%BE%E6%8E%A5rnn和cnn實驗:
https://github.com/gaussic/text-classification-cnn-rnn
- 中科大新聞分類語料庫: http://www.nlpir.org/?action-viewnews-itemid-145
情感/觀點/評論 傾向性分析
![](https://img.laitimes.com/img/__Qf2AjLwojIjJCLyojI0JCLicmbw5SMwMDNklzM2cTZilTOiBTOlBjN0EDMjlDZ1IDMjlDM28CX5d2bs92Yl1iclB3bsVmdlR2LcNWaw9CXt92Yu4GZjlGbh5yYjV3Lc9CX6MHc0RHaiojIsJye.png)
實體識别&詞性标注
- 微網誌實體識别。 https://github.com/hltcoe/golden-horse
-
boson資料。
包含6種實體類型。
-
1998年人民日報資料集。
人名、地名、組織名三種實體類型
- MSRA微軟亞洲研究院資料集。
- 萬多條中文命名實體識别标注資料(包括地點、機構、人物)
- SIGHAN Bakeoff 2005:一共有四個資料集,包含繁體中文和簡體中文,下面是簡體中文分詞資料。
MSR:
http://sighan.cs.uchicago.edu/bakeoff2005/PKU :
搜尋比對
OPPO手機搜尋排序
OPPO手機搜尋排序query-title語義比對資料集。
下載下傳連結:
https://pan.baidu.com/s/1Obm8oRVZEIh76-cpPc0qZw網頁搜尋結果評價(SogouE)
使用者查詢及相關URL清單
https://www.sogou.com/labs/resource/e.php推薦系統
百科資料
維基百科
維基百科會定時将語料庫打包釋出:
百度百科
隻能自己爬,爬取得連結:
https://pan.baidu.com/share/init?surl=i3wvfil提取碼 neqs 。
指代消歧
CoNLL 2012 :
http://conll.cemantix.org/2012/data.html
預訓練:(詞向量or模型)
BERT
開源代碼:
google-research/bert
模型下載下傳:BERT-Base, Chinese: Chinese Simplified and Traditional, 12-layer, 768-hidden, 12-heads, 110M parameters
ELMO
開源代碼:
https://github.com/allenai/bilm-tf預訓練的模型:
https://allennlp.org/elmo騰訊詞向量
騰訊AI實驗室公開的中文詞向量資料集包含800多萬中文詞彙,其中每個詞對應一個200維的向量。
下載下傳位址:
https://ai.tencent.com/ailab/nlp/embedding.html
上百種預訓練中文詞向量
Embedding/Chinese-Word-Vectors
中文完形填空資料集
ymcui/Chinese-RC-Dataset
中華古詩詞資料庫
最全中華古詩詞資料集,唐宋兩朝近一萬四千古詩人, 接近5.5萬首唐詩加26萬宋詩. 兩宋時期1564位詞人,21050首詞。
保險行業語料庫
Samurais/insuranceqa-corpus-zh
漢語拆字字典
英文可以做char embedding,中文不妨可以試試拆字
中文資料集平台
搜狗實驗室
- 搜狗實驗室提供了一些高品質的中文文本資料集,時間比較早,多為2012年以前的資料。
- 中科大自然語言處理與資訊檢索共享平台 http://www.nlpir.org/?action-category-catid-28
-
中文語料小資料
包含了中文命名實體識别、中文關系識别、中文閱讀了解等一些小量資料。
- 維基百科資料集 https://dumps.wikimedia.org/
NLP工具
THULAC:
https://github.com/thunlp/THULAC:包括中文分詞、詞性标注功能。
HanLP:
https://github.com/hankcs/HanLP哈工大LTP:
https://github.com/HIT-SCIR/ltpNLPIR :
https://github.com/NLPIR-team/NLPIRjieba :
https://github.com/yanyiwu/cppjieba編輯:于騰凱