NLP新paper每日分享 DAY 20 | 中文預訓練模型研究進展
2022年計算機科學(《計算領域高品質科技期刊分級目錄》T2)論文《中文預訓練模型研究進展》(p2),作者來自新财。
本文算是個比較正常的中文預訓練模型綜述論文,其實寫得很一般。但是可供參考。
介紹了自word2vec以來預訓練模型的優秀傳統,中文NLP任務相比英文NLP任務的獨特之處,最新的預訓練模型改進方向,尤其是中文預訓練的發展。
典型中文預訓練模型發展史 (p3)
1. 預訓練模型的方法改進
1. 掩碼方式
1. 全詞掩碼WWM(谷歌)
2. 實體、短語(百度ERNIE)
3. N-gram掩碼
4. 動态掩碼(RoBERTa)
5. 基于語言知識的掩碼(二郎神)
6. (後面幾個光看綜述沒看懂)
2. 位置編碼
1. 絕對位置編碼APE
2. 參數式相對位置編碼RPE
3. LN層的位置 (p4)
1. Post-LN
2. Pre-LN(可去除warm-up學習率階段)
3. Sandwich-LN
4. MoE層 (p5):該元件通過在網絡中引入多個專家來減少需要激活的神經元數量,以此提升模型的計算效率
5. 多粒度訓練:指的是不同分詞粒度
2. 外部資訊
1. 命名實體(百度ERNIE)
2. 知識圖譜(百度ERNIE3.0,鵬城-百度文心,神舟)
3. 語言學知識(Chinese BERT (p6),孟子)
1. 特定知識
3. 多模态
4. 高效計算
5. 特定領域
6. 英文預訓練模型在中文語料庫上訓練且開源的中文版本
預訓練相關資料彙總 (p7)
測評基準的任務彙總 (p8-9)
MUGE的3個多模态任務 (p10)
中文讀起來真是巴适得闆,比英文論文讀起來快多了。
我已經整理好了本期論文PDF版,感興趣的話dddd!