《A Survey on Recent Advances in Named Entity Recognition from Deep Learning models》
這是第一篇關于深度學習在NER上應用的綜述文章
這篇文章比較注重多語言和多領域的基于深度學習NER的綜述
1.資料集
作者列舉了目前一些常用的資料集,包括語言類資料和領域類資料。語言類資料就比較廣泛,基本各種語言都可以用來做NER任務;領域類資料比較集中在生物和醫藥類資料,還有社交媒體資料。
2.評估方法
NER系統的評估方法常常用F score來評估,F1最常用。
接下來就是重點對各種模型的綜述,作者對NER模型分為四個大類:
- 基于知識
- 無監督和引導
- 特征工程有監督
- 特征下的神經網絡
3.方法
3.1 基于知識的NER系統
基于知識的NER不需要對資料進行标注訓練,而是依賴于詞典和領域特殊知識。這種方法常常具有較高的準确率,但召回率會比較低。
3.2 無監督和引導
這些無監督和引導系統往往先加入一些seeds種子标簽和一些正字特征進行NER。在這些方法中就會經常考慮使用句法、正字、規則等知識。
3.3 特征工程的有監督
特征工程的有監督方法主要依賴于機器學習中的方法。常用的方法是HMM、SVM、CRF和一些decision tree 模型。
3.4 特征下的神經網絡
作者利用embedding layer的不同輸入形式進行了神經網絡的四種劃分:
- word level
- character level
- character + word level
- character + word + affix
這些模型通常會在最後NN輸出層套上一個詞标注模型,比較常用的就是CRF模型。但總的來說這些模型嘗試了各種NN的變種進行NER任務。
4 總結
對于整個綜述,作者得出以下幾個發現finding:
- 神經網絡模型優于特征工程系統;
- word + character NN模型優于單獨的word 和 character NN模型。
- 一些有趣的進步是,特征工程融入到NN模型。例如加入詞綴在NN模型中。