第一篇關于深度學習在命名實體識别（NER）上應用的綜述文章

2023-03-21 07:16:13

《A Survey on Recent Advances in Named Entity Recognition from Deep Learning models》

這是第一篇關于深度學習在NER上應用的綜述文章

這篇文章比較注重多語言和多領域的基于深度學習NER的綜述

1.資料集

作者列舉了目前一些常用的資料集，包括語言類資料和領域類資料。語言類資料就比較廣泛，基本各種語言都可以用來做NER任務；領域類資料比較集中在生物和醫藥類資料，還有社交媒體資料。

2.評估方法

NER系統的評估方法常常用F score來評估，F1最常用。

接下來就是重點對各種模型的綜述，作者對NER模型分為四個大類：

3.方法

3.1 基于知識的NER系統

基于知識的NER不需要對資料進行标注訓練，而是依賴于詞典和領域特殊知識。這種方法常常具有較高的準确率，但召回率會比較低。

3.2 無監督和引導

這些無監督和引導系統往往先加入一些seeds種子标簽和一些正字特征進行NER。在這些方法中就會經常考慮使用句法、正字、規則等知識。

3.3 特征工程的有監督

特征工程的有監督方法主要依賴于機器學習中的方法。常用的方法是HMM、SVM、CRF和一些decision tree 模型。

3.4 特征下的神經網絡

作者利用embedding layer的不同輸入形式進行了神經網絡的四種劃分：

這些模型通常會在最後NN輸出層套上一個詞标注模型，比較常用的就是CRF模型。但總的來說這些模型嘗試了各種NN的變種進行NER任務。

4 總結

對于整個綜述，作者得出以下幾個發現finding：

繼續閱讀