本文主要是針對https://github.com/Determined22/zh-NER-TF 這個開源工程中的一個ner語料進行優化
非常标準的命名實體識别語料,語料的品質也是非常的高。
但是有個小問題
語料對于人物的标注,有非常多帶稱謂的人物隻标注的姓
導緻識别到非常多單字的姓效果非常差。
例如張女士、和張師傅識别結果都是張、張。
但我認為稱謂也應該附帶上
這邊我花了兩天時間,對語料中大約八百處标注進行了修改
原始語料
修改之後
識别結果對比
語料修改之前的識别效果
修改之後的重新訓練的識别結果
可以看到效果非常的顯著
最後非常感謝大佬開源的工程,現也将語料公開
csdn下載下傳連結
github
如果對你有用歡迎star一下
最後還是非常感謝大佬開源的項目
https://github.com/cycz/nerData/blob/master/README.md