天天看點

自然語言處理-命名實體識别的預料優化

本文主要是針對https://github.com/Determined22/zh-NER-TF 這個開源工程中的一個ner語料進行優化

自然語言處理-命名實體識别的預料優化

非常标準的命名實體識别語料,語料的品質也是非常的高。

但是有個小問題

語料對于人物的标注,有非常多帶稱謂的人物隻标注的姓

導緻識别到非常多單字的姓效果非常差。

例如張女士、和張師傅識别結果都是張、張。

但我認為稱謂也應該附帶上

這邊我花了兩天時間,對語料中大約八百處标注進行了修改

原始語料

自然語言處理-命名實體識别的預料優化
自然語言處理-命名實體識别的預料優化

修改之後

自然語言處理-命名實體識别的預料優化
自然語言處理-命名實體識别的預料優化

識别結果對比

語料修改之前的識别效果

自然語言處理-命名實體識别的預料優化

修改之後的重新訓練的識别結果

自然語言處理-命名實體識别的預料優化

可以看到效果非常的顯著

最後非常感謝大佬開源的工程,現也将語料公開

csdn下載下傳連結

github

如果對你有用歡迎star一下

最後還是非常感謝大佬開源的項目

https://github.com/cycz/nerData/blob/master/README.md

繼續閱讀