天天看點

Deep Learning 在中文分詞和詞性标注任務中的應用

開源軟體包 SENNA 和 word2vec 中都用到了詞向量(distributed word representation),當時我就在想,對于我們的中文,是不是也類似地有字向量(distributed character representation)的概念呢?

      最近恰好讀到複旦大學鄭骁慶博士等人的文章 [1]《Deep Learning for Chinese Word Segmentation and POS tagging》。這篇文章利用文 [3] 作者提出的神經網絡架構,針對中文分詞和詞性标注任務,給出了一種基于字向量的 perceptron-style 算法,該算法的亮點是受文 [4] 啟發在訓練部分用了一種新的思路,而不是采用傳統的 maximum log-likelihood 方法,極大地降低了算法複雜度,且非常容易實作。數值實驗表明,該算法的 performance 也還不錯。

      本部落格是讀完文 [1] 後的一則筆記,内容以翻譯為主,同時也穿插了一些注記,供感興趣的讀者參考。      

若需要本文完整的 PDF 文檔,請點選《Deep Learning 在中文分詞和詞性标注任務中的應用》進行下載下傳!

作者: peghoty 

出處: http://blog.csdn.net/itplus/article/details/13616045

歡迎轉載/分享, 但請務必聲明文章出處.

繼續閱讀