天天看點

2017論文回顧 | Yann LeCun:中英日韓國文本分類通用編碼機制(附論文下載下傳)

今天的頭條文章是Nature關于“論文零引用”的研究。2017年,各路AI會議頗多、論文頻出,有哪些論文值得關注?它們給這個世界帶來了什麼樣的影響?我們希望這個小欄目的存在,能讓論文重新“發聲”,得到更多關注。

如果你也有印象深刻的論文,本欄目歡迎你帶着對論文的解讀投稿,也希望更多論文作者主動聯系我們。聯系郵箱:[email protected]

今年8月,紐約大學教授、Facebook人工智能實驗室主任Yann LeCun及其博士生Xiang Zhang在Arxiv上發表了論文“何種編碼機制最适合中文、英語、日語、韓語的文本分類?”

2017論文回顧 | Yann LeCun:中英日韓國文本分類通用編碼機制(附論文下載下傳)

他們首次對37種現有編碼方法進行了系統性研究,使用到14個多語言資料庫(共473個模型),資料集來自中國線上餐飲評論網站dianping.com,日本線上購物網站rakuten.co.jp,南韓線上購物網站11st.co.kr和“紐約時報”等網站,樣本量超過1000萬。

最終,性能最佳的是字元級5-gram fastText模型。fastText是Facebook AI實驗室開發的一種開源方法。

他們的研究讓多語言文本處理更加高效,對中文、日語和韓語的文本處理也在提醒我們AI研究的全球性。

他們也将開源他們的代碼,代碼位址:

https://github.com/zhangxiangxiao/glyph

2017論文回顧 | Yann LeCun:中英日韓國文本分類通用編碼機制(附論文下載下傳)

論文第一作者Xiang Zhang的個人首頁:

http://xzh.me/

資訊來源:Twitter, Medium

論文位址:

https://arxiv.org/abs/1708.02657

原文釋出時間為:2017-12-27

本文作者:龍牧雪

繼續閱讀