2017論文回顧 | Yann LeCun：中英日韓國文本分類通用編碼機制（附論文下載下傳）

2021-11-16 20:09:36

今天的頭條文章是Nature關于“論文零引用”的研究。2017年，各路AI會議頗多、論文頻出，有哪些論文值得關注？它們給這個世界帶來了什麼樣的影響？我們希望這個小欄目的存在，能讓論文重新“發聲”，得到更多關注。

如果你也有印象深刻的論文，本欄目歡迎你帶着對論文的解讀投稿，也希望更多論文作者主動聯系我們。聯系郵箱：[email protected]

今年8月，紐約大學教授、Facebook人工智能實驗室主任Yann LeCun及其博士生Xiang Zhang在Arxiv上發表了論文“何種編碼機制最适合中文、英語、日語、韓語的文本分類？”

他們首次對37種現有編碼方法進行了系統性研究，使用到14個多語言資料庫（共473個模型），資料集來自中國線上餐飲評論網站dianping.com，日本線上購物網站rakuten.co.jp，南韓線上購物網站11st.co.kr和“紐約時報”等網站，樣本量超過1000萬。

最終，性能最佳的是字元級5-gram fastText模型。fastText是Facebook AI實驗室開發的一種開源方法。

他們的研究讓多語言文本處理更加高效，對中文、日語和韓語的文本處理也在提醒我們AI研究的全球性。

他們也将開源他們的代碼，代碼位址：

https://github.com/zhangxiangxiao/glyph

論文第一作者Xiang Zhang的個人首頁：

http://xzh.me/

資訊來源：Twitter, Medium

論文位址：

https://arxiv.org/abs/1708.02657

原文釋出時間為：2017-12-27

本文作者：龍牧雪

繼續閱讀