今天的頭條文章是Nature關于“論文零引用”的研究。2017年,各路AI會議頗多、論文頻出,有哪些論文值得關注?它們給這個世界帶來了什麼樣的影響?我們希望這個小欄目的存在,能讓論文重新“發聲”,得到更多關注。
如果你也有印象深刻的論文,本欄目歡迎你帶着對論文的解讀投稿,也希望更多論文作者主動聯系我們。聯系郵箱:[email protected]
今年8月,紐約大學教授、Facebook人工智能實驗室主任Yann LeCun及其博士生Xiang Zhang在Arxiv上發表了論文“何種編碼機制最适合中文、英語、日語、韓語的文本分類?”
他們首次對37種現有編碼方法進行了系統性研究,使用到14個多語言資料庫(共473個模型),資料集來自中國線上餐飲評論網站dianping.com,日本線上購物網站rakuten.co.jp,南韓線上購物網站11st.co.kr和“紐約時報”等網站,樣本量超過1000萬。
最終,性能最佳的是字元級5-gram fastText模型。fastText是Facebook AI實驗室開發的一種開源方法。
他們的研究讓多語言文本處理更加高效,對中文、日語和韓語的文本處理也在提醒我們AI研究的全球性。
他們也将開源他們的代碼,代碼位址:
https://github.com/zhangxiangxiao/glyph
論文第一作者Xiang Zhang的個人首頁:
http://xzh.me/
資訊來源:Twitter, Medium
論文位址:
https://arxiv.org/abs/1708.02657
原文釋出時間為:2017-12-27
本文作者:龍牧雪