天天看點

《中國人工智能學會通訊》——7.6 數 據

在應用以上深度學習模型的過程中,一個比較棘手的問題是随着網絡變得越來越複雜,其表示能力也越來越強,其中的參數也越來越多,由此帶來的問題是如果訓練資料規模不夠大,則很容易使模型陷入過拟合的狀态。

傳統利用語言學專家進行資料标注的方法需要花費大量的人力、物力、财力,存在标注代價高、規範性差等問題,很難獲得大規模高品質的人工标注資料。為了解決資料擷取的難題,比較直接的是利用衆包的方式擷取大規模的标注資料。當然,對于大公司而言,還可以利用寶貴的平台資料,如搜尋引擎的日志、聊天記錄等。除此之外還可以利用大規模的弱标注資料,其實生文本自身就是非常有價值的弱标注資料,借此我們已經能夠訓練語言模型、詞或句子的分布式向量表示等。另外,我們還需要積極尋找大規模的弱标注資料,如 DeepMind曾利用新聞網站提供的人工新聞摘要資料自動生成完型填空資料[14] 、電子商務網站中使用者對商品的評分資料等。

最後,受到圖像處理研究的啟發,我們還可以利用大規模人工自動構造資料,如可以通過對原始圖像進行旋轉、伸縮等操作,擷取更多的訓練圖像,在自然語言進行中,是否也可以通過對文本進行一定的變換,進而獲得大規模的訓練資料?如将正規文本中的詞随機替換為錯誤的詞,進而建構文法糾錯任務的訓練資料等。相關的研究還處于起步階段,相信今後會被給予更多的關注。

繼續閱讀