《中國人工智能學會通訊》——7.6 數據

2021-11-10 15:59:39

在應用以上深度學習模型的過程中，一個比較棘手的問題是随着網絡變得越來越複雜，其表示能力也越來越強，其中的參數也越來越多，由此帶來的問題是如果訓練資料規模不夠大，則很容易使模型陷入過拟合的狀态。

傳統利用語言學專家進行資料标注的方法需要花費大量的人力、物力、财力，存在标注代價高、規範性差等問題，很難獲得大規模高品質的人工标注資料。為了解決資料擷取的難題，比較直接的是利用衆包的方式擷取大規模的标注資料。當然，對于大公司而言，還可以利用寶貴的平台資料，如搜尋引擎的日志、聊天記錄等。除此之外還可以利用大規模的弱标注資料，其實生文本自身就是非常有價值的弱标注資料，借此我們已經能夠訓練語言模型、詞或句子的分布式向量表示等。另外，我們還需要積極尋找大規模的弱标注資料，如 DeepMind曾利用新聞網站提供的人工新聞摘要資料自動生成完型填空資料[14] 、電子商務網站中使用者對商品的評分資料等。

最後，受到圖像處理研究的啟發，我們還可以利用大規模人工自動構造資料，如可以通過對原始圖像進行旋轉、伸縮等操作，擷取更多的訓練圖像，在自然語言進行中，是否也可以通過對文本進行一定的變換，進而獲得大規模的訓練資料？如将正規文本中的詞随機替換為錯誤的詞，進而建構文法糾錯任務的訓練資料等。相關的研究還處于起步階段，相信今後會被給予更多的關注。

《中國人工智能學會通訊》——7.6 數據

繼續閱讀

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

吳恩達機器學習筆記（3）

吳恩達j機器學習之過拟合

吳恩達機器學習(一) 介紹

深度學習模型分析人類複雜疾病的準确性

疾病研究：重症肌無力

人工智能如何有效地運用于自然語言處理

新聞 | Mapbox 牽手阿裡，飛豬旅行上線六大城市地圖功能

[HTML5]自定義屬性 data-* 和 jQuery.data 詳解

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡

2021年危險化學品經營機關安全管理人員考試題庫及危險化學品經營機關安全管理人員考試技巧

無人機--飛控科普

【python】【資料處理】畫多元資料分布圖

《中國人工智能學會通訊》——7.6 數 據

繼續閱讀

《中國人工智能學會通訊》——7.6 數據