天天看點

高品質語料資料如何實作“數”“質”齊飛

中國戰略新興産業融媒體記者 杜壯

大模型時代的到來,正加速推動人工智能開發從以模型為中心朝着以資料為中心的方向轉變。作為模型學習和了解世界的基石,高品質語料的缺乏正日益成為限制大模型發展的瓶頸。

近日,在2024世界人工智能大會(WAIC 2024)期間舉行的語料主題論壇,以“語料築基,智生時代”為主題,圍繞高品質語料資料如何高效供給賦能大模型産業發展,向市場傳遞專業化、連結型、前瞻性的語料生态設計理念。與此同時,大模型語料資料聯盟正式釋出“2024語料風雲榜”,北京雲測資訊技術有限公司等10家企業上榜。這些企業提供了高品質和多樣化的資料集來支援模型訓練和優化,為大陸大模型開發中資料的收集、清洗、标注和管理提供了堅實基礎,也為AI算法提供了必需的語料資源。

實作語料“數”“質”齊飛,關鍵在于打造高品質的語料資料。這成為資料行業發展亟待解決的問題,也為資料标注企業轉型發展帶來了新的機遇。

訓練資料是模型學習和了解世界的基石

《中國新一代人工智能科技産業發展報告2024》顯示,2023年,大陸人工智能核心産業規模達5784億元,增速13.9%。大陸生成式人工智能的企業采用率已達15%,市場規模約為14.4萬億元。

對于人工智能技術而言,推出産品的時間早晚并不是最重要的,紮實推進底層的算法、算力和資料建設才是實作快速奔跑的“基石”。從資料角度看,大模型從訓練到部署應用疊代,生成式人工智能衆多垂直場景落地,通用智能、具身智能等前沿領域探索,都與高品質、專業化的場景資料密不可分。

根據IDC研究顯示,中國資料量規模将從2022的23.88ZB增長至2027年的76.6ZB,複合年均增長速度(CAGR)達到26.3%,為全球第一,為大模型的持續優化提供了海量的資料來源。另據相關資料顯示,截至4月底,國内共推出305個大模型;10億參數規模以上的大模型數量已超100個。

雖然大模型發展如火如荼,但大模型高品質語料短缺已成為全球共性問題。麻省理工學院等高校研究人員預測,到2026年之前,機器學習資料集可能會耗盡所有可用的高品質語料資料。

實際上,任何人工智能模型,尤其是語言模型,訓練資料是模型學習和了解世界的基石。語料庫提供了這些模型所需的原始文本資料,這些資料包含了豐富的語言資訊,如詞彙、文法、句法和語義等。沒有這些資料,模型就無法進行有效地訓練和學習。

打造高品質語料資料要注重場景化探索

什麼是高品質語料?相關專家表示,高品質語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害,且相關特征呈現進階式分布。

實際上,高品質語料資料與普通品質資料的差別主要展現在準确性、完整性、代表性、一緻性和資料豐富性等關鍵方面。優質的資料不僅需要具備足夠的量,更需要具備多樣性、代表性及少量的噪聲,這些特點能夠確定模型具備良好的泛化能力,即在未見過的資料上,也能表現出良好的預測或決策能力。

如何打造高品質的語料資料?對于AI訓練資料頭部服務商雲測資料來說,注重場景化、應用端的定制化服務是其一直探索的主線。

為了使模型能夠了解和處理特定行業的問題,需要有針對性地建構包含該領域專業知識的語料庫。這樣的語料庫能夠提供行業特定的語言使用習慣、術語和概念,進而使模型能夠更準确地服務于該行業。據了解,目前行業主要采取語料清洗篩選、标注分類、預訓練語言模型、建立共享和協作的平台等方式。

以雲測資料為例,打造場景化、平台化的AI訓練資料服務是其實作高品質資料的基礎,其持續為智能駕駛、智慧城市、智能家居、智慧金融等衆多領域提供通用資料集、資料标注平台/資料管理工具、資料采集标注等服務,全方位支援文本、語音、圖像、視訊等各類型資料的處理。

在定制化服務上,雲測資料面向垂直行業大模型AI資料解決方案,可以為行業客戶深度定制資料采集方案,助力擷取高價值資料,同時在面對微調任務會根據大模型落地場景特點,提供包含QA-instruct、prompt等文本類任務項目和多模态大模型的相關能力支援。

在資料服務方面,雲測資料的智能駕駛AI資料解決方案2.0,以內建資料底座為核心,在資料閉環能力、自動标注能力、資料管理工具鍊、人工效能評估等多方面進行了全方位更新。更新人工标注與自動标注算法互動能力,并加快自身算法疊代,全面提升資料标注效率。

在平台建設上,雲測資料标注平台緻力于打造新一代人工智能資料處理的工程化工具,将資料采集、處理、标注、訓練、模型輸出進行持續疊代內建,支援圖像、點雲、視訊、文本、語音等資料類型的加工處理,可解決AI場景落地多樣性、豐富性的資料需求,幫助企業快速獲得高品質訓練資料。

雲測資料總經理賈宇航表示,人工智能企業需要的是場景化高精度資料服務。算法的研發需要訓練資料,所謂訓練資料,簡單來說就是給人工智能算法提供“教材”,幫助算法基于特定規則去了解這個世界或者學習某一種對應處理辦法。

呈現細分化、專業化發展趨勢

目前,大模型的快速發展為資料标注企業帶來了轉型突破的機遇。賈宇航表示,大模型技術的發展,會對資料服務行業帶來較大的沖擊和挑戰:一方面,是對特定行業資料的要求會更高,随之對資料服務的模式要求就會更專業;另一方面,是随着大模型技術的應用,對資料标注也會帶來颠覆性革新。

在賈宇航看來,伴随人工智能企業自動标注能力提升,标注将逐漸從手工标注衍化為算法自動标注人工校驗和人工标注。但伴随算法的實際量産,資料閉環能力增強,整體标注資料量和手工資料标注量依然逐年上升。同時,在算法應用落地、資料閉環驅動算法進一步提升的基礎上,AI資料處理的工具鍊也進一步工程化疊代。

轉型的同時,資料企業更加注重産業鍊生态的建設,需要建立模型訓練、語料供給、學術研究、第三方服務等多方機構的合作機制,攜手打造資源共享、互利共赢、國際融通的“語料生态圈”。為此,在上述會議上,50餘家機關共同發起“語料生态服務大模型可持續發展倡議”,倡導攜手為大陸大模型産業發展持續提供高品質語料。

資料标注技術的轉型更新為大模型适應新場景、新技術變革以及快速商業化應用提供了實作路徑,也為AI應用的規模化落地提供了強大的支撐力。據悉,目前,雲測資料深度合作夥伴覆寫汽車、安防、手機、家居、金融、教育、新零售、生态系統等行業。其中包含衆多世界500強企業、高校科研機構、政府機構、頭部AI企業和大型網際網路企業,涵蓋了計算機視覺、語音識别、自然語言處理、知識圖譜等AI主流技術領域。此外,在自身不斷創新發展、快速疊代的同時,雲測資料還充分發揮技術領先優勢和行業服務經驗,積極參與各項行業标準制定,創造行業引領價值。

從人工标注,到開放的資料集分享,再到資料自動标注和深層研究,資料标注産業正在經曆快速疊代更新。在行業發展過程中,高品質語料資料的發展需要潛下心來,實作“一分耕耘一分收獲”。在賈宇航看來,未來,資料标注也會和人工智能技術一樣,逐漸深入到各個行業及場景當中,呈現細分化、專業化的發展趨勢。