天天看點

公司給付費訓練人工智能的老闆,正在外包給人工智能?可怕?

作者:西康六爻

這個做法是否可行?是不是感覺:類似,我左腳踩右腳,右腳猜左腳,來回循環踩,是不是可以上天?

這種做法可能會在已經容易出錯的模型中引入更多錯誤?

一項新的研究發現,為訓練人工智能模型而付費的人中有很大一部分可能自己将工作外包給人工智能。

公司給付費訓練人工智能的老闆,正在外包給人工智能?可怕?

訓練人工智能系統準确可靠地執行特定任務需要大量的資料。許多公司在Mechanical Turk等平台上支付零工勞工的費用,以完成通常難以自動化的任務,例如解決驗證碼,标記資料和注釋文本。然後将這些資料輸入AI模型進行訓練。勞工的工資很低,通常被期望很快完成很多任務。

難怪他們中的一些人可能會轉向像 ChatGPT 這樣的工具來最大化他們的收入潛力。但是有多少呢?為了找到答案,瑞士聯邦理工學院(EPFL)的一組研究人員在零工工作平台Amazon Mechanical Turk上雇用了44人,總結了醫學研究論文的16篇摘錄。然後,他們使用自己訓練的AI模型分析他們的反應,該模型尋找ChatGPT輸出的信号,例如缺乏單詞選擇的多樣性。他們還提取了勞工的擊鍵,以确定他們是否複制并粘貼了他們的答案,這表明他們在其他地方産生了他們的回答。

公司給付費訓練人工智能的老闆,正在外包給人工智能?可怕?

他們估計,大約33%到46%的員工使用過OpenAI的ChatGPT等AI模型。根據該研究的作者的說法,随着ChatGPT和其他AI系統變得更加強大和易于通路,這一比例可能會增長得更高,該研究已在arXiv上共享,尚未經過同行評審。

“我不認為這是衆包平台的終結。它隻是改變了動态,“EPFL的助理教授Robert West說,他是這項研究的合著者。

使用人工智能生成的資料來訓練人工智能可能會給已經容易出錯的模型帶來進一步的錯誤。大型語言模型經常将虛假資訊作為事實呈現。如果他們生成了不正确的輸出,而這些輸出本身用于訓練其他人工智能模型,這些錯誤可以被這些模型吸收并随着時間的推移而放大,這使得找出它們的起源變得越來越困難,牛津大學計算機科學初級研究員Ilia Shumailov說,他沒有參與該項目。

更糟糕的是,沒有簡單的解決方法。“問題是,當你使用人工資料時,你會從對模型的誤解和統計錯誤中獲得誤差,”他說。“你需要確定你的錯誤不會偏向其他模型的輸出,而且沒有簡單的方法可以做到這一點。

公司給付費訓練人工智能的老闆,正在外包給人工智能?可怕?

該研究強調了需要新的方法來檢查資料是由人類還是人工智能産生的。它還突出了科技公司傾向于依賴零工來整理提供給人工智能系統的資料的重要工作的問題之一。

“我不認為一切都會崩潰,”韋斯特說。“但我認為人工智能社群必須仔細調查哪些任務最容易被自動化,并研究防止這種情況發生的方法

繼續閱讀