天天看點

收集使用者資料訓練AI?Meta又攤上事了

作者:王琦 785
收集使用者資料訓練AI?Meta又攤上事了
收集使用者資料訓練AI?Meta又攤上事了

作 者丨肖潇

編 輯丨鐘雨欣

圖 源丨圖蟲

本周Meta宣布,暫停使用歐盟和英國使用者的資料訓練AI,并推遲在歐洲推出自己的大模型。

愛爾蘭、英國、挪威等多國監管機構認領,公司此舉是回應監管機構的要求。挪威資料保護機構稱,Meta向它們承諾暫停使用Facebook和Instagram上的文章和圖檔來訓練大模型,目前不确定會推遲多長時間,正在與其他歐盟國家的監管機構一同讨論。

Meta收集使用者資料的計劃開始于上個月,平台通知歐洲使用者将在6月底正式啟動新的隐私政策:公司将使用Facebook 和 Instagram上的公開内容來訓練大模型,包括互動内容、狀态、照片和标題,不包括私人間聊天記錄和未成年人賬戶資訊。更新的隐私政策引發了反對,奧地利非營利機構組織NOYB當即向11個歐盟成員國分别提起投訴,請求啟動緊急程式。

争議并非孤例,如何向使用者要到資料授權來訓練AI,是擺在所有網際網路公司面前的一道難題,公司不僅僅要拿捏好合規尺度,還需要顧及對隐私問題愈發敏感的使用者情緒。受訪專家告訴21世紀經濟報道,援引歐盟的“正當利益”條款來擷取使用者資料,之後可能會越來越常見,不過目前大陸《個人資訊保護法》沒有直接設定類似的規定,國内企業尤其需要注意獲得使用者的明示同意。

“正當利益”條款可能成為熟面孔

在對Meta的投訴中,NOYB指出了兩點不合規之處:

理由一是Meta對人工智能的描述過于寬泛,沒有說明收集和處理使用者資訊的目的。Meta的隐私政策隻用了“人工智能技術”一詞,NOYB的創始人Max Schrems認為這相當于在說“我們會在資料庫中使用資料”。

“Meta 并沒有說明它将使用這些資料做什麼,也沒有設定任何限制。人工智能技術可能指一個簡單的聊天機器人,極具攻擊性的個性化廣告,甚至是殺傷級的無人機武器。”Max Schrems解釋。

理由二是使用者預設同意收集資料,拒絕過程複雜。以Facebook為例,使用者如果要拒絕平台收集自己的資料,需要經過設定和隐私—隐私中心—生成式AI—更多資訊—《Meta如何資料訓練大模型》五級頁面,才能在檔案末尾找到一份反對表格。并且隻有主動填寫表格,經由公司之手,使用者方能拒絕資料收集。

Meta對此辯稱,大模型需要反映“歐洲人民的語言、地理和文化背景多樣性”,是以公司使用者收集資料應該屬于《通用資料保護條例》規定的“正當利益”(legitimate interests),不用特别征得使用者同意。

通常來說,《通用資料保護條例》預設收集個人資訊是非法的,但“正當利益”條款豁免了一些必須收集資料的情況,不需要獲得使用者同意,這類合法收集行為可以出于個人利益、商業利益或者公共利益。

“業界一般會認為歐盟對個人資訊處理的限制很嚴格,其實通過正當利益條款留下了一定空間。” 世輝律師事務所合夥人王新銳從事資料合規業務多年,王新銳告訴21世紀經濟報道,正當利益條款設定複雜且靈活,需要通過一系列測試,可以說是一個解釋空間較大的合法性基礎。

此前Meta也援引過正當利益,當時辯護的是收集使用者資料來投放個性化廣告的行為,但歐盟法院最終反駁了這一說法,Max Schrems是以認為正當利益也難适用于訓練AI的資料抓取和使用。王新銳表示,對于一些新興技術的場景,其他的合法性基礎可能都難以成立,但正當利益還有一定的解釋空間,是以Meta會嘗試援引,估計“以後各類和AI有關的案件中,這個條款會反複出現。”

需要注意的是,與歐盟不同,大陸個保法并沒有直接将“正當利益”寫入法定的豁免情況。不過王新銳指出,歐盟《通用資料保護條例》規定的一些典型情形,大陸通過其他條款也有所覆寫。

浙江墾丁(北京)律師事務所律師程念告訴21世紀經濟報道,大陸類似規定包括的情形是有限的:一類是突發衛生事件或者保護自然人的緊急情況,另一類是法定保密的行動,收集資料可以不擷取使用者同意,而企業的經營行為通常難以落入這一範圍。

使用者資料成為行業敏感點

“我們很失望”“這對歐洲創新、人工智能開發競争來說是一個倒退,也進一步推遲了人工智能為歐洲人民帶來的好處。”Meta在部落格中抱怨,自己其實是跟随了行業的做法——谷歌和OpenAI都已經在使用歐洲使用者的資料來訓練AI,而且“與同行相比,我們的資料收集方法更透明。”

不過,事實似乎并非如此,謹慎對待使用者資料逐漸發展為一種共識性的做法。比如ChatGPT率先允許使用者可以通過關閉聊天記錄功能,來拒絕自己的個人資料被官方拿去訓練,盡管這樣不可避免地會影響大模型回答的品質;6月19日,Adobe專門更新了服務條款,明确約定Adobe的軟體不會使用使用者的本地或雲端内容訓練生成式AI模型。

去年國内辦公軟體WPS曾嘗試在隐私政策中新增:“我們将對您主動上傳的文檔材料,在采取脫敏處理後作為AI訓練的基礎材料使用”,被使用者發現後引發集體抵制,而後WPS向使用者道歉,并承諾使用者文檔不會被用于AI訓練。

目前明确會收集使用者資料訓練AI的科技巨頭有谷歌和X:為了推出馬斯克的x.AI公司,X在去年9月更新了隐私政策,其中2.1條例中寫道:“我們可能會使用收集到的資訊和公開可用的資訊來幫助訓練我們的機器學習或人工智能模型”;去年7月,谷歌的隐私政策同樣新增了一條“我們可能會收集公開的線上資訊或來自其他公共來源的資訊,幫助訓練Google的人工智能模型。”

不過,當時北京大成律師事務所進階合夥人鄧志松對21世紀經濟報道表示,谷歌對收集與處理使用者個人資訊的範圍和目的作出了詳細說明,即使以歐盟GDPR項下更為嚴格的“告知—同意”規則為标準,谷歌的做法至少在形式上合規。

NOYB還指出,Meta此次希望收集的是2007年以來所有公開和非公開的個人資訊,覆寫Facebook和Instagram社交媒體上的互動痕迹,與AI公司想要用網際網路公開資料的一般性做法有所不同。

如何滿足合規要求,在尊重使用者權利的同時發展技術?王新銳向21世紀經濟報道強調,對于國内公司,如果想要收集使用者資料訓練AI,需要遵守《生成式人工智能服務管理暫行辦法》明确規定:涉及個人資訊的,應當取得個人同意或者符合法律。也就是說需要特别關注收集和使用使用者個人資訊前,是否已向使用者進行了明确告知并獲得了其同意。如未提前獲得使用者同意,則應有法定義務、公共利益等其他合法性基礎,否則存在相應的合規風險。

程念補充,基于使用者使用産品而收集擷取的個人資訊,除了需要明示同意,涉及敏感資訊還需要單獨同意;此外要確定使用者能夠友善查詢、更正、删除個人資訊并撤回同意,尤其是需要向使用者提供拒絕收集資料用于AI訓練的選項,確定使用者的知情權和選擇權。

SFC

本期編輯 黎雨桐

21君薦讀

AI定乾坤:Meta淨利翻倍卻暴跌,谷歌微軟超預期業績市場買賬

Meta一季度營收亮眼,紮克伯格“重倉”AI引股價暴跌

XR行業迎來“安卓時刻”:Meta開放Quest作業系統,空間計算大浪潮起

收集使用者資料訓練AI?Meta又攤上事了