近年來,「可信AI」逐漸成為人工智能領域的熱門話題之一,以人工智能為基礎支撐業務的網際網路科技大廠更是打了頭陣。
今年6月,螞蟻集團在全球人工智能大會上首次公布了「可信AI」技術架構體系。今年7月,京東探索研究院在世界人工智能大會上釋出了中國首個《可信人工智能白皮書》。兩家企業都将隐私保護、魯棒性/穩定性、可解釋性、公平性作為「可信AI」的四大基本原則。
而若細究,有關隐私保護與公平性的呼籲又遠遠早于名詞「可信AI」的出現。比方說,微衆銀行、同盾科技等金融科技公司早早就開始布局資料隐私,應用聯邦學習、差分隐私等技術對資料進行保護,以驅動資料依賴模型的研究與發展。
「可信AI」是什麼?為什麼網際網路大廠頻頻下場、以緻數字江湖會掀開這樣一場轟轟烈烈的研究熱潮?
更重要的是,除了企業界,學術界也紛紛投入其中。比如,今年10月,哥倫比亞大學資料科學研究院主任、ACM與IEEE雙Fellow周以真便在權威期刊《ACM通訊》上發表了《可信人工智能》一文,詳述了「可信AI」的前世今生、基本核心與研究意義。
與「AI倫理」不同,「可信AI」除了呼籲技術發展以人為本,更從人工智能技術本身出發,強調提升人工智能算法與模型的魯棒性與可解釋性。換句話說,如果「AI倫理」是人工智能社會的道德準則,那麼「可信AI」就相當于人工智能時代的法律手段,将有機會從根源上制約人工智能技術的弊端。
但為何「可信AI」的研究首先是在工業界發起,而後蔓延到學術界?目前,「可信AI」的研究主體又為何是網際網路科技大廠?
原因也很簡單:人工智能在大規模的落地應用中出現了許多「信任危機」問題,無論是普通使用者還是權威學者都産生了對人工智能算法的擔憂。作為應用人工智能技術的主力軍,如果網際網路大廠不積極解決人工智能的信任問題,則很可能面臨被淘汰的命運。
01. 一場被使用者「倒逼」的技術革命
大廠們不得不開始直視一個問題:大衆對人工智能的信任度正在降低。
衆所周知,目前基于神經網絡的AI技術具有不可解釋、魯棒性差、過于依賴資料等通病,内含「獸性」,在給人類社會帶來前所未有的便利時,也蘊含着許多潛在的危害。
這樣的例子,在網際網路上并不少見。
據英國《每日郵報》報道,2015年2月,英國進行了首例機器人心瓣修複手術。這場手術使用的是被譽為「外科機器人界的波士頓動力」的達芬奇手術機器人。然而這樣原本是一場最尖端醫療AI技術的展示卻以慘痛的失敗告終。由于手術過程中,血液濺射到攝像頭上造成機器「失明」,導緻機器人把病人的心髒「放錯位置」,并戳穿了大動脈。最終,接受手術的患者在術後一周去世。
2016年9月,央視《法治線上》欄目報道了一起發生在河北邯鄲段公路的嚴重事故。一位青年在駕駛特斯拉轎車行駛時,因未能及時躲避前方道路清掃車發生追尾,事故導緻該名青年身亡。據事故後行車記錄儀中的視訊分析,事故發生時,特斯拉處于「定速」狀态,因未能識别躲閃而撞上前車。這被認為是國内披露的首起特斯拉自動駕駛功能(Autopilot)使用中發生的車禍緻死案例。
源于這些真實發生的慘案,大衆對 AI 的信任度大大降低。是以,即使已有無數的研究調查表明,使用自動駕駛系統的車輛事故發生率遠遠低于現有車輛駕駛方式的事故發生率,但質疑的聲音仍然存在:
「在自動駕駛中,決定交通革新成敗的,不是99%的準确度,而是1%的失誤率。」
目前的人工智能發展以深度學習為主,而深度學習算法最常标榜的便是「準确率高達99.99%」。由于深度學習模型的「黑匣子」特征,即使2018年憑借深度學習與神經網絡的成就獲得圖靈獎(計算機領域的諾貝爾獎)的「深度學習三巨頭」,也無法自信地說,某一算法可以達到100%的準确性。
深度學習三巨頭,從左到右是Yann LeCun、Geoffrey Hinton與Yoshua Bengio
由此出發,當準确率估計隻能達到99%的深度學習算法在現實生活中落地時,便會帶來許多不容小觑的問題。比如,假設未來一座城市有十萬輛自動駕駛汽車,那麼根據最高準确率為99%的機率推算,則可能對人類出行安全造成威脅的隐患車輛仍有一千輛。
除了「不可解釋性」,人工智能系統在現實生活的落地中還呈現出了許多由不公平的設計、不穩定的模型結論與侵犯隐私等問題所引起的「使用者信任危機」。當中所牽涉的企業與使用者也不僅僅是自動駕駛行業,而更多是「全民危機」。
例如,AI技術已成為網際網路行業發展不可缺少的原動力之一。然而,在AI賦能數字經濟的過程中,AI算法的弊端也頻頻出現,使得企業推出的AI産品引發了部分使用者擔心,質疑的聲音層出不窮。
例如,部分電商平台存在大資料殺熟現象;内容平台則存在使用者在推薦算法下接收的資訊内容同質化的現象;去年《人物》報道,外賣系統用算法将騎手困在系統裡;社交平台也有因監管不當暴露個人隐私資料的問題;而在金融場景中,貸款保險等業務背後也存在由AI算法評級引發的公平性問題。
更直接的例子也仍要舉交通出行。雖然并不是人人都會選擇購買準确率僅最多達99%的自動駕駛汽車,但當代居民的日常出行幾乎都離不開乘車平台。平台運用人工智能系統進行司乘比對、路線規劃與自動派單,在為人們的出行帶來極大便利的同時,也出現了許多由人工智能技術不完善所引起的問題,比如路線規劃不合理導緻多收費、顯示接送到達時間與實際嚴重不符等等。
算法公平性的背後存在人為和非人為的兩種基本因素。如果說企業利用人工智能進行「大資料殺熟」,是可控的企業道德問題(企業試圖牟利),那麼類似将「被投訴次數多」的司機正常分派給使用者、導緻乘客人身安全受威脅的行為,則很大可能源自人工智能系統本身的「不可控」技術缺陷。而所謂的「不可控」是指,傳統的人工智能模型在決策過程中存在「黑盒」問題,即推理過程不透明。
AI 技術所帶來的便利和 AI 技術「不可信」之間的沖突,正逐漸成為 AI 在現實生活中大規模落地應用的核心問題。
舉個例子:在醫療場景中,如果一個病人無法信任AI,那麼Ta就不會聽從AI系統所給出的診斷結果與醫療建議,哪怕這些診斷是正确的、對病人是有益的。同樣地,無論企業跟使用者吹噓自動駕駛的技術有多牛,如果沒有萬全的保障,我們也不敢把「開車」交給AI;即使支付寶等線上支付平台再便捷,若所使用的人工智能算法會導緻使用者的金錢損失,我們也不會再使用。
是以,提高大衆對人工智能的信任變得至關重要。
02. 企業為何入場「可信AI」?
針對AI在落地中所産生的負面影響,除了全球範圍内目前由政府組織釋出的近150份AI治理原則與共識,如2019年的「G20人工智能原則」中強調「促進可信AI的創新」,歐盟在2019年釋出《可信AI道德準則》,工業界與學術界也紛紛覺醒,主動出擊,倡導研究「可信AI」。
那麼,京東、螞蟻、騰訊等等企業為何紛紛入場「可信AI」?甚至谷歌也設立了「AI倫理團隊」?
一個直接的原因是:信任是商業的基石。2002年1月,時任微軟掌舵人的比爾蓋茨便在緻員工與股東客戶的《可信計算》備忘錄中提出構成「可信」的四大因素是安全、隐私、可靠與商業誠信。
随着人工智能信任危機的發酵,普通使用者從消費者的角度出發,對人工智能産品的态度愈發謹慎;學者從技術研究的角度出發,對人工智能模型的自身缺陷所可能引發的現實應用後果産生擔憂;而企業從經營的角度出發,不得不面對應用人工智能賦能數字經濟時所要解決的使用者信任、技術隐患與同行競争等問題。
近年來,各國政策在人工智能的落地中,也十分強調「以人為本」。換言之,使用者是政策的核心保護者。比方說,2018年5月,具有「史上最嚴格的隐私和資料保護法」之稱的歐盟《通用資料保護條例》(GDPR)正式生效,法國資料保護局(CNIL)則以違反GDPR為由,對谷歌處以創紀錄的5000萬歐元罰款,為應用人工智能等技術賦能經濟的全球企業打響了警告槍。
除了使用者的信任問題,企業之是以要入場「可信AI」,還有兩個容易被忽略的原因:
一,企業也面臨自身的風控問題。與遊戲中機器人的臨場停滞不同,人工智能系統在醫療、金融、出行等場景中的漏洞和失誤,可能造成的金錢與安全損失是無法彌補的。
類似支付寶這樣的網際網路支付平台,每天都會受到上億次的黑産攻擊。他們每天都在面臨一種「如果你不跑、黑産就會跑到你前面」的情況,若速度比黑産慢,成千上萬的支付寶使用者資金安全就會受到威脅。這時,支付寶所應用的風控模型與算法魯棒性變得至關重要。
二,目前AI對人類社會的影響逐漸加深,在越來越多的場景中成為人工的替代品,如果企業沒有提前做好防禦與準備,則可能在新一輪的市場競争中被淘汰。
比如,同樣是網約車平台,任何一家企業能夠率先研究出更強大、更穩健的人工智能派單系統,減少司乘比對劣質率、提升乘客與最近距離的司機比對率以減少乘客等候時間、自動提供最優且公平的出行價格,那麼這家企業将能最大程度地降本增效,獲得市場競争優勢。
再比如,線上支付平台中,如果支付寶不積極改進人工智能算法的魯棒性和可解釋性、而是依賴人工方式去篩選與識别欺詐電話,人力成本将大幅增加;同時,如果應用原有魯棒性差的模型進行篩選識别與防禦,無法跑赢黑産,那麼其遭受的損失亦是無以估量的。這時,若競争對手在「可信AI」上率先研究出更穩健的系統與算法,則支付寶會失去原有城池,或面臨被淘汰的命運。這或許也是螞蟻集團早在2015年就啟動可信AI相關研究的核心動力。
2018年9月,麥肯錫全球研究所釋出了一份長達60頁的報告,分析了人工智能對全球經濟的影響,明确指出:在2030年之前,人工智能将在全球範圍内産生13萬億美元的經濟效益,使全球GDP每年增長約1.2%;此外,人工智能的應用可能會擴大企業與企業之間的差距,人工智能領先企業在2030年前有望實作回報翻倍,而延遲使用人工智能技術的公司則會遠遠落後。
03. 企業如何應對?
迫于越發收緊的政策壓力、使用者信任,與黑産追擊等問題,國内外大廠不得不主動或被動地投身于「可信AI」的研究中,通過實際的行動來控制人工智能技術對人類社會所可能産生的負面影響。
比如,GDPR罰款事件後,谷歌在2019年推出「遺忘算法」,允許使用者删除其在谷歌網頁或Youtube上删除個人隐私資料,并承諾會在特定時間(18個月)内自動删除使用者的位置資訊、浏覽記錄等。
在網際網路時代,除了誠信,人們還要考慮資料安全的問題,而資料洩露是信任危機誕生的主要來源;而到了AI時代,除了更嚴峻的資料安全問題之外,算法的統計性質所帶來的不可控性、AI系統的自主學習性與深度學習「黑匣子」模型的不可解釋性,也成為了導緻使用者信任危機的新要素。
這時候,信任問題已經不完全取決于企業自身的意願,還取決于企業對AI技術(資料,算法等)的了解與掌控程度。是以,從企業的角度看,有意願去推動「可信AI」,隻是解決使用者信任問題的第一步。問題的關鍵,還是在于企業能否從底層技術上實作AI的可信性。
一個普遍的偏見是:國内大廠對「可信AI」的意識要遠遠落後于歐美各國。但事實是,早在2015年2月,螞蟻集團就已啟動基于「端特征」的手機丢失風險研究項目,邁出了端雲協同風控研究的第一步,旨在保護使用者的隐私安全。2017年6月,螞蟻又釋出具備智能攻防能力的第一代智能風控引擎AlphaRisk,在使用者集中的支付寶端進行風險防控。至2021年首次對外披露技術架構,螞蟻集團已經完成了長達6年的「可信AI」技術積累之路。據2021年6月權威專利機構IPR daily釋出的《人工智能安全可信關鍵技術專利報告》顯示,螞蟻集團旗下的支付寶在該領域的專利申請數和授權數,均位列全球第一。
總的來說,企業在「可信AI」上的工作主要分為三部分:文書呼籲,企業管理與技術研究。
文書方面,最著名的莫過于京東探索研究院今年釋出的《可信人工智能白皮書》,還有微衆銀行領銜的《聯邦學習白皮書》。當然,可信 AI 不能隻停留在原則和共識上,還需要落實到技術實作群組織文化中。
企業管理上,商湯科技在去年1月成立了人工智能倫理治理委員會,并于今年上半年上線了倫理稽核系統,建立貫穿人工智能系統生命周期的風險管理系統,對将要落地的人工智能系統進行全過程的追溯和審查,為國内科技企業做出了表率。
在技術研發層面,實作「可信AI」的途徑主要是兩方面:資料與算法。資料問題集中在隐私保護和安全、資料偏見以及由此帶來的不公平,而算法問題則在于可解釋性與穩健性(又稱為「魯棒性」)。
資料、算法與算力被舉為人工智能研究的「三駕馬車」,随着使用者對隐私資料的保護意識加強、資料洩露所帶來的風險加大,如何在「資料保護」與「資料驅動的AI研究」中謀求兩全之策,将成為「可信AI」的熱門研究方向之一。
除了資料隐私保護,要實作「可信AI」,工業界與學術界的研究者目前所面臨的問題與未來要集中解決的方向還有如下幾個次元:
1)資料的公平性
AI的訓練結果直接依賴于輸入的資料。然而受資料采集條件的限制,不同群體在資料中所占的比例并不均衡,例如當下 NLP 訓練語料大多是英語和中文,其他 8000多個少數語種很難融入到AI世界當中;而由于學習語料的問題,AI履歷篩選時往往會自動過濾掉包含特定關鍵字的求職候選者,使之成為「AI透明人」。
2)算法的穩定性
針對 AI 模型的資料和系統存在多種攻擊方式,例如中毒攻擊、對抗攻擊、後門攻擊等。舉例來說,通過向模型中投喂惡意評論,便可以影響推薦系統的準确度;在交通标志牌上貼上特殊設計的圖案,便可以誤導自動駕駛系統錯誤識别。
另一方面,幹擾的形式也正在逐漸從數字世界向實體世界蔓延,例如通過列印對抗樣本等手段,直接對自動駕駛和人臉識别系統造成實體層面的幹擾。
3)算法的可解釋性
以深度學習為代表的機器學習算法,本質上是一個端到端的黑箱。一方面,人們對訓練得到的人工智能模型為何能具有極高的性能尚不清楚;另一方面,人工智能系統在做出決策時具體依賴哪些因素,人們也不清楚。比如,曾有實驗者向GPT-3(自然語言處理模型)提問「新冠疫情何時結束」,它的回答是「2023年12月31日」,但答案的依據是什麼?研究者無從解釋,也自然難保其準确率。
《疑犯追蹤》(Person of Interest)劇照
針對上述問題,國内各大廠紛紛開始布局研究,尋求可行的技術手段,以解決通往「可信AI」道路上的「攔路虎」。
就拿資料隐私保護來說。「分布式計算」、「聯邦學習」等支援「資料可用不可見」的新興技術在工業界十分火熱,尤其受到了螞蟻集團、微衆銀行、同盾科技等企業的青睐。2017年11月,螞蟻聯合美國伯克利大學啟動人工智能開源項目Ray,通過分布式平台為開發者提供計算資源及任務排程支援,并在其社群内圍繞隐私保護、智能風控、智能搜尋等應用場景持續為開發者提供開源支援;2019年,微衆開源了首個工業級聯邦學習架構FATE。
模型魯棒性方面,國内廠商在對抗學習的研究上積極投入。2017年9月,螞蟻送出了第一項文本對抗相關的專利《一種基于拼音擴充特征識别文本内容風險變種的方法》,并在後續的3年間,針對内容安全場景持續探索智能對抗技術方案,合計申請專利31項 。百度提出并開源對抗樣本工具箱包「Advbox」,使用先進的生成方法構造對抗樣本資料集來進行對抗樣本的特征統計、攻擊全新的AI應用,通過對抗攻擊加強業務AI模型,提升模型的安全性。
在可解釋性的應用研究上,國内大廠的表現也尤為突出。2018年9月,螞蟻上線了反洗錢的智能封包系統,針對反洗錢監管合規要求,自動輸出包含風控原因及處理方案的封包内容;2020年,螞蟻研發出可解釋圖算法Risk-alike,能夠在欺詐案件中主動審理場景落地。
縱觀國内各大廠對AI技術的治理,不難發現:以商湯為代表的感覺智能技術研發更着重于「AI向善」的應用管控。而相比感覺智能,「可信AI」在以金融為代表的風險敏感場景中利害更為鮮明,研究也更為深入、徹底。
在可預見的未來,金融、醫療、出行等等與人類社會現實息息相關的企業或将成為「可信AI」的研究主力軍,并湧現大量可以期待的關鍵技術成果,從技術端引導人工智能造福社會。
04. 企業的責任心
一家企業能夠做出突破性的 AI 技術,它将走得很快;但隻有将自己的 AI 技術變得可信,它才能走得更遠。「AI 突破」和「AI 可信」正如打江山和守江山一樣,前者更會讓人壯懷激烈,但後者才是安穩生活的保障。
在打造「可信AI」的過程中,企業是一股不容小觑的力量。一方面,企業是技術研究的主力軍;另一方面,企業又是AI落地問題的發現者。在思索如何推動AI商業化的過程中,企業所發現的難題,反哺于學術界,可以加速解決AI落地的種種難題。
此外,企業又是推動AI技術在人類社會中産生價值的先鋒者。最終,在實驗室取得的AI創新成果,無論正面或負面,都須經過企業的産品化,将其提供給使用者,影響到個人。
在這種過程中,保護使用者,也是守護企業自身。雖是一場被黑産和使用者倒逼的技術革命,「可信AI」的危機卻并非源于大衆對科技的愚昧與自身思想的頑固,而是人工智能本身的技術仍未發展完善。誠如前述,目前「可信AI」的研究仍存在許多亟待攻破的技術難題。
企業沖鋒,學界掩護,各方力量聯合。隻有當越來越多的研究者參與其中,AI實作「可信」方才指日可待。
參考連結:
1. Bughin, J., Seong, J., Manyika, J., Chui, M., & Joshi, R. (2018). Notes from the AI frontier: Modeling the impact of AI on the world economy. McKinsey Global Institute, Brussels, San Francisco, Shanghai, Stockholm.
2. Trustworthy AI
https://cacm.acm.org/magazines/2021/10/255716-trustworthy-ai/fulltext
3. Bill Gates: Trustworthy Computing
https://www.wired.com/2002/01/bill-gates-trustworthy-computing/
4. Google Will Delete Your Data by Default—in 18 Months
https://www.wired.com/story/google-auto-delete-data/
5. ETHICS GUIDELINES FOR TRUSTWORTHY AI
https://ec.europa.eu/newsroom/dae/document.cfm?doc_id=60419