AI大模型與算法監管（1）

這兩天在看設計上海2023，論壇與展會展品不乏與AIGC相關的内容。比如：

在是否将AIGC引入設計流程的問題上，可以看到有事務所、設計師在測試、使用生成式AI工具，不過主要是作為輔助設計工具。有設計師提出一個好的設計除了要有設想，還必須有政策、計劃與執行，AIGC工具目前主要被用于創意靈感探索，在政策、計劃與執行上，尤其是在分析判斷創意實作的最佳解決方式等政策問題上，還無法取代設計師；也有設計師對AIGC内容知識産權權利歸屬與維權問題表示顧慮。
AI生成内容是否可以直接進入生産制造環節也是需要考慮的問題。現場看到有家居品牌表示“可以将您的AI概念産品進行設計優化，為天馬行空的創意提供落地的可能性，做真正意義上的定制化服務”。進行設計優化的必要性其實不難了解，概念設計需要找到機器裝置進行制造加工，即使是已經引入柔性生産線或者3D列印生産線的制造商也未必能完全滿足客戶個性化的定制需求，需要根據自身生産能力進行設計優化。現場也看到有設計公司、新材料制造商和家居品牌展出3D列印産品與解決方案，比如科勒衛浴的3D列印台盆，不過都是設計師主導作品。逛展時還沒注意到有特别介紹工藝流程是AI設計到成品傳遞的。

同天的北京安博會，用媒體報道的話說就是“大模型應用紮推、AI攝像頭滿場”：

安防領域的企業往往基于各種感覺裝置擁有強大的資料擷取能力，在AI大模型等前沿技術的研發應用上有天然優勢。
展會現場有不少企業推出通用或行業大模型，比如杭州聯彙展出百億參數視覺語言認知大模型及相關服務，支援語義定義下發任務，具備泛化識别和推理能力；熵基科技BioCV LLM包括140億/70億/13億等多個參數規模的版本，支援多語言表達與了解、持續繪畫、邏輯推理等能力；360現場展示基于360智腦-視覺大模型的應用，demo顯示其具有文字識别能力和圖檔識别能力——視覺問答支援通過一張圖檔以及提出關于圖檔的一個問題，系統輸出相應的答案。
在應用場景方面，除了在傳統安防領域的應用，大模型+AIoT應用場景廣闊，比如，宇視展出的梧桐AI算法訓練平台、AIoT行業大模型，據稱已落地多模态-Vlog智能影像等AIGC場景。

從廠商們展出的産品及解決方案來看，生成式人工智能在模型參數、資料輸入和輸出方面呈現大模型、多模态和湧現性等特征，對現有算法監管帶來挑戰：

模型參數規模巨大且呈爆炸式增長，超大規模的參數量可以提升算法決策的準确性，但是同時也降低了算法的可解釋性，進而直接影響算法透明性治理；
大模型從文字識别發展到能夠同時接受圖像和文本類型的輸入，後者對大模型的資訊鑒别能力要求更高，在預防偏見與歧視等算法公平治理方面挑戰也更大；
在參數規模、資料量突破某個量級時，可能會出現大模型性能顯著提升、湧現出令人意想不到的能力，比如語言了解能力、生成能力、邏輯推理能力（最近大家用的比較多的描述可能是“一本正經胡說八道”的能力），這種湧現特性雖然會增強人工智能的認知性、擴充多場景應用的潛能，但同樣也會帶來難以量化、難以檢測、難以救濟的算法妨害風險。現有主體責任制+場景化監管的現有監管模式即使可以滿足事後追責要求，也因缺乏有效的事前預防、事中監督等具有預防性、時效性、實效性措施而難以應對算法妨害效應。

這些特征在行業研報、白皮書等檔案中也有所展現，比如，IDC《2022中國大模型發展白皮書》中寫道，“以谷歌的BERT、OpenAI的GPT和百度文心大模型為代表，參數規模逐漸提升至千億、萬億……”（現在通用性AI大模型M6已有十萬億級），“繼語言模态之後，視覺大模型等其他模态的大模型研究，也開始逐漸受到重視”，“單模态的大模型被統一整合起來，模拟人腦多模态感覺的大模型出現，推動了從AI感覺到認知的發展”，也就是推動從弱人工智能到強人工智能的發展。

除此以外，最大的挑戰還是算法治理模式本身的挑戰：

大陸的AI算法治理依托算法主體責任展開，現有算法責任主體主要是算法推薦服務者和深度合成服務提供者，基于算法規定、深度合成規定等識别相關主體責任義務的邊界、明确違規後果，本身并不難。問題是，算法推薦服務者、深度合成服務提供者往往也是監管視野下的平台企業，算法主體責任是平台主體責任構成的一部分，如何處理平台主體責任、平台主體的算法安全主體責任、承擔責任的方式方法等等，還需要更為明确的監管規則。
算法規定本身針對算法推薦服務者、深度合成服務提供者，而人工智能相關的大模型風險不僅可能源于研發主體，也可能源于部署算法模型的部署者以及終端使用者，當應當承擔主體責任的對象呈多元化、分散化、場景化特征時，僅界定服務提供者的主體責任，難以滿足追責與風險處理需求。

舉個例子，前面我們寫過生成式人工智能相關的産業鍊至少可以分為資料層、算力層、算法模型層和應用層。位于産業鍊上遊的研發主體，能夠控制技術基礎設定、對模型進行訓練/修改和測試；其下遊主體可對大模型微調後，将其嵌入特定的應用或服務，面向終端使用者提供服務；終端使用者輸入資料會反哺模型，推動模型進化與發展，甚至推動模型“黑化”。在這一過程中，算法推薦服務提供者、深度合成服務提供者以及終端内容生産者的責任界定需要更明确的規則。

也就是說，現有算法治理機制主要是基于算法作為工具、産品/服務的屬性而設計，更适配弱人工智能監管需求，随着算法智能化、類人化特性的不斷湧現，監管滞後性、實效性等問題會越發突出。

此外，算法主體責任+場景化監管的模式可能會無法滿足AIGC監管需求——預訓練大模型已經成為人工智能基礎設施的情況下，預訓練大模型依托其研發的插件系統可深度內建與各項應用程式，催生新業務場景、新業态。AIGC+模式下，分行業、分場景的監管模式可能會效率低下。

明天結合大模型技術特征具體看一下算法治理問題。

參考：

智東西公衆号，2023年6月8日發表的《2023安博會五大看點：大模型應用紮推、AI攝像頭滿場，海思低調參展》

https://marketplace.huaweicloud.com/markets/holosensstore/index.html

IDC《2022中國大模型發展白皮書》（由百度支援）

哈爾濱工業大學自然語言處理研究所2023年3月6日釋出的《ChatGPT調研報告（僅供内部參考）》

新華社研究院中國企業發展研究中心，2023年6月釋出的《人工智能大模型體驗報告》

微軟研究院2023年3月釋出的《人工通用智能的星星之火：GPT-4的早期實驗》

艾瑞咨詢2023年4月釋出的《ChatGPT浪潮下，看中國大語言模型産業發展》