AI 胡說八道怎麼辦？牛津大學開發了一種“測謊”方法

胡說八道不可怕，一本正經的胡說八道才可怕，你因為一本正經而信了ta的胡說八道，更可怕……這就是當下我們（捏着鼻子）使用 AI 時需要面對的現狀。

如何避免 AI 生成虛假的事實内容，對使用者産生誤導呢？各個大模型平台一直在研究和嘗試，而要想“避免”問題，首先得“識别”問題。6 月 19 日，牛津大學一個研究團隊發表在《自然》雜志上的一項新研究，提出了一種頗有潛力的給AI“測謊”的方法，下面咱們就詳細聊聊。

大模型的胡說八道和風險

“幻覺”（Hallucinations）是大語言模型（例如 ChatGPT、Gemini、或文心一言）面臨的一個關鍵問題，也是網絡上常見的使用者體驗吐槽類型之一，這個術語可以粗略地了解為 AI 一本正經的胡說八道。

比如，你問 ChatGPT：恐龍扛狼是什麼意思？

它會一本正經地告訴你——這象征着舊勢力和新力量的對抗，是弱小但機智靈活的挑戰者和強大卻缺乏靈活的對手之間的博弈。

答案非常洗滌靈魂，上升到哲理和價值觀高度，但是，它在胡說八道。

點選輸入圖檔描述（最多30字）

這隻是大語言模型常見的“幻覺”類型之一，其他類型還包括：

錯誤的曆史事實

“誰是美國的第一位總統？” ChatGPT 回答：“托馬斯·傑斐遜。”

錯誤的科學資訊

“水的沸點是多少？” ChatGPT 回答：“水在标準大氣壓下的沸點是 120 攝氏度。”

編造引用，AI 縫合怪

“愛因斯坦在相對論中說了什麼？” ChatGPT 回答：“愛因斯坦曾在《相對論與現實》一書中說過，‘時間是一種幻覺’。”雖然愛因斯坦的确讨論過時間的相對性，但他并沒有在所謂的《相對論與現實》一書中發表這句話。實際上，這本書可能根本不存在。這是模型編造的引用。

誤導性的健康、法務、财務建議

你問：“感冒了應該吃什麼藥？” ChatGPT 回答：“感冒了應該吃抗生素。”

除了上述問題，相信大家在使用 AI 的過程中也會碰到其他胡說八道的情況。盡管各個大模型都在積極處理這類問題，上面舉的例子很多可能也已經得到了修複，但這類問題一直難以找到“根治”或“清除”的辦法，在檢驗判斷上也往往需要人工回報或資料集标注，這會帶來不低的成本。

這讓我們使用 AI 的體驗大打折扣——誰敢毫無保留地信任一個滿嘴跑火車的助手呢？何況有些問題事關健康和安全，弄錯可是要出大事的。

有沒有什麼辦法，能更通用化地“計算”出 AI 到底有沒有瞎說呢？

“語義熵”如何幫助大模型檢測謊言？

日前（6 月 19 日），牛津大學團隊在《自然》（Nature）雜志發表了一篇論文，提出了一種新的分析和計算方法，為解決大語言模型“幻覺”問題，打開了新思路。

點選輸入圖檔描述（最多30字）

圖源：《自然》（Nature）官網，中文翻譯來自浏覽器插件“沉浸式翻譯”

團隊提出了一種基于統計學的熵估計方法，稱為“語義熵”，來檢測大語言模型中的“編造”（confabulation），即大模型飽受诟病的“胡言亂語症”。作者在多個資料集上測試了語義熵方法，結果顯示語義熵方法在檢測編造方面顯著優于其他基準方法。

那麼“語義熵”究竟是什麼呢？

抛開冗長的專業解釋，我們可以将語義熵簡單了解為機率統計的一種名額，用來測量一段答案中的資訊是否一緻。如果熵值較低，即大家都給出類似的答案，說明資訊可信。但如果熵值較高，答案各不相同，說明資訊可能有問題。

這有點類似于，如果一個人在撒謊，他可能沒辦法每次把謊言的細節編造得一模一樣。一個謊言往往需要無數個謊言來幫它扯圓。從資訊論的角度來看，可能會引入更多的不确定性和随機性。說謊者需要引入額外的資訊或細節來支援其不真實的叙述，這可能會增加資訊的不确定性或熵值，進而被算法檢測出來。

比如，當你問 AI“世界上最高的山是哪座？”

大模型可能會給出幾個答案：“珠穆朗瑪峰”“乞力馬紮羅山”“安第斯山脈”。

通過計算這些答案的語義熵，發現“珠穆朗瑪峰”這個答案出現頻率最高，其他答案則很少甚至沒有出現。低語義熵值表明“珠穆朗瑪峰”是可信的答案。

語義熵，既有優勢，也有弱點

語義熵檢測方法的優勢在于不需要任何先驗知識，無需額外的監督或強化學習。通俗地講，使用這種方法時，并不需要上知天文下知地理，隻需要遇事不決看看大家都怎麼說。

而目前常用的諸如标注資料、對抗性訓練等方法，“泛化”效果（即舉一反三的能力），都不如通過語義熵計算。即便是大模型從未遇到過的新語義場景，也能适用語義熵方法。

當然，語義熵雖然是一種相對有效的辦法，但不是萬靈藥，它自己也有一定局限性：

處理模糊和複雜問題的能力有限

語義熵在處理非常模糊或複雜的問題時可能不夠有效。

在面對多種可能正确答案的問題時，比如“最好的程式設計語言是什麼？”，語義熵可能無法明确區分哪一個答案更可靠，因為多個答案都可能是合理的。

（誰說是 Python？我 C++第一個不服！！）

忽略上下文和常識

語義熵主要基于統計和機率計算，可能忽略了上下文和常識的影響。在一些需要綜合上下文和常識來判斷的問題中，語義熵可能無法提供準确的可靠性評估。比如經常談戀愛的朋友可能有體會，情侶間一句話：“我沒事兒，你忙吧。”

你覺得 TA 是真沒事兒，還是有很大事兒？

在這種情況下，得結合上下文場景、人物狀态等資訊判斷，不同的上下文會導緻不同的了解。語義熵隻能基于詞語的統計機率進行評估，可能會給出錯誤的判斷。

再比如常識性的判斷，既實體世界的客觀規律，假設我們問一個問題：“太陽從哪邊升起？”

正确答案是“東邊”。然而，如果我們有以下兩個候選答案：

1、太陽從東邊升起。

2、太陽從西邊升起。

（這可能由于模型訓練資料的偏差和生成過程的随機性導緻）

即使語義熵檢測到兩個答案的機率分布接近，但常識告訴我們答案 1 才是正确的。語義熵在這種情況下可能無法提供足夠的資訊來判斷答案的可靠性。

如果訓練資料被無意或刻意“污染”，語義熵也沒辦法很好識别

如果用錯誤的資料，給大模型施加了“思想鋼印”，模型對其生成的錯誤陳述非常“自信”（即錯誤陳述在模型的輸出機率分布中占主導地位），那麼這些陳述的熵值可能并不會很高。

最後總結一下，從大模型的内容生成機制上看，“幻覺”問題沒辦法 100%避免。當我們在使用AI生成的内容時，重要的數理推理、曆史事件或科學結論、法律和健康知識等方面最好進行人工核查。

不過，換個角度，“幻覺”也是大語言模型的創造力展現，我們也許應該善用大模型的“幻覺”能力。畢竟幻覺不一定是 bug（故障），而是大模型的 feature（特點）。

如果需要檢索事實，我們已經有了搜尋引擎工具。但如果需要有人幫我們編輯一個“恐龍扛狼”的無厘頭劇本，那麼，大語言模型顯然是個更好的助手。

點選輸入圖檔描述（最多30字）

比如筆者費盡心思想畫一幅恐龍扛狼圖，但某 AI 油鹽不進，畫出了一幅恐龍把狼吞了（疑似）的圖，難怪了解不了恐龍扛狼的真意啊……

參考文獻

[1] S. Farquhar, J. Kossen, L. Kuhn, and Y. Gal, “Detecting hallucinations in large language models using semantic entropy,” Nature, vol. 630, no. 8017, pp. 625–630, 2024, doi: 10.1038/s41586-024-07421-0.

策劃制作

作者丨木木北京師範大學數學專業資深産品經理人工智能創業者

稽核丨于旸騰訊玄武實驗室負責人

策劃丨丁崝

責編丨丁崝

審校丨徐來、林林

AI 胡說八道怎麼辦？牛津大學開發了一種“測謊”方法

繼續閱讀

M247“SergeantYork”自行高射火炮這款被命名為“約克中士”的車輛，是基于M48A5坦克底盤開發的，裝備了兩

博興縣委副書記、縣長孫戰勇來經濟開發區調研重點項目建設

96年蔣介石孫子開釋出會，提出“兩蔣”移靈大陸，2句話讓人感慨

加大綠色勘查開發力度保障國家能源資源安全——探礦者年會最強音

加大煤炭進口嚴控國内開采量，加快新能源開發逐漸關停火電是大勢

育碧《星戰亡命之徒》開發完畢！8月30日如期發售

俄邀中國幫開發北極航道，但投入大回報不确定，不應誇大對華好處

清華大學張強鋒課題組開發 SPACE 算法，組織子產品能力領先同類工具

移遠通信Wi-Fi6模組新品破題解難：使用更友善、開發更高效

金三角一團夥開發虛假外彙平台詐騙，71人被騙1700餘萬元！

【青春心向黨建功在園區】博興經濟開發區舉行慶“七一”演講比賽

光伏項目開發全流程中所需檔案及對應辦理機構梳理

同星TTS系列産品全新亮相：讓開發測試變得更簡單！

鴻蒙生态爆發：超5000應用啟動開發，數萬企業應用迅速跟進

中國最“傻”的古城，投資逾127億，開發周期用十年，卻不收門票

科學家開發出由人工智能和機器人技術驅動的“第三拇指”