研究發現微軟Copilot回答10大醫療問題時，符合科學的回答占比54%

近期，一項最新研究揭示了人工智能聊天機器人在提供醫療資訊方面的局限性和潛在風險，引發了人們對這類技術在醫療領域應用的擔憂。

德國和比利時的研究人員對微軟（Microsoft）的 AI 助手 Copilot 進行了一系列常見醫療問題的測試。

研究表明，盡管 AI 搜尋引擎和聊天機器人在回答醫療問題時可以發揮一定的作用，但其準确性和安全性仍存在顯著問題，可能對使用者造成嚴重危害。

論文顯示，Copilot 被要求回答在美國最常見的 10 個醫療問題，這些問題涉及約 50 種最常用的藥品（包括處方藥和非處方藥），涵蓋了藥物的用途、作用原理、使用說明、常見副作用和禁忌症。

研究團隊總共獲得了 500 份答案，并根據可讀性、準确性和完整性等名額對其進行了評分。結果顯示，Copilot 僅有 54% 的回答能夠提供符合科學的資訊。

對于所提供資訊的完整性，AI 答案的平均得分為 77%，最差的情況隻有 23%。至于準确性，有 24% 的 AI 答案與我們已知的醫學知識不符，3% 的答案則是完全錯誤的。

更令人擔憂的是，其中有 42% 的回答可能導緻“中度或輕度傷害”，22% 的極端情況甚至可能緻命。這一發現無疑給 AI 搜尋領域敲響了警鐘，也凸顯了目前 AI 技術在處理複雜醫療資訊時的不足，以及在醫療咨詢領域應用的潛在風險。

除了準确性問題，研究還發現 AI 生成的回答往往難以了解。使用弗萊施可讀性分值（Flesch Reading Ease Score）評估後發現，Copilot 的回答平均得分僅為 37 分左右（最高 100 分，分數越高，越易讀），這意味着了解這些回答需要大學學曆水準。

即使是最容易了解的回答也要求讀者具有高中教育水準，這無疑增加了患者誤解資訊的風險。

研究人員指出，AI 聊天機器人在了解患者問題的“潛在意圖”方面存在明顯不足。盡管在某些情況下“它可以提供完整和準确的答案，但頻繁出現的資訊缺失和不準确性可能威脅到患者的安全和用藥安全”。

這些研究結果也反映了目前 AI 搜尋技術的整體狀況。

谷歌公司的 AI 搜尋功能曾因推薦使用者“吃石頭”和在披薩中加入膠水等荒謬建議而受到批評。

最近，有使用者在社交媒體上表示，谷歌的 AI 搜尋将一位普通人的電話号碼錯誤地列為一家視訊遊戲發行商的電話。

另一個例子是，AI 錯誤地聲稱關島有 150 家“好萊塢星球”（Planet Hollywood）餐廳，而實際上全球隻有 4 家。

面對這些問題，研究人員強烈建議患者不要依賴 AI 驅動的搜尋引擎和聊天機器人來擷取準确、安全的就醫資訊。他們強調，盡管 AI 技術潛力巨大，但面對生死攸關的醫療問題，患者必須咨詢醫生，因為目前的技術無法保證 AI 生成 100% 無誤的資訊。

然而，研究人員也認識到，并非所有人都能輕易獲得高品質的醫療建議。在某些地區，看病并不容易，花銷也不菲。

在這種情況下，Copilot 和谷歌可能成為許多人尋求醫療建議的首選，這更加凸顯了提高 AI 醫療資訊準确性的必要性。

盡管微軟等公司在其産品中加入了“請務必核實 AI 回答的準确性”等警告，但這種做法的實際效果值得商榷。

正如一些網友所指出的那樣，“如果我還是需要自己核實，為什麼不直接跳過 AI 這個環節呢？”

這些研究結果對 AI 技術公司來說無疑是一個警示。微軟曾希望通過 AI 技術提升必應搜尋引擎的競争力，但目前看來效果并不明顯。谷歌也在為 OpenAI 的 ChatGPT 可能帶來的影響而焦慮不已。

與此同時，一項來自蘋果 AI 研究團隊的新成果也證明了 AI 系統的脆弱。GPT-4o 和 Llama3-8b 等模型展現出的推理能力似乎隻是“它們找到了複雜的規律”，而非人類的推理能力。他們僅僅在提示中添加了一句話，就讓這些模型的推理能力大打折扣。

例如在一個測試中，他們問模型：“奧利弗星期五摘了 44 顆猕猴桃。星期六他又摘了 58 顆。星期天他摘的猕猴桃數量是星期五的兩倍，但其中 5 顆比平均尺寸略小。奧利弗總共摘了多少顆猕猴桃？”

題目中關于猕猴桃尺寸的資訊顯然是幹擾項，與最終答案無關，但 GPT-4o1-mini 和 Llama3-8B 在準确計算出星期天的猕猴桃數量并将三天總數相加後，選擇将 5 個尺寸略小的猕猴桃減掉。這顯然是有誤的，會做應用題的國小生都不會犯這種錯誤。

總的來說，盡管 AI 在資訊搜尋領域展現出了一定的潛力，但目前的技術水準還遠遠不能滿足準确性和安全性的要求。在 AI 系統能夠提供更高準确率的引用之前，研究人員建議謹慎推薦使用 AI 驅動的搜尋引擎。

無論是潛在的危險醫療建議、陰謀論還是政治錯誤資訊，如果不加以謹慎對待，AI 都可能在某個不經意的時候造成嚴重傷害。

參考資料：

https://www.scimex.org/newsfeed/dont-ditch-your-human-gp-for-dr-chatbot-quite-yet

https://qualitysafety.bmj.com/content/early/2024/09/18/bmjqs-2024-017476

排版：初嘉實

繼續閱讀