天天看點

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

作者:機器之心Pro

機器之心專欄

機器之心編輯部

2021 年 12 月 WebGPT 的橫空出世标志了基于網頁搜尋的問答新範式的誕生,在此之後,New Bing 首先将網頁搜尋功能整合釋出,随後 OpenAI 也釋出了支援聯網的插件 ChatGPT Plugins。大模型在聯網功能的加持下,回答問題的實時性和準确性都得到了飛躍式增強。

近期,來自清華、人大、騰訊的研究人員共同釋出了中文領域首個基于互動式網頁搜尋的問答開源模型架構 WebCPM,相關工作錄用于自然語言處理頂級會議 ACL 2023。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

論文位址:https://arxiv.org/abs/2305.06849

項目位址:https://github.com/thunlp/WebCPM

WebCPM 是開源大模型工具學習引擎BMTools的首個成功實踐,其特點在于其資訊檢索基于互動式網頁搜尋,能夠像人類一樣與搜尋引擎互動進而收集回答問題所需要的事實性知識并生成答案。WebCPM 背後的基礎模型 CPM 是由面壁智能與 OpenBMB 開源社群開發的百億參數中文語言模型,占據多個中文領域語言模型排行榜前列。

WebCPM 研究背景

在當今資訊化時代,人們在日常生活和工作中,需要不斷地擷取各種知識和資訊,而這些資訊往往分散在網際網路上的海量資料中。如何快速、準确地擷取這些資訊,并且對這些資訊進行合理的整合,進而回答複雜、開放式問題,是一個極具挑戰性的問題。長文本開放問答(Long-form Question Answering, LFQA)模型就是為了回答這種複雜的問題而設計的。

目前的 LFQA 解決方案通常采用檢索 - 綜合範式,包括資訊檢索和資訊綜合兩個核心環節。資訊檢索環節從外部知識源(如搜尋引擎)中搜尋多樣化的相關支援事實,資訊綜合環節則将搜集到的事實整合成一個連貫的答案。

然而,傳統的 LFQA 範式存在一個缺陷:它通常依賴于非互動式的檢索方法,即僅使用原始問題作為查詢語句來檢索資訊。相反,人類能夠通過與搜尋引擎 實時互動來進行網頁搜尋而篩選高品質資訊。對于複雜問題,人類往往将其分解成多個子問題并依次提問。通過識别和浏覽相關資訊,人類逐漸完善對原問題的了解,并不斷查詢新問題來搜尋更多樣的資訊。這種疊代的搜尋過程有助于擴大搜尋範圍,提高搜尋結果品質。總體而言,互動式網頁搜尋不僅為我們提供了擷取多樣化資訊來源的途徑,同時也反映了人類解決問題的認知過程,進而提高了可解釋性。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

微軟整合 OpenAI ChatGPT 搭建新必應系統

2021 年 12 月 OpenAI 釋出 WebGPT,這是支援 LFQA 的互動式網頁搜尋的一項先驅性工作。作者首先建構了一個由微軟必應搜尋(Bing)支援的網頁搜尋界面,然後招募标注員使用該界面收集資訊來回答問題。然後微調 GPT-3 模型,讓其模仿人類的搜尋行為,并将收集到的資訊整理成答案。實驗結果顯示,WebGPT 在 LFQA 任務具備出色的能力,甚至超過了人類專家。而 WebGPT 也正是微軟近期推出的 New Bing 背後的新一代搜尋技術。

盡管效果十分驚人,但 WebGPT 、New Bing 對學術圈和工業界來說仍然充滿神秘感。這是因為 WebGPT 的相關細節并未完全公開,其核心設計元素的工作原理也不透明。鑒于目前互動式網頁搜尋的重要價值,我們迫切需要一個标準資料集與相關的開源模型以支援後續研究。

WebCPM 搜尋互動界面和資料集

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

WebCPM 搜尋互動界面。

為推動相關領域發展,這篇 ACL 論文的研究團隊首先建構了一個 開源的互動式網頁搜尋界面,用于記錄人類為開放式問題收集相關資訊時的網頁搜尋行為。該界面底層調用必應搜尋 API 支援網頁搜尋功能,囊括 10 種主流網頁搜尋操作(如點選頁面、傳回等等)。在這個界面中,使用者可以執行預定義的操作來進行多輪搜尋和浏覽。在找到網頁上的相關資訊時,他們可以将其作為支援事實記錄下來。當收集到足夠的資訊後,使用者可以完成網頁搜尋,并根據收集到的事實來回答問題。同時,界面會自動記錄使用者的網頁浏覽行為,用于建構 WebCPM 資料集。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

WebCPM 資料集與相關問答資料集的比較。

基于這個界面,作者建構了中文領域首個基于互動式網頁搜尋的 LFQA 資料集。它包含 5,500 對高品質的問題 - 答案對以及十萬多條真實使用者網頁搜尋行為。與現有的中文問答資料集相比,WebCPM 的問題、支援事實和答案都更長,展現了其問題的複雜性和答案内容的豐富性。

WebCPM 模型架構

作者提出了的 WebCPM 架構包括:搜尋模型與答案綜合模型。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

WebCPM 模型架構

搜尋模型

該模型模仿人類網頁搜尋行為、與搜尋引擎互動并進行資訊檢索。作者将網頁搜尋任務劃分為 3 個子任務:搜尋行為預測(action prediction)、查詢語句生成(search query generation)和 支援事實摘要(supporting fact extraction)。搜尋行為預測子產品在每一步決定執行哪個具體的搜尋行為。該子產品可以調用其它兩個子產品來生成下一步查詢語句或摘錄重要資訊。每個子任務都基于生成式中文大模型來訓練。通過組合 3 個訓練得到的子產品,該模型能夠在搜尋引擎界面上執行一系列操作以收集與問題相關的資訊。每個子產品在目前界面狀态的條件下執行推理。包括原始問題 、目前搜尋的查詢語句 、曆史操作序列

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

,上一個視窗和目前視窗中顯示的内容 和 、目前已經摘錄的支援事實

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

答案綜合模型

該模型根據原問題與收集到的事實生成連貫的答案。然而與人類不同,經過訓練的搜尋模型偶爾會收集到不相關的噪聲,這将影響生成答案的品質。為了解決這一問題,作者在答案綜合模型的訓練資料中引入噪聲,使其具備一定的去噪的能力,進而忽略不相關的事實,隻關注重要的事實以生成答案。

作者首先對每個子子產品分别評估,然後,将所有子產品組合起來形成整體的 pipeline,并測試其效果。最後,作者對每個子產品的性能進行深入分析。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

單個子任務的性能評估結果,作者測試了包括 CPM 模型在内的多個有代表性的中文大模型。

單個子任務評估

作者測試了多個有代表性的中文大模型,并得出以下結論(結果如上圖所示):不同模型在四個子任務上的性能各有優劣。例如在搜尋行為預測、查詢語句生成和支援事實摘要中,mT0 的表現優于 mT5,但在綜合資訊方面表現較差。此外,CPM 系列模型的性能随着模型參數量的增加也不斷提高。得益于 scaling law ,更大的模型通常擁有更強的了解和生成能力,能表現出更好的下遊任務性能。

整體 pipeline 評測

對于每個測試問題,作者比較了模型(CPM 10B 模型)和人類使用者使用搜尋引擎回答問題和做相同任務的表現,并進行人工評測。具體而言,給定一個問題和模型與人類分别給出的答案,标注員将根據多個因素(包括答案整體實用性、連貫性和與問題的相關性)決定哪個答案更好。從下圖 (a) 的結果可以得出以下結論:模型生成的答案在 30%+ 的情況下與人寫的答案相當或更優。這個結果表明整個問答系統的性能在未來仍有巨大的提升空間(例如訓練性能更加強大的基底模型);當将人工收集的事實應用于資訊綜合模型時,性能提高到了 45%,這可以歸因于收集的事實品質的提高。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

整體 pipeline 評測效果,作者測試了 WebCPM 資料集和 DuReader 資料集

此外,作者也将整體 pipeline 應用于 DuReader 中文 QA 資料集(包含 Zhidao 和 Search 兩個子資料集),并比較了模型生成的答案和人工标注的答案,從上圖 (b) 可以觀察到模型生成的答案比 DuReader 标注答案更好的情況接近 50%,這反映了該模型強大的泛化能力,展現了 WebCPM 資料标注的高品質。

WebCPM 案例分析

為了探究查詢子產品所學習到的人類行為,作者抽樣不同測試問題生成的查詢語句來進行案例分析。下圖展示了部分結果,以研究查詢子產品的性能。可以看出,該子產品已經學會了複制原始問題,将問題分解為多個子問題,用相關術語改寫問題等多種人類搜尋政策。這些政策使查詢語句更加多樣化,有助于從更多的來源收集更豐富的資訊。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

WebCPM 成功實踐 BMTools

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

近年來,大模型在諸多領域展現出驚人的應用價值,持續重新整理各類下遊任務的效果上限。盡管大模型在很多方面取得了顯著的成果,但在特定領域的任務上,仍然存在一定的局限性。這些任務往往需要專業化的工具或領域知識才能有效解決。是以,大模型需要具備調用各種專業化工具的能力,這樣才能為現實世界任務提供更為全面的支援。最近,

新的範式大模型工具學習(Tool Learning)

應運而生。這一範式的核心在于将專業工具與基礎模型的優勢相融合,以在問題解決方面達到更高的準确性、效率和自主性,工具學習極大地釋放了大模型的潛力。

首個互動式網頁搜尋的中文問答開源架構,清華人大騰訊釋出WebCPM

在應用方面,ChatGPT Plugins 的出現補充了 ChatGPT 最後的短闆,使其可以支援連網、解決數學計算,被稱為 OpenAI 的 “App Store” 時刻。然而直到現在,它僅支援部分 OpenAI Plus 使用者,大多數開發者仍然無法使用。為此,工具學習引擎 BMTools 也應運而生,它是一個基于語言模型的開源可擴充工具學習平台。研發團隊将各種各樣的工具(例如文生圖模型、搜尋引擎、股票查詢等)調用流程都統一到一個架構上,使整個工具調用流程标準化、自動化。開發者可以通過 BMTools,使用給定的模型(ChatGPT、GPT-4)調用多種多樣的工具接口,實作特定功能。此外,BMTools 工具包也已內建最近爆火的 Auto-GPT 與 BabyAGI。

  • BMTools 工具包 :https://github.com/OpenBMB/BMTools
  • 工具學習綜述連結 :https://arxiv.org/abs/2304.08354
  • 工具學習論文清單 :https://github.com/thunlp/ToolLearningPapers

WebCPM 是 BMTools 的一次成功實踐,相信在不斷發展和完善大模型工具學習技術的過程中,大模型工具學習的範式将會有更加廣泛的應用。

繼續閱讀