文 | python
前言
GPT-3 等超大規模預訓練語言模型,在少監督任務(few-shot tasks)上取得了令人矚目的成績。而這篇文章中,AllenAI的研究員提出了大規模生成式問答模型,MACAW。基于多角度預訓練,MACAW可以用于包括段選取(span selection)、選擇題、生成式問答在内的一切問答任務,以及包括問題生成、選項生成、解釋生成等在内的多種問答相關任務。MACAW在ARC、ARC-DA等多個問答基準上取得了業界最好的成績,并且隻用了GPT-3 十六分之一的參數規模,就在無監督問答資料集 Challenge300 上,相較GPT-3取得了10%的絕對提升。
論文題目:
General-Purpose Question-Answering with MACAW
論文連結:
https://arxiv.org/abs/2109.02593
項目位址:
https://github.com/allenai/macaw
概覽
MACAW(Multi-Angle q(C)uestion-AnsWering),字面含義指一種多角度問答模型。在這篇文章中,作者擴充了之前自己在UnifiedQA[1] 中提出了統一問答架構,将不同的問答任務形式進一步擴充到不同的問答相關任務,進而實作一種多角度的預訓練的方式,提升模型的通用性的同時,也提升模型的魯棒性。
編者按:這篇文章也可以稱為Unified-UnifiedQA。一方面,這篇文章兩個作者是均為UnifiedQA文章的作者;另一方面,在UnifiedQA中,作者利用預訓練語言模型,将所有生成、抽取、選擇式的問答任務形式統一,而這篇文章中進一步統一了如問題生成、選項生成,回答解釋生成等問答相關任務。
具體而言,MACAW基于預訓練的T5模型[2],并通過兩階段精調得到。在第一階段中,采用包括BoolQ、 NarrativeQA、RACE在内的7個問答資料集,并通過問題生成、答案生成、選項生成、選項加答案生成等6種不同的任務範式,讓模型充分地學到問答相關的一切技巧。而在第二階段中,采用了兩個标注有答案解釋的資料集,ARC和ARC-DA,進一步引入了8種和解釋相關的任務範式,讓模型知其然的同時,也能知其是以然。
MACAW具有以下三點優勢:
- 面向領域外的樣本,MACAW具備出色的無監督遷移學習能力。在 Challenge300 資料集上,相較GPT-3取得10%的絕對提升。
- MACAW具有“多角度問答能力”,無論是問題生成,還是回答生成,亦或是選項生成,MACAW都能勝任。
- MACAW還能生成回答的解釋,展現出知其然亦知其是以然的能力。
MACAW 模型
精調階段1:會出題的問答模型,才是個好模型
在第一個精調階段中,作者在7個問答資料集上,以6種不同的任務形式精調T5。這裡選用的資料集有答案段選取形式的SQuAD 2.0,有是否類問題BoolQ,有描述類生成式回答的NarrativeQA,有多項選擇題的RACE等等。
為了統一不同的任務形式,作者以slot的方式約定了任務的輸入輸出。例如下圖展示的是一個給定問題(questions)和候選選項(mcoptions),讓模型對答案(answer)做出預測的任務形式:
在7個資料集上,作者根據資料集特點,設計了6種任務作為第一階段的訓練目标。如下表所示。其中的符号,Q指問題、C指上下文(即閱讀了解讀的文本),A指答案,M指候選選項(選擇題裡才有)。例如QC→A指答案生成,AC→Q指問題生成,QAC→M指給定文章問題和答案的選項生成。可以看到,這裡面除了在原本UnifiedQA中就包含的答案生成任務外,還引入了大量問題生成、選項生成等任務。 讓模型在學會解題的同時,也學會出題。
這裡有兩個有意思的點。一方面,任務模式中可以有多種輸出,而考慮到生成模型自回歸解碼,多種輸出之間的順序關系是有意義的。比如AC→QM,是先根據文章和答案,生成問題,再根據生成的問題,生成候選選項。另一方面,這裡的任務設計考慮了資料特點,比如雖然QA→C,即給定問答對,生成閱讀文章,理論上可行。但實際中,因為問答對中包含的資訊過少,文章C中含有大量無關資訊,導緻這種任務沒有太多實際意義。是以,這裡也沒有涉及這種沒有意義的任務。
在實際訓練過程中,所有資料集與所有任務範式混合在一起進行訓練。以8的批處理大小,疊代訓練了120k步。不同的資料集之間進行等機率采樣。不同的任務之間也先驗性的賦給了一個采樣的權重。畢竟相對來說,答案生成比問題生成更重要一點,而這兩者又都明顯比選項生成等任務更重要。
第一階段精調的模型,在精調任務上的表現如下表所示。其中,NarrativeQA以ROUGE-L作評價,SQuAD2.0以F1作評價,其餘任務均以精度為評價名額。可以看到,引入多種不同的任務範式之後,模型在問答任務上的表現與單一問答任務的結果比是相當的,但具有了解決更多不同類型任務的能力。
編者按:實際上,由于訓練時采用多任務混合訓練,測試時使用單一任務測試,這一差異肯定會帶來表現下降。個人感覺,如果在這一階段訓練後再引入單一問答任務的精調,或使用課程學習的方式,将這一階段預訓練逐漸轉化為純問答形式,在問答任務上的表現會更好。不過,這裡作者主要是做一個初步的預訓練,而非為了刷問答任務的名額,是以沒有做這些嘗試。
精調階段2:成熟的問答模型,還能自我解釋
作者進一步引入了解釋類任務,讓模型知其然的同時還能夠知其是以然,使無監督問答任務上的回答更合理。作者使用了 WorldTree V2 explanation bank[3]中的幾十标注,覆寫65% 的 ARC 資料集和 50% 的 ARC-DA 資料集。
這裡的“無監督”,其實也可以了解成是領域外資料,即沒有和測試集同分布的訓練資料,但有大量形式類似的相關任務可以用于訓練。
任務形式如上圖所示,其中E代表解釋(explanation)。除了部分在第一階段也采用的任務外,作者引入了8個和解釋相關的任務,例如QM→AE,即給定問題和選項,生成答案後再生成解釋,AQC→E,即給定文本、問題和答案,生成解釋,E→QA,給定解釋,生成問題并作出回答。第二階段精調中,作者采用和第一階段類似的訓練政策,在第一階段的結果上進一步訓練了6k步。部分示例如下圖所示。
實驗分析
ARC資料集
作者在ARC資料集上檢測了MACAW的表現,如下表所示。MACAW在ARC、ARC-Easy和ARC- DA 上均達到了業界最優的表現[4]。不過,但監督學習範式下,在生成答案之後引入解釋的生成(即QM→AE),并沒有讓模型表現有明顯的提升。作者分析表示,引入解釋生成後,答案生成時條件依賴于生成的解釋,會使得生成答案的确定性更高。而不夠完美的解釋可能會反而強化錯誤答案的機率。
Challenge300資料集
Challenge300 是一個手工建構的問答評價資料集,由300道問題組成,涵蓋了22類不同的考察方面。在這裡作為一個無監督(領域外)的評價基準。因這個資料集答案較為靈活,規模較小,評價時以人工評價為準。作者對比了MACAW與GPT-3等主流無監督問答模型,實驗結果如下表所示。可以看到,和GPT-3相比,MACAW也可以取得10%的絕對提升,即使MACAW的11B的參數規模知識GPT-3 的175B的參數規模的十六分之一。
在不同類型的問題上的表現對比如上圖所示。可以看出,MACAW在很多問題類型上均表現出了明顯的優勢。例如:
- 實體替換類問題(Entity Substitution):挖掘實體關鍵屬性并找出可替代實體。
- 在條件假設下進行推理(Hypotheticals):
- 一些屬性相關的暗指(Meta-reasoning)
不過,MACAW也在某些問題上表現不佳,比如:
- 數學題(Non-trivial Arithmetic):其實在“5+7=?”這種簡單的數學題上,MACAW的表現還是不錯的。但數大一些之後就不行了。
- 物體追蹤(Entity Tracking and State Changes):這類問題在之前的bAbI資料集上比較常見。
- 空間推理(Spatial Reasoning):
總結
這篇文章提出的MACAW,在預訓練模型T5的基礎上,整合了包括段選取(span selection)、選擇題、生成式問答在内的一切問答範式,以及包括問題生成、選項生成、解釋生成等在内的多種問答相關任務做聯合精調。MACAW在多個問答基準上取得了業界最好的成績,并隻用了GPT-3 十六分之一的參數規模,就在無監督問答資料集 Challenge300 上,相較GPT-3取得了10%的絕對提升,展現了強大的無監督學習的能力。
多資料集多任務整合一直是問答任務的一大研究趨勢。2016年SQuAD提出以來,大量的問答資料集湧現,為多資料集整合提供了有力的資料支撐。受到Dual learning的啟發,MSRA的段楠老師等人在2017年EMNLP上提出聯合問題生成與問答任務[5],展現出多任務整合有利于問答表現。而2018年提出的BERT,因其适用于多種任務多種形式的包容性,給這一趨勢提供了無限可能。近期的工作包括:MultiQA (ACL 2019) [6]整合6種大規模段選取(span selection)任務,并探讨了對小規模任務的遷移能力;UnifiedQA (EMNLP Findings 2020),整合了多種不同的問答任務形式;以及這篇工作,進一步整合了問答任務及問題生成、選項生成、解釋生成等更多的問答相關任務形式。問答資料集本身可能才是限制問答任務難以走向實際應用的一大難題,畢竟在業務場景中使用者的問題千奇百怪,很難有足夠的同分布資料用以訓練。借助大規模預訓練語言模型強大的通用性,與prompt方法的靈活性,更多資料、知識與任務形式可以整合在一起,有助于打破問答任務應用的壁壘。
背景回複關鍵詞【入群】
加入賣萌屋NLP/IR/Rec與求職讨論群
背景回複關鍵詞【頂會】
擷取ACL、CIKM等各大頂會論文集!
[1] Khashabi, Daniel, et al. "UnifiedQA: Crossing Format Boundaries With a Single QA System." Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: Findings. 2020.
[2] Raffel, Colin, et al. "Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer." Journal of Machine Learning Research 21.140 (2020): 1-67.
[3] Jansen, Peter, et al. "WorldTree: A Corpus of Explanation Graphs for Elementary Science Questions supporting Multi-hop Inference." Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 2018.
[4] 資料集leaderboard:https://leaderboard.allenai.org/arc/submissions/public ,https://leaderboard.allenai.org/arceasy/submissions/public,https://leaderboard.allenai.org/genie-arcda/submissions/publicarcda/submissions/public
[5] Duan, Nan, et al. "Question generation for question answering." Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing. 2017.
[6] Talmor, Alon, and Jonathan Berant. "MultiQA: An Empirical Investigation of Generalization and Transfer in Reading Comprehension." Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics. 2019.