天天看點

論文閱讀 | FIESTA: Fast IdEntification of State-of-The-Art models using adaptive bandit algorithms

論文位址:https://www.aclweb.org/anthology/P19-1281/

作者:Henry Moss, Andrew Moore, David Leslie, Paul Rayson

機構:Lancaster University

研究的問題:

關注模型選擇的問題,也就是在盡可能減少計算資源的前提下評估模型效果,更多地關注于更有希望的模型。

對于一個模型,它的不确定性主要來自于以下兩個方面:

1、資料集導緻的不确定性,因為需要對資料集随機劃分為訓練集和測試集。

2、随機seed的選擇,也就是初始化、采樣等産生的不确定性。

本文提出了FIESTA(fast identification of start-of-the-art),目标是通過少量的模型評估,從候選者模型中識别出最佳模型。

研究方法:

分别根據不同的需求,在固定預算(配置設定固定的計算資源)的情況下和固定置信度(希望所選出的模型是最好的)的兩種場景下分别讨論。

固定預算:一般方法是連續地消除不可靠的模型,直到隻剩下最後一個最理想的模型。主要借鑒了sequential halving(SH)算法,使用logN輪來從N個模型中選擇,也就是每次丢棄一半模型。計算資源首先在各輪中平均配置設定,然後在每輪的各個模型中平均配置設定。示例如下:

上面的例子中,預算是16次評估,在第一輪中,每個模型評估兩次,第二輪中,每個模型被評估四次,多次評估的目的在于減少随機性帶來的偏差。

算法的理論前提上每個模型的獎勵分布是有界的,但一半的NLP名額,準确率、召回率等都是有界的。

整體算法流程如下:

固定置信度:這種情況下希望選擇的是性能最優的模型。方法主要基于貝葉斯采樣方法的一個變體,top-two Thompson sampling(TTTS)。

它的前提是每個模型的評價就遵循高斯分布,有着不同的均值和方差。但一般NLP的名額都是有界的,并不遵循。作者這裡進行了實驗,将名額映射到整個實數範圍,但發現這個改變對實驗幾乎沒有幫助。

用表示模型的最佳性能,模型的選擇政策為标準的Thompson sampling,也就是根據目前作為它的采樣機率來選擇模型。

由于假設模型結果服從高斯分布 ,問題就是評估和,同時使用T_m記錄每個模型的評估次數。為了便于推斷,設定一個統一的和。将估計的均值和方差定義為。滿足:

 總體流程如下:

實驗部分:實驗在目标級的情感分析任務上進行,選擇了八個模型作為評估對象。部分實驗結果如下:

 評價:

将multi-armed bandits用來提高模型選擇的可靠性和降低成本的,之前MAB大多用在了優化翻譯算法中。但事實上這個方面的需求并不多,模型的用處不大。