天天看點

論文閱讀 | Reinforced Training Data Selection for Domain Adaptation

論文位址 : https://www.aclweb.org/anthology/P19-1189/

已有研究工作:

TDS,training data selection,可以用來解決監督模型中的資料跨域、分布不比對的問題,可以去除噪聲和不相幹的樣本。一般的方法是将整個資料集在某種度量标準下進行評分或排序,然後選擇前n項。作者認為這樣的方法不能展現出領域知識的有效特征,也不能應用于不同的資料性質。對于更通用的度量方法,需要對超參數,也就是門檻值的設定有進一步的研究。而且,它和模型訓練是互相獨立的,不能獲得來自任務的回報。

本文的工作和創新點:

TDS本身是一個有指數複雜度的組合優化問題,不可能窮盡所有組合。是以解決思路是視為一個決策序列。本文使用RL來解決,目标是正确度量訓練樣本和目标域之間的相關性,根據特定任務所選樣本獲得的回報來指導選擇過程。模型包括一個産生選擇機率的部分SDG(selection distribution generator)一個用于學習資料表示的特征提取器,一個用于測量所選資料性能的分類器。

研究方法:

模型的主要結構如下圖所示。

Predictor:包括特征提取器和分類器兩個部分。特征提取器是将選擇的資料轉換為向量表示,輸入包括兩個部分,一部分是目标域中提取得到的未标記的資料,另一部分是從原域中選擇出來的資料。分類器是在一輪TDS結束之後,評估它的表現部分,它的輸入來自于特征提取器,它評估的結果也會回報給特征提取器。

SDG:本身是一個MLP,在每一步中,SDG獲得輸入來自于特征提取器,産生的輸出表示每個執行個體被選擇的機率。

聯合訓練架構:使用政策梯度将SDG和Predictor聯合訓練,整體的流程如下:

State:一個給定的狀态包括選擇的執行個體和特征提取器的參數,分别用和來表示。

Action:是一組0-1空間,決定某個執行個體是否被選擇。

Reward:TDS在數學上的目标是確定所選數組符合目标域的分布,獎勵函數如下:

其中d是衡量分布差異的範數,可以通過JS散度(Jensen-Shannon divergence)、MMD(maximum mean discrepancy)、RENYI(the symmetric Renyi divergence)、

loss來實作。是一個減少未來分布差異影響的常數。

優化:優化的目标函數如下:

 SDG的參數通過政策梯度來更新:

其中表示的學習率遞減速率。

實驗部分:在SANCL和産品評論兩個資料集上展開實驗,前者是POS标記和依賴項解析任務,後者是情感分析任務。在實驗中并沒有指定門檻值n,也就是要選擇的執行個體數量,由模型自主決定,不是一個定值。Predictor先在資料集上預訓練兩個epoch。實驗結果如下:

可以看到優于baseline模型,大多數情況下優于在所有源資料上訓練的同一個預測器。

評價:

TDS,也就是針對任務選擇品質更高的資料,進而排除一些噪聲的影響。本文的主要優點在于将TDS的過程和模型的訓練過程通過RL統一在一個架構中。同時不需要對TDS過程設定門檻值。