論文閱讀 | Reinforced Training Data Selection for Domain Adaptation

論文位址： https://www.aclweb.org/anthology/P19-1189/

已有研究工作：

TDS，training data selection，可以用來解決監督模型中的資料跨域、分布不比對的問題，可以去除噪聲和不相幹的樣本。一般的方法是将整個資料集在某種度量标準下進行評分或排序，然後選擇前n項。作者認為這樣的方法不能展現出領域知識的有效特征，也不能應用于不同的資料性質。對于更通用的度量方法，需要對超參數，也就是門檻值的設定有進一步的研究。而且，它和模型訓練是互相獨立的，不能獲得來自任務的回報。

本文的工作和創新點：

TDS本身是一個有指數複雜度的組合優化問題，不可能窮盡所有組合。是以解決思路是視為一個決策序列。本文使用RL來解決，目标是正确度量訓練樣本和目标域之間的相關性，根據特定任務所選樣本獲得的回報來指導選擇過程。模型包括一個産生選擇機率的部分SDG（selection distribution generator）一個用于學習資料表示的特征提取器，一個用于測量所選資料性能的分類器。

研究方法：

模型的主要結構如下圖所示。

Predictor：包括特征提取器和分類器兩個部分。特征提取器是将選擇的資料轉換為向量表示，輸入包括兩個部分，一部分是目标域中提取得到的未标記的資料，另一部分是從原域中選擇出來的資料。分類器是在一輪TDS結束之後，評估它的表現部分，它的輸入來自于特征提取器，它評估的結果也會回報給特征提取器。

SDG：本身是一個MLP，在每一步中，SDG獲得輸入來自于特征提取器，産生的輸出表示每個執行個體被選擇的機率。

聯合訓練架構：使用政策梯度将SDG和Predictor聯合訓練，整體的流程如下：

State：一個給定的狀态包括選擇的執行個體和特征提取器的參數，分别用和來表示。

Action：是一組0-1空間，決定某個執行個體是否被選擇。

Reward：TDS在數學上的目标是確定所選數組符合目标域的分布，獎勵函數如下：

其中d是衡量分布差異的範數，可以通過JS散度（Jensen-Shannon divergence）、MMD（maximum mean discrepancy）、RENYI（the symmetric Renyi divergence）、

loss來實作。是一個減少未來分布差異影響的常數。

優化：優化的目标函數如下：

SDG的參數通過政策梯度來更新：

，

其中表示的學習率遞減速率。

實驗部分：在SANCL和産品評論兩個資料集上展開實驗，前者是POS标記和依賴項解析任務，後者是情感分析任務。在實驗中并沒有指定門檻值n，也就是要選擇的執行個體數量，由模型自主決定，不是一個定值。Predictor先在資料集上預訓練兩個epoch。實驗結果如下：

可以看到優于baseline模型，大多數情況下優于在所有源資料上訓練的同一個預測器。

評價：

TDS，也就是針對任務選擇品質更高的資料，進而排除一些噪聲的影響。本文的主要優點在于将TDS的過程和模型的訓練過程通過RL統一在一個架構中。同時不需要對TDS過程設定門檻值。