論文位址 : https://www.aclweb.org/anthology/P19-1189/
已有研究工作:
TDS,training data selection,可以用來解決監督模型中的資料跨域、分布不比對的問題,可以去除噪聲和不相幹的樣本。一般的方法是将整個資料集在某種度量标準下進行評分或排序,然後選擇前n項。作者認為這樣的方法不能展現出領域知識的有效特征,也不能應用于不同的資料性質。對于更通用的度量方法,需要對超參數,也就是門檻值的設定有進一步的研究。而且,它和模型訓練是互相獨立的,不能獲得來自任務的回報。
本文的工作和創新點:
TDS本身是一個有指數複雜度的組合優化問題,不可能窮盡所有組合。是以解決思路是視為一個決策序列。本文使用RL來解決,目标是正确度量訓練樣本和目标域之間的相關性,根據特定任務所選樣本獲得的回報來指導選擇過程。模型包括一個産生選擇機率的部分SDG(selection distribution generator)一個用于學習資料表示的特征提取器,一個用于測量所選資料性能的分類器。
研究方法:
模型的主要結構如下圖所示。
Predictor:包括特征提取器和分類器兩個部分。特征提取器是将選擇的資料轉換為向量表示,輸入包括兩個部分,一部分是目标域中提取得到的未标記的資料,另一部分是從原域中選擇出來的資料。分類器是在一輪TDS結束之後,評估它的表現部分,它的輸入來自于特征提取器,它評估的結果也會回報給特征提取器。
SDG:本身是一個MLP,在每一步中,SDG獲得輸入來自于特征提取器,産生的輸出表示每個執行個體被選擇的機率。
聯合訓練架構:使用政策梯度将SDG和Predictor聯合訓練,整體的流程如下:
State:一個給定的狀态包括選擇的執行個體和特征提取器的參數,分别用和來表示。
Action:是一組0-1空間,決定某個執行個體是否被選擇。
Reward:TDS在數學上的目标是確定所選數組符合目标域的分布,獎勵函數如下:
其中d是衡量分布差異的範數,可以通過JS散度(Jensen-Shannon divergence)、MMD(maximum mean discrepancy)、RENYI(the symmetric Renyi divergence)、
loss來實作。是一個減少未來分布差異影響的常數。
優化:優化的目标函數如下:
SDG的參數通過政策梯度來更新:
,
其中表示的學習率遞減速率。
實驗部分:在SANCL和産品評論兩個資料集上展開實驗,前者是POS标記和依賴項解析任務,後者是情感分析任務。在實驗中并沒有指定門檻值n,也就是要選擇的執行個體數量,由模型自主決定,不是一個定值。Predictor先在資料集上預訓練兩個epoch。實驗結果如下:
可以看到優于baseline模型,大多數情況下優于在所有源資料上訓練的同一個預測器。
評價:
TDS,也就是針對任務選擇品質更高的資料,進而排除一些噪聲的影響。本文的主要優點在于将TDS的過程和模型的訓練過程通過RL統一在一個架構中。同時不需要對TDS過程設定門檻值。