論文：https://arxiv.org/pdf/1906.04466.pdf

源碼：https://github.com/hongwang600/Summarization

摘要：

現存摘要抽取模型大都用交叉熵損失（刻畫兩個機率分布的距離）從零訓起，難以捕獲文檔級别的全局上下文特征。本文引入三個預訓練任務，用自監督（self-supervised）方法捕獲文檔全局特征。使用CNN/DailyMail資料集證明預訓練的模型即使接上簡單子產品也比以前SOTA表現好。

1.Introduction

抽最重要的句子，得對文檔有全局觀（如主題和文章結構），但之前end-to-end模型的都沒有明确的文檔級别編碼，指望着模型自己學出來，他認為不大可能，畢竟從頭開始訓練。近幾年也是僅限于詞編碼和句編碼，于是提出了一種新的預訓練方法，這種方法使用自監督（self-supervised）對文檔編碼。

自監督（2007-2015）目的是學習原始資料的内在結構。其使用結構化的原始資料構造訓練信号來訓練模型。文章本來就是精心布局謀篇的結構化資料，是以自監督能派上用場。

本文提出了Mask、Replace、Switch三個需要學習文檔級别結構和上下文的自監督任務，然後把預訓練得到的模型遷移到摘要任務。Mask任務随機mask一些句子，然後從候選句子集中預測被mask的句子。Replace任務随機從其他文檔裡替換過幾個句子來，然後預測某句是否被替換了。Switch任務用同一文檔的句子進行交換，然後預測某句是否被交換過。下圖是Mask任務的一個例子。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

從CNN/DM資料集實驗後發現這三個預訓練任務都很好，其中一個超過了sota模型NeuSum（ACL2018）。本文貢獻有三：

一是，首次用全局文檔資訊進行非人工标注式自監督句子表征。

二是，提出是三個方法，其中一個超過了sota。

三是，使用預訓練的模型，收斂快，效率高。

2. Model and Pre-training Methods

2.1 Basic Model

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

模型如上，分為“句子編碼器子產品”和“文檔自注意力子產品”。句子encoder是雙向LSTM。Xi是詞向量，Si是普通句向量，Di是考慮文檔資訊的句向量，最後通過一個線性層預測是否選為摘要。

2.2 自監督的預訓練模型（三個方法）

Mask

和預測被mask的詞類似，首先以

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

的機率mask一些句子

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

，放入候選集合

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

中。模型對每個被mask的位置i，從候選集合裡挑正确句子。本文把mask的句子用<UNK>代替，并計算其文檔級别上下文的句向量

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

。用同樣的句子encoder擷取候選集合中句子的embedding

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

是候選句子 j ，用cos給句子 j 打分。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

訓練時，使用ranking loss（排序誤差）做為損失函數最大化标準句和其他句之間的差異。i是第i個位置，j是黃金句，k是其他候選句。γ是超參數。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

Replace

首先以機率

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

随機替換掉一些句子（來源為其他文檔），然後預測這句是不是被替換了。具體來說，本文從1萬篇随機選取的文檔裡抽句子形成候選集

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

，

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

表示被替換的句子們的位置集合。本文使用一個線性層

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

來根據文檔編碼D來預測句子是否被替換，最小化MSE損失函數。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

其中，

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

，被替換的話y是1，否則y是0。

Switch

和Replace任務類似，但不是從其他文檔選句子，而是内部交換。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

表示被交換的句子們的位置集合。本文使用一個線性層

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

來根據文檔編碼D來預測句子是否被交換，最小化MSE損失函數。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

其中，

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

3.Experiment

本文和兩個baseline對比，一個是著名的Lead3（選前3句），一個是sota模型NeuSum（指針網絡）。

3.1 CNN/DM資料集

模型和訓練細節

本文使用是摘要标1，不是标2的方法标注。根據rouge代碼和論文，本文評測了Rouge-1，Rouge-2，Rouge-L。本文使用100維的Glove初始化詞向量權重。LSTM用作句子encoder，隐藏層size為200。文檔編碼子產品使用了5層4頭的Transformer encoder。最後是個線性分類層。

訓練分兩個階段。首先，用無标簽的原始資料預訓練（三種方法）；然後，用有标簽的資料對摘要任務進行fine-tune。預訓練階段學習率為0.0001，fine-tune階段學習率為0.00001。收斂或epoch達到上限30時訓練停止。mask、replace、switch了1/4的句子。

結果

switch方法超過了sota的NeuSum。收斂速度方面，Mask、Replace、Switch分别用了21，24，17個epoch，并且在fine-tune階段分别在第18，13，9個epoch到達最佳效果。而basic model訓了24個epoch才達到最佳狀态。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

3.2 消融分析

關于模型結構

僅用句子encoder，而文檔編碼子產品随機初始化，結果如上表最下面SentEnc。對于Switch，取0.25時效果最好。隻使用句子encoder對模型也有幫助，說明了預訓練的模型也能學習句子表示。

關于超參數

實驗了Switch了百分之多少的句子，發現對模型影響不是很大，在0.15到0.25時最佳。

4.Conclusion

本文提出了三個自監督任務讓模型學習文檔級别的上下文資訊，并應用于摘要抽取任務。其中Switch的預訓練方法訓出來的模型超過了sota。文檔級别的編碼有助于摘要任務，此外超參數對結果影響不是很大。

【ACL2019論文解讀】Self-Supervised Learning for Contextualized Extractive Summarization摘要：1.Introduction2. Model and Pre-training Methods3.Experiment 4.Conclusion

摘要：

1.Introduction

2. Model and Pre-training Methods

2.1 Basic Model

2.2 自監督的預訓練模型（三個方法）

3.Experiment

3.1 CNN/DM資料集

3.2 消融分析

4.Conclusion

繼續閱讀

NCBI：美國國立生物技術資訊中心大型資料庫

機器學習概述[Introduction of machine learning] 【ML hung-yi Lee】1. define machine learning2. learning map

基于LDA模型的郵件主題分類