1.與bert相比采用了動态mask的操作
具體操作:将資料複制十份,每一份使用不同的mask方式進行遮蓋
2.去除下一個句子預測的Next Sentence Prediction的操作
3.使用large batches進行訓練
4.使用Text Encoding進行文本編碼,這裡擴充了文本編碼使用字元作為權重,而不是unicode字元作為基礎的子單詞單元作為權重。
重難點句子
We re-establish that BERT’s masked language model training objective is competitive with other recently proposed training objectives such as perturbed autoregressive language modeling.
我們重建立立了BERT的遮蓋語言模型訓練目标與其他例如自動回歸語言模型的訓練有着一定的競争力。
We present a replication study of BERT pretraining,which includes a careful evaluation of the effects of hyperpameter tuning and training set size.
我們提供了一種BERT預訓練的複制版本,包括了仔細調整超參數的影響和訓練集的尺寸。