GPT(Generative Pre-trained Transformer)和BERT(Bidirectional Encoder Representations from Transformers)都是基于自然語言處理任務的預訓練模型,但它們有許多不同之處。
差別:
1. 目标任務不同:GPT用于生成式任務,如文本生成、對話生成等;BERT用于判别式任務,如文本分類、問答等。
2. Masked Language Model(MLM)的不同:GPT是單向語言模型,是以在預訓練時隻使用了左側的詞語資訊,提供了一種時間上的處理機制,包括使得所有資訊都可用和使得較早輸入的資訊在後續時間被保留;而BERT是雙向的,它使用了MLM來訓練模型,這意味着在預訓練過程中,模型随機遮蓋一部分詞彙并學習預測缺失的詞語,這樣可以有效地處理雙向資訊。
3. 架構不同:GPT使用了Transformer的decoder部分;BERT使用了Transformer的encoder部分。
聯系:
1. 都是基于Transformer架構的預訓練模型;
2. 都使用了無監督的預訓練方法來學習通用的語言表示;
3. 都在NLP任務中取得了領先的效果。