天天看點

深度學習:BERT 模型結構

作者:架構筆記

BERT(Bidirectional Encoder Representations from Transformers)是由Google在2018年提出的一種深度學習模型,用于自然語言處理任務。

深度學習:BERT 模型結構

BERT使用一種特殊的詞元分析器,即WordPiece。WordPiece遵循子詞詞元化規律。

當使用WordPiece進行分詞時,我們首先會檢查該詞是否存在于詞表中。如果該詞已經在詞表中了,那麼就把它作為一個标記。如果該詞不在詞表中,那麼就繼續将該詞分成子詞,檢查子詞是否在詞表中。如果該子詞在詞表中,那麼就把它作為一個标記。但如果子詞還是不在詞表中,那麼繼續分割子詞。我們通過這種方式不斷地進行拆分,檢查子詞是否在詞表中,直到字母級别(無法再分)。

這樣,将給定的輸入句子轉換為标記。然後将這些标記依次送入标記嵌入層、分段嵌入層和位置嵌入層,并獲得嵌入結果。

深度學習:BERT 模型結構

BERT可以了解單詞的上下文含義,并根據上下文生成嵌入向量。它不像word2vec那樣的無上下文模型,後者生成的嵌入向量與上下文無關。

接下來,将所有的嵌入值相加,并輸入給BERT。

BERT模型在大量的無标簽文本資料上進行預訓練,通常使用Wikipedia和BooksCorpus等大規模資料集。

預訓練任務包括“Masked Language Model”(MLM,掩碼語言模型)和“Next Sentence Prediction”(NSP,下句預測)。

掩碼語言模型(MLM)的主要思想是在輸入句子中随機遮擋(或掩碼)一些詞彙,并要求模型預測這些被遮擋的詞。這種政策使得BERT能夠雙向地學習上下文資訊。

下句預測(NSP)是一個用于訓練BERT模型的政策,它是一個二分類任務。在下句預測任務中,我們向BERT模型提供兩個句子,它必須預測第二個句子是否是第一個句子的下一句。

深度學習:BERT 模型結構

預訓練之後,BERT可以在特定的下遊任務上進行微調,如文本分類、命名實體識别、問答等。

#BERT##Transformer##AI人工智能#

繼續閱讀