深度學習：BERT 模型結構

作者：架構筆記 2023-09-24 08:37:00

BERT（Bidirectional Encoder Representations from Transformers）是由Google在2018年提出的一種深度學習模型，用于自然語言處理任務。

BERT使用一種特殊的詞元分析器，即WordPiece。WordPiece遵循子詞詞元化規律。

當使用WordPiece進行分詞時，我們首先會檢查該詞是否存在于詞表中。如果該詞已經在詞表中了，那麼就把它作為一個标記。如果該詞不在詞表中，那麼就繼續将該詞分成子詞，檢查子詞是否在詞表中。如果該子詞在詞表中，那麼就把它作為一個标記。但如果子詞還是不在詞表中，那麼繼續分割子詞。我們通過這種方式不斷地進行拆分，檢查子詞是否在詞表中，直到字母級别（無法再分）。

這樣，将給定的輸入句子轉換為标記。然後将這些标記依次送入标記嵌入層、分段嵌入層和位置嵌入層，并獲得嵌入結果。

BERT可以了解單詞的上下文含義，并根據上下文生成嵌入向量。它不像word2vec那樣的無上下文模型，後者生成的嵌入向量與上下文無關。

接下來，将所有的嵌入值相加，并輸入給BERT。

BERT模型在大量的無标簽文本資料上進行預訓練，通常使用Wikipedia和BooksCorpus等大規模資料集。

預訓練任務包括“Masked Language Model”（MLM，掩碼語言模型）和“Next Sentence Prediction”（NSP，下句預測）。

掩碼語言模型（MLM）的主要思想是在輸入句子中随機遮擋（或掩碼）一些詞彙，并要求模型預測這些被遮擋的詞。這種政策使得BERT能夠雙向地學習上下文資訊。

下句預測（NSP）是一個用于訓練BERT模型的政策，它是一個二分類任務。在下句預測任務中，我們向BERT模型提供兩個句子，它必須預測第二個句子是否是第一個句子的下一句。

預訓練之後，BERT可以在特定的下遊任務上進行微調，如文本分類、命名實體識别、問答等。

#BERT##Transformer##AI人工智能#

深度學習：BERT 模型結構

繼續閱讀

深度思考：視覺深度學習模型一定越大越好嗎？

南方測繪推薦 | 劉麗：聯合深度學習與面向對象分析的衛甯北山露天礦山采場資訊提取

【技術】汽車端到端大模型：AI對駕駛規則的深度學習

“AI”科普丨太全了！多模态深度學習的綜述！

學前教育｜董欣然：在遊戲工作坊中促進幼兒深度學習——以“彭城美食街”為例

深度學習硬體的進步：GPU、TPU 等

生成式AI原理技術詳解（一）——神經網絡與深度學習

聽說你缺GPU？送你一份輕量級深度學習的最全總結！

100種分析思維模型之：深度學習

深度學習與化學語言模型結合，用于藥物從頭設計，登Nature子刊

深度學習算法在素材隐義标簽生成中應用研究

預測瞬态熔池變化，美國開發深度學習替代原位PBF-LB粉末床金屬熔融3D列印過程監測

看了極客灣的測評，發現A卡的專業性能其實也不弱A卡的ai性能和深度學習不行，沒有CUDA核心根本運作不了，軟體都進不去，

最高170W的性能！聯想頂級移動圖站上新啦近日，聯想ThinkPadP系列終于更新——ThinkPadP16AI2024

每周 GitHub 探索｜影視創作、深度學習神器盡在其中

八大神器助你玩轉深度學習、圖像處理到音樂制作，打造技術全能王