3. ELMo算法原了解析

2018-10-27 10:32:00

1. 語言模型

2. Attention Is All You Need（Transformer）算法原了解析

3. ELMo算法原了解析

4. OpenAI GPT算法原了解析

5. BERT算法原了解析

6. 從Encoder-Decoder(Seq2Seq)了解Attention的本質

7. Transformer-XL原理介紹

1. 前言

今天給大家介紹一篇2018年提出的論文《Deep contextualized word representations》，在這篇論文中提出了一個很重要的思想ELMo。本人認為ELMo的提出對後面的的GPT和BRET有一個很好的引導和啟發的作用。ELMo是一種是基于特征的語言模型，用預訓練好的語言模型，生成更好的特征。

2. ELMo模型介紹

ELMo是一種新型深度語境化詞表征，可對詞進行複雜特征(如句法和語義)和詞在語言語境中的變化進行模組化(即對多義詞進行模組化)。我們的詞向量是深度雙向語言模型(biLM)内部狀态的函數，在一個大型文本語料庫中預訓練而成。

說到詞向量，我們一定會聯想到word2vec，因為在它提出的詞向量概念給NLP的發展帶來了巨大的提升。而ELMo的主要做法是先訓練一個完整的語言模型，再用這個語言模型去處理需要訓練的文本，生成相應的詞向量，是以在文中一直強調ELMo的模型對同一個字在不同句子中能生成不同的詞向量。

3. ELMo原理介紹

3.1 ELMo的預訓練

前面也說過ELMo最重要的一點是就是訓練語言模型，語言模型的結構如下：

他們使用的是一個雙向的LSTM語言模型，由一個前向和一個後向語言模型構成，目标函數就是取這兩個方向語言模型的最大似然。

前向LSTM結構：

\[p(t_1,t_2,...,t_N) = \prod^N_{k=1}p(t_k|t_1,t_2,...,t_{k-1})

反向LSTM結構：

\[p(t_1,t_2,...,t_N) = \prod^N_{k=1}p(t_k|t_{k+1},t_{k+2},...,t_{N})

最大似然函數：

\[\sum_{k=1}^N(logp(t_k|t_1,t_2,...,t_{k-1}) + logp(t_k|t_{k+1},t_{k+2},...,t_{N}))

3.2 使用語言模型

在預訓練好這個語言模型之後，ELMo就是根據公式來用作詞表示，其實就是把這個雙向語言模型的每一中間層進行一個求和。最簡單的也可以使用最高層的表示來作為ELMo。然後在進行有監督的NLP任務時，可以将ELMo直接當做特征拼接到具體任務模型的詞向量輸入或者是模型的最高層表示上。

4. 總結

大家有想過為什麼ELMo的效果會比word2vec的效果好？我個人認為有一下幾點：

ELMo的假設前提一個詞的詞向量不應該是固定的，是以在一詞多意方面ELMo的效果一定比word2vec要好。
word2vec的學習詞向量的過程是通過中心詞的上下視窗去學習，學習的範圍太小了，而ELMo在學習語言模型的時候是從整個語料庫去學習的，而後再通過語言模型生成的詞向量就相當于基于整個語料庫學習的詞向量，更加準确代表一個詞的意思。
ELMo還有一個優勢，就是它建立語言模型的時候，可以運用非任務的超大語料庫去學習，一旦學習好了，可以平行的運用到相似問題。

3. ELMo算法原了解析

1. 語言模型

2. Attention Is All You Need（Transformer）算法原了解析

3. ELMo算法原了解析

4. OpenAI GPT算法原了解析

5. BERT算法原了解析

6. 從Encoder-Decoder(Seq2Seq)了解Attention的本質

7. Transformer-XL原理介紹

1. 前言

2. ELMo模型介紹

3. ELMo原理介紹

3.1 ELMo的預訓練

3.2 使用語言模型

4. 總結

繼續閱讀

詞向量與Embedding究竟是怎麼回事？

學習 ITEM2VEC: NEURAL ITEM EMBEDDING FOR COLLABORATIVE FILTERING

BERT代碼實作架構資料預處理BERT

什麼是Encoder-Decoder、Seq2Seq、Attention？2 什麼是Seq2Seq3 什麼是Attention

RNN/LSTM學習資料總結

【論文分享】MAD-GAN ：基于生成對抗網絡的時間序列資料多元異常檢測

A Guide For Time Series Prediction Using Recurrent Neural Networks (LSTMs)

Windows版本的Google word2vec和Stanford GloVe工具

NLP︱進階詞向量表達（一）——GloVe（理論、相關測評結果、R&python實作、相關應用）一、理論簡述二、測評三、Glove實作&R&python四、相關應用

GloVe與word2vec的差別，及GloVe的缺陷

統計學習大作業-BERT模型1 文本處理-BERT模型2 參考資料：

更别緻的詞向量模型(一)：simpler glove

詳細了解pytorch的lstm參數lstm(*input, **kwargs)

[一起學BERT]（一）：BERT模型的原理基礎Self-Attention機制理論Multi-head Self-Attention注意力機制位置編碼Transformer理論BERT理論

機器是如何學會說話的？大型語言模型揭秘之旅！

《論文閱讀》SAPBERT: Speaker-Aware Pretrained BERT for Emotion Recognition in Conversation