天天看點

LSTM模型

摘自:http://www.voidcn.com/article/p-ntafyhkn-zc.html

(二)LSTM模型

1.長短期記憶模型(long-short term memory)是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的;在傳統的RNN中,訓練算法使用的是BPTT,當時間比較長時,需要回傳的殘差會指數下降,導緻網絡權重更新緩慢,無法展現出RNN的長期記憶的效果,是以需要一個存儲單元來存儲記憶,是以LSTM模型被提出;

2.下面兩個圖可以看出RNN與LSTM的差別:

(1)RNN

(2)LSTM

PS:

(1)部分圖形含義如下:

(2)RNN與LSTM最大的差別在于LSTM中最頂層多了一條名為“cell state”的資訊傳送帶,其實也就是資訊記憶的地方;

3.LSTM的核心思想:

(1)了解LSTM的核心是“cell state”,暫且名為細胞狀态,也就是上述圖中最頂的傳送線,如下:

(2)cell state也可以了解為傳送帶,個人了解其實就是整個模型中的記憶空間,随着時間而變化的,當然,傳送帶本身是無法控制哪些資訊是否被記憶,起控制作用的是下面将講述的控制門(gate);

(3)控制門的結構如下:主要由一個sigmoid函數跟點乘操作組成;sigmoid函數的值為0-1之間,點乘操作決定多少資訊可以傳送過去,當為0時,不傳送,當為1時,全部傳送;

(4)LSTM中有3個控制門:輸入門,輸出門,記憶門;

4.LSTM工作原理:

(1)forget gate:選擇忘記過去某些資訊:

(2)input gate:記憶現在的某些資訊:

(3)将過去與現在的記憶進行合并:

(4)output gate:輸出

PS:以上是标準的LSTM的結構,實際應用中常常根據需要進行稍微改善;

5.LSTM的改善

(1)peephole connections:為每個門的輸入增加一個cell state的信号

(2)coupled forget and input gates:合并忘記門與輸入門

本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/7714643.html,如需轉載請自行聯系原作者

繼續閱讀