摘自:http://www.voidcn.com/article/p-ntafyhkn-zc.html
(二)LSTM模型
1.長短期記憶模型(long-short term memory)是一種特殊的RNN模型,是為了解決RNN模型梯度彌散的問題而提出的;在傳統的RNN中,訓練算法使用的是BPTT,當時間比較長時,需要回傳的殘差會指數下降,導緻網絡權重更新緩慢,無法展現出RNN的長期記憶的效果,是以需要一個存儲單元來存儲記憶,是以LSTM模型被提出;
2.下面兩個圖可以看出RNN與LSTM的差別:
(1)RNN
(2)LSTM
PS:
(1)部分圖形含義如下:
(2)RNN與LSTM最大的差別在于LSTM中最頂層多了一條名為“cell state”的資訊傳送帶,其實也就是資訊記憶的地方;
3.LSTM的核心思想:
(1)了解LSTM的核心是“cell state”,暫且名為細胞狀态,也就是上述圖中最頂的傳送線,如下:
(2)cell state也可以了解為傳送帶,個人了解其實就是整個模型中的記憶空間,随着時間而變化的,當然,傳送帶本身是無法控制哪些資訊是否被記憶,起控制作用的是下面将講述的控制門(gate);
(3)控制門的結構如下:主要由一個sigmoid函數跟點乘操作組成;sigmoid函數的值為0-1之間,點乘操作決定多少資訊可以傳送過去,當為0時,不傳送,當為1時,全部傳送;
(4)LSTM中有3個控制門:輸入門,輸出門,記憶門;
4.LSTM工作原理:
(1)forget gate:選擇忘記過去某些資訊:
(2)input gate:記憶現在的某些資訊:
(3)将過去與現在的記憶進行合并:
(4)output gate:輸出
PS:以上是标準的LSTM的結構,實際應用中常常根據需要進行稍微改善;
5.LSTM的改善
(1)peephole connections:為每個門的輸入增加一個cell state的信号
(2)coupled forget and input gates:合并忘記門與輸入門
本文轉自張昺華-sky部落格園部落格,原文連結:http://www.cnblogs.com/bonelee/p/7714643.html,如需轉載請自行聯系原作者