天天看點

LSTM神經網絡

LSTM即Long Short Memory Network,長短時記憶網絡。它其實是屬于RNN的一種變種,可以說它是為了克服RNN無法很好處理遠距離依賴而提出的。

我們說RNN不能處理距離較遠的序列是因為訓練時很有可能會出現梯度消失,即通過下面的公式訓練時很可能會發生指數縮小,讓RNN失去了對較遠時刻的感覺能力。

LSTM神經網絡
LSTM神經網絡

回顧一下RNN的模型,如下圖,展開後多個時刻隐層互相連接配接,而所有循環神經網絡都有一個重複的網絡子產品,RNN的重複網絡子產品很簡單,如下下圖,比如隻有一個tanh層。 

LSTM神經網絡
LSTM神經網絡

而LSTM的重複網絡子產品的結構則複雜很多,它實作了三個門計算,即遺忘門、輸入門和輸出門。每個門負責是事情不一樣,遺忘門負責決定保留多少上一時刻的單元狀态到目前時刻的單元狀态;輸入門負責決定保留多少目前時刻的輸入到目前時刻的單元狀态;輸出門負責決定目前時刻的單元狀态有多少輸出。

LSTM神經網絡

每個LSTM包含了三個輸入,即上時刻的單元狀态、上時刻LSTM的輸出和目前時刻輸入。

LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡
LSTM神經網絡

相關閱讀: 

<a href="http://blog.csdn.net/wangyangzhizhou/article/details/74348279">神經網絡的交叉熵損失函數</a>

========廣告時間========

<a href="http://blog.csdn.net/wangyangzhizhou/article/details/74080321">為什麼寫《Tomcat核心設計剖析》</a>

=========================

歡迎關注:

LSTM神經網絡

繼續閱讀