LSTM模型

2017-11-09 23:50:00

摘自：http://www.voidcn.com/article/p-ntafyhkn-zc.html

（二）LSTM模型

1.長短期記憶模型（long-short term memory）是一種特殊的RNN模型，是為了解決RNN模型梯度彌散的問題而提出的；在傳統的RNN中，訓練算法使用的是BPTT，當時間比較長時，需要回傳的殘差會指數下降，導緻網絡權重更新緩慢，無法展現出RNN的長期記憶的效果，是以需要一個存儲單元來存儲記憶，是以LSTM模型被提出；

2.下面兩個圖可以看出RNN與LSTM的差別：

（1）RNN

（2）LSTM

PS：

（1）部分圖形含義如下：

（2）RNN與LSTM最大的差別在于LSTM中最頂層多了一條名為“cell state”的資訊傳送帶，其實也就是資訊記憶的地方；

3.LSTM的核心思想：

（1）了解LSTM的核心是“cell state”，暫且名為細胞狀态，也就是上述圖中最頂的傳送線，如下：

（2）cell state也可以了解為傳送帶，個人了解其實就是整個模型中的記憶空間，随着時間而變化的，當然，傳送帶本身是無法控制哪些資訊是否被記憶，起控制作用的是下面将講述的控制門（gate）；

（3）控制門的結構如下：主要由一個sigmoid函數跟點乘操作組成；sigmoid函數的值為0-1之間，點乘操作決定多少資訊可以傳送過去，當為0時，不傳送，當為1時，全部傳送；

（4）LSTM中有3個控制門：輸入門，輸出門，記憶門；

4.LSTM工作原理：

（1）forget gate：選擇忘記過去某些資訊：

（2）input gate：記憶現在的某些資訊：

（3）将過去與現在的記憶進行合并：

（4）output gate：輸出

PS：以上是标準的LSTM的結構，實際應用中常常根據需要進行稍微改善；

5.LSTM的改善

（1）peephole connections：為每個門的輸入增加一個cell state的信号

（2）coupled forget and input gates：合并忘記門與輸入門

本文轉自張昺華-sky部落格園部落格，原文連結：http://www.cnblogs.com/bonelee/p/7714643.html，如需轉載請自行聯系原作者

LSTM模型

繼續閱讀

Codeforces 1417 D. Make Them Equal(思維+構造)

查找算法之二分查找查找算法之二分查找

查找算法學習之二分查找（Python版本）——BinarySearch

CQ V1.0分詞bates(基于雙數組tire樹)—應該是目前最快的中文分詞算法

Command Network(POJ 3164)---定根最小樹形圖模闆題題目描述輸入格式輸出格式輸入樣例輸出樣例分析源程式

開源低帶寬語音編解碼器

241 Different Ways to Add Parentheses（C代碼版）

【趨高機器視覺】機器視覺技術原了解析及解決方案

CSMA/CD1． CSMA/CD的概述2． CSMA 的工作原理3． CSMA/CD控制規程及特點4． CSMA/CD協定5． CSMA/CD的優點6．結束語

極大似然法(ML)與最大期望法(EM)

C++ 第十五周報告1--《冒泡法排序》

筆試面試題目：滑動視窗(二)

資料結構與算法（27）——排序（二）

Dijkstra--簡易版（最短路徑）

GitHub連夜封殺！這份阿裡 10W 字内部 Java 字面試手冊到底有多強？

hdu7108哈希