RNN、LSTM、GRU神经网络复习-程序员宅基地

技术标签： lstm 深度学习--网络架构概念知识 rnn 深度学习神经网络 gru

为什么需要 RNN ？

卷积神经网络 – CNN 和普通的算法大部分都是输入和输出的一一对应，也就是一个输入得到一个输出。不同的输入之间是没有联系的。

在现实生活中，例如对一个演讲进行语音识别，那演讲者每讲一句话的时间几乎都不太相同，而识别演讲者的讲话内容还必须要按照讲话的顺序进行识别。

这就需要有一种能力更强的模型：该模型具有一定的记忆能力，能够按时序依次处理任意长度的信息。这个模型就是今天的主角 “循环神经网络”（Recurrent Neural Networks，简称 RNN）。

RNN 的基本原理

传统神经网络的结构比较简单：输入层 – 隐藏层 – 输出层。如下图所示：

RNN 跟传统神经网络最大的区别在于每次都会将前一次的输出结果，带到下一次的隐藏层中，一起训练。如下图所示：

下面用一个具体的案例来看看 RNN 是如何工作的。

假如需要判断用户的说话意图（问天气、问时间、设置闹钟…），用户说了一句“what time is it？”我们需要先对这句话进行分词：

然后按照顺序输入 RNN ，我们先将 “what”作为 RNN 的输入，得到输出「01」。

然后，我们按照顺序，将“time”输入到 RNN 网络，得到输出「02」。

这个过程我们可以看到，输入 “time” 的时候，前面 “what” 的输出也产生了影响（隐藏层中有一半是黑色的）。

以此类推，前面所有的输入都对未来的输出产生了影响，大家可以看到圆形隐藏层中包含了前面所有的颜色。如下图所示：

当我们判断意图的时候，只需要最后一层的输出「05」，如下图所示：

但是，RNN 的缺点也比较明显。

通过上面的例子，我们已经发现，短期的记忆影响较大（如橙色区域），但是长期的记忆影响就很小（如黑色和绿色区域），这就是 RNN 存在的短期记忆问题。

RNN 有短期记忆问题，无法处理很长的输入序列。
训练 RNN 需要投入极大的成本。

RNN 的优化算法

RNN 到 LSTM – 长短期记忆网络

RNN 是一种死板的逻辑，越晚的输入影响越大，越早的输入影响越小，且无法改变这个逻辑。

LSTM 做的最大的改变就是打破了这个死板的逻辑，而改用了一套灵活了逻辑——只保留重要的信息。一个 LSTM 单元的结构，如下图所示：

从上图可以看出，中间有一个 cell（细胞），这也是 LSTM 用于判断信息是否有用的 “处理器”。同时，cell 旁边被放置了三扇门，分别是输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate）。一个信息进入 LSTM 的网络当中，可以根据规则来判断是否有用，只有符合要求的信息才会被留下，不符合的信息则会通过遗忘门被遗忘。
LSTM 巧妙地通过 “门” 的形式，利用开关实现时间上的记忆功能，是解决长期依赖问题的有效技术。在数字电路中，门（gate）是一个二值变量 {0,1}，0 代表关闭状态、不允许任何信息通过；1 代表开放状态，允许所有信息通过。而 LSTM 中的 “门” 也是类似，但它是一个 “软” 门，介于（0,1）之间，表示以一定的比例使信息通过。

一听起来就不明觉厉，那它是怎么做到的呢？

我们先来看一下 RNN 按时间展开后的简化图，结构很简单，标准 RNN 中的重复模块只包含单一的层，例如 tanh 层，如下图：

LSTM 有着类似的结构，但是重复的模块拥有一个不同的结构，LSTM 中的重复模块包含四个交互的层，其中输入门（Input Gate）、遗忘门（Forget Gate）和输出门（Output Gate）便在这里面，如下图：

下面介绍一下 LSTM 的工作原理，下面会结合结构图和公式进行介绍，回顾一下最基本的单层神经网络的结构图、计算公式如下，表示输入是 x，经过变换 Wx+b 和激活函数 f 得到输出 y。下面会多次出现类似的公式。（本质y=kx+b）

下面以一个语言模型的例子来进行介绍，这个模型是根据已经看到的词来预测下一个词，例如：

小明刚吃完米饭，现在准备要吃水果，然后拿起了一个（）

（1）遗忘门（Forget Gate）
该门的示意图如下，该门会读取 ht-1 和 xt 的信息，通过 sigmoid 层输出一个介于 0 到 1 之间的数值，作为给每个在细胞状态 Ct-1 中的数字，0 表示 “完全舍弃”，1 表示 “完全保留”。

结合上面讲到的语言预测模型例子，“小明刚吃完米饭”，这句话主语是 “小明”，宾语是 “米饭”，下一句话 “现在准备要吃水果”，这时宾语已经变成了新的词 “水果”，那第三句话要预测的词，就是跟 “水果” 有关了，跟 “米饭” 已经没有什么关系，因此，这时便可以利用 “遗忘门” 将 “米饭” 遗忘掉。

（2）输入门（Input Gate）
下一步是确定什么样的新信息被存放在细胞状态中。这里包含两部分：
首先是经过 “输入门”，这一层是决定我们将要更新什么值；然后，一个 tanh 层创建一个新的候选值向量，加入到状态中，如下图：

在这个语言预测模型的例子中，我们希望将新的代词 “水果” 增加到细胞状态中，来替代旧的需要忘记的代词 “米饭”。

现在来更新旧细胞的状态，由 Ct-1 更新为 Ct，更新方式为：（1）把旧状态 Ct-1 与 ft 相乘（回顾一下，ft 就是遗忘门，输出遗忘程度，即 0 到 1 之间的值），丢弃掉需要丢弃的信息（如遗忘门输出 0，则相乘后变成 0，该信息就被丢弃了）；（2）然后再加上 it 与候选值相乘（计算公式见上图）。这两者合并后就变成一个新的候选值。

在这个语言预测模型的例子中，这就是根据前面确定的目标，丢弃旧的代词信息（米饭）并添加新的信息（水果）的地方。

（3）输出门（Output Gate）
最后我们要确定输出什么值，首先，通过一个 sigmoid 层来确定细胞状态的哪个部分将要输出出去，接着，把细胞状态通过 tanh 进行处理（得到一个介于 - 1 到 1 之间的值）并将它和 sigmoid 的输出结果相乘，最终将会仅仅输出我们需要的那部分信息。

在这个语言模型的例子中，因为看到了一个新的代词（水果），可能需要输出与之相关的信息（苹果、梨、香蕉……）。

LSTM总结而言为：抓重点！

举个例子，我们先快速的阅读下面这段话：

当我们快速阅读完之后，可能只会记住下面几个重点：

LSTM 类似上面的划重点，他可以保留较长序列数据中的「重要信息」，忽略不重要的信息。这样就解决了 RNN 短期记忆的问题。

从 LSTM 到 GRU

Gated Recurrent Unit – GRU 是 LSTM 的一个变体。他保留了 LSTM 划重点，遗忘不重要信息的特点，在long-term 传播的时候也不会被丢失。

GRU它将遗忘门和输入门合成了一个单一的更新门，同样还混合了细胞状态和隐藏状态，以及其它一些改动。最终 GRU 模型比标准的 LSTM 模型更简单一些，如下图所示：

本文链接：https://blog.csdn.net/2201_75283694/article/details/136216452

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

分布式光纤传感器的全球与中国市场2022-2028年：技术、参与者、趋势、市场规模及占有率研究报告_预计2026年中国分布式传感器市场规模有多大-程序员宅基地

文章浏览阅读3.2k次。本文研究全球与中国市场分布式光纤传感器的发展现状及未来发展趋势，分别从生产和消费的角度分析分布式光纤传感器的主要生产地区、主要消费地区以及主要的生产商。重点分析全球与中国市场的主要厂商产品特点、产品规格、不同规格产品的价格、产量、产值及全球和中国市场主要生产商的市场份额。主要生产商包括：FISO TechnologiesBrugg KabelSensor HighwayOmnisensAFL GlobalQinetiQ GroupLockheed MartinOSENSA Innovati_预计2026年中国分布式传感器市场规模有多大

07_08 常用组合逻辑电路结构——为IC设计的延时估计铺垫_基4布斯算法代码-程序员宅基地

文章浏览阅读1.1k次，点赞2次，收藏12次。常用组合逻辑电路结构——为IC设计的延时估计铺垫学习目的：估计模块间的delay，确保写的代码的timing 综合能给到多少HZ，以满足需求！_基4布斯算法代码

OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版-程序员宅基地

文章浏览阅读3.3k次，点赞3次，收藏5次。OpenAI Manager助手（基于SpringBoot和Vue）_chatgpt网页版

关于美国计算机奥赛USACO，你想知道的都在这_usaco可以多次提交吗-程序员宅基地

文章浏览阅读2.2k次。USACO自1992年举办，到目前为止已经举办了27届，目的是为了帮助美国信息学国家队选拔IOI的队员，目前逐渐发展为全球热门的线上赛事，成为美国大学申请条件下，含金量相当高的官方竞赛。USACO的比赛成绩可以助力计算机专业留学，越来越多的学生进入了康奈尔，麻省理工，普林斯顿，哈佛和耶鲁等大学，这些同学的共同点是他们都参加了美国计算机科学竞赛（USACO)，并且取得过非常好的成绩。适合参赛人群USACO适合国内在读学生有意向申请美国大学的或者想锻炼自己编程能力的同学，高三学生也可以参加12月的第_usaco可以多次提交吗

MySQL存储过程和自定义函数_mysql自定义函数和存储过程-程序员宅基地

文章浏览阅读394次。1.1 存储程序1.2 创建存储过程1.3 创建自定义函数1.3.1 示例1.4 自定义函数和存储过程的区别1.5 变量的使用1.6 定义条件和处理程序1.6.1 定义条件1.6.1.1 示例1.6.2 定义处理程序1.6.2.1 示例1.7 光标的使用1.7.1 声明光标1.7.2 打开光标1.7.3 使用光标1.7.4 关闭光标1.8 流程控制的使用1.8.1 IF语句1.8.2 CASE语句1.8.3 LOOP语句1.8.4 LEAVE语句1.8.5 ITERATE语句1.8.6 REPEAT语句。_mysql自定义函数和存储过程

半导体基础知识与PN结_本征半导体电流为0-程序员宅基地

文章浏览阅读188次。半导体二极管——集成电路最小组成单元。_本征半导体电流为0

随便推点

【Unity3d Shader】水面和岩浆效果_unity 岩浆shader-程序员宅基地

文章浏览阅读2.8k次，点赞3次，收藏18次。游戏水面特效实现方式太多。咱们这边介绍的是一最简单的UV动画（无顶点位移），整个mesh由4个顶点构成。实现了水面效果（左图），不动代码稍微修改下参数和贴图可以实现岩浆效果（右图）。有要思路是1，uv按时间去做正弦波移动2，在1的基础上加个凹凸图混合uv3，在1、2的基础上加个水流方向4，加上对雾效的支持，如没必要请自行删除雾效代码(把包含fog的几行代码删除)S..._unity 岩浆shader

广义线性模型——Logistic回归模型（1）_广义线性回归模型-程序员宅基地

文章浏览阅读5k次。广义线性模型是线性模型的扩展，它通过连接函数建立响应变量的数学期望值与线性组合的预测变量之间的关系。广义线性模型拟合的形式为：其中g(μY)是条件均值的函数（称为连接函数）。另外，你可放松Y为正态分布的假设，改为Y 服从指数分布族中的一种分布即可。设定好连接函数和概率分布后，便可以通过最大似然估计的多次迭代推导出各参数值。在大部分情况下，线性模型就可以通过一系列连续型或类别型预测变量来预测正态分布的响应变量的工作。但是，有时候我们要进行非正态因变量的分析，例如：（1）类别型.._广义线性回归模型

HTML+CSS大作业环境网页设计与实现(垃圾分类) web前端开发技术 web课程设计网页规划与设计_垃圾分类网页设计目标怎么写-程序员宅基地

文章浏览阅读69次。环境保护、保护地球、校园环保、垃圾分类、绿色家园、等网站的设计与制作。总结了一些学生网页制作的经验：一般的网页需要融入以下知识点：div+css布局、浮动、定位、高级css、表格、表单及验证、js轮播图、音频视频 Flash的应用、ul li、下拉导航栏、鼠标划过效果等知识点，网页的风格主题也很全面：如爱好、风景、校园、美食、动漫、游戏、咖啡、音乐、家乡、电影、名人、商城以及个人主页等主题，学生、新手可参考下方页面的布局和设计和HTML源码（有用点赞△）一套A+的网_垃圾分类网页设计目标怎么写

C# .Net 发布后,把dll全部放在一个文件夹中,让软件目录更整洁_.net dll 全局目录-程序员宅基地

文章浏览阅读614次，点赞7次，收藏11次。之前找到一个修改 exe 中 DLL地址的方法, 不太好使,虽然能正确启动, 但无法改变 exe 的工作目录,这就影响了.Net 中很多获取 exe 执行目录来拼接的地址 ( 相对路径 ),比如 wwwroot 和代码中相对目录还有一些复制到目录的普通文件等等,它们的地址都会指向原来 exe 的目录, 而不是自定义的 “lib” 目录,根本原因就是没有修改 exe 的工作目录这次来搞一个启动程序,把 .net 的所有东西都放在一个文件夹,在文件夹同级的目录制作一个 exe._.net dll 全局目录

BRIEF特征点描述算法_breif description calculation 特征点-程序员宅基地

文章浏览阅读1.5k次。本文为转载，原博客地址：http://blog.csdn.net/hujingshuang/article/details/46910259简介 BRIEF是2010年的一篇名为《BRIEF:Binary Robust Independent Elementary Features》的文章中提出，BRIEF是对已检测到的特征点进行描述，它是一种二进制编码的描述子，摈弃了利用区域灰度..._breif description calculation 特征点

房屋租赁管理系统的设计和实现，SpringBoot计算机毕业设计论文_基于spring boot的房屋租赁系统论文-程序员宅基地

文章浏览阅读4.1k次，点赞21次，收藏79次。本文是《基于SpringBoot的房屋租赁管理系统》的配套原创说明文档，可以给应届毕业生提供格式撰写参考，也可以给开发类似系统的朋友们提供功能业务设计思路。_基于spring boot的房屋租赁系统论文