门控循环单元GRU
接着机器学习-时序预测1-CSDN博客这个说,GRU是LSTM的一个简化而高效的变体,都使用“门控机制”来控制信息流,但它通过合并一些组件,使结构更简单、参数更少、计算更快,同时在许多任务上性能与 LSTM 相当甚至更好。
GRU没有了独立的细胞状态,也就是LSTM中的长期记忆,只有一个状态
,但是通过“门控机制”,让
同时承担了长期和短期记忆的功能。而且只剩下了两个核心门控:
更新门:
,用sigmoid激活函数输出0-1的向量,
中每个元素表示多少信息来自
,多少信息来自
;
重置门:
,用sigmoid激活函数输出0-1的向量,
中每个元素表示计算
时考虑多少
;
候选隐藏状态:
,用到了重置门;
更新最终隐藏状态:
,用到了更新门,更新门决定了更相信过去还是现在。
同样的,还需要在输出层中对输出进行更新,就像机器学习-时序预测1-CSDN博客。