标签:Attention

[动手学深度学习DAY4]:RNN进阶、机器翻译和Transformer

Part1.RNN进阶 GRU LSTM 深度循环神经网络 双向循环神经网络 GRU RNN结构中容易出现梯度衰减或者爆炸,我们通过添加门控结构可以一定程度缓解这个问题,也可以捕捉时间序列中时间步距离较长的依赖关系。 $$R_{t} = σ(X_tW_{xr} + H_{t−1}W_{hr} + b_r)\\ Z_{t} = σ(X_tW_{xz} + H_{t−1}W_{hz} + b_z)\\…

Read More »