树洞 No.5816746

羊驼呵呵 发布于

学习LSTM结合职场/官场有感。一层一层的网络会因为层层求导,导致第一层的梯度消失或梯度爆炸使得模型不能继续优化。LSTM加入了遗忘门和输入门使得细胞状态值得以在一个较为稳定的范围使得梯度稳定。也有学者通过跨层连接来缓解梯度问题。因此在职场的消息传输中也应该加入这种跨层连接。相比起LSTM的门机制,跨层连接更加简单,效果也不错。

[举报] [3] XX [14]