Boostcamp Day 17. 2021-02-16.

Natural Language Processing (NLP) - LSTM and GRU

Contents

  • Long Short-Term Memory(LSTM)
  • Gated Recurrent Unit(GRU)

Intro

RNN을 개선한 알고리즘으로 등장했던 LSTM과 GRU에 대해서 다시 한번 살펴봅니다.
LSTM과 GRU가 gradient flow를 개선할 수 있는 이유에 대해 조금 더 고민하는 시간이 됐으면 좋겠습니다.

# Long Short-Term Memory (LSTM)

  • Solving Long-term dependency problem. 즉, 멀리 떨어진 정보들에 대해서도 효과적으로 처리하고 학습할 수 있도록 하는 개선된 방법.

# Gated Recurrent Unit (GRU)

Backpropagation in LSTM/GRU

Summary on RNN/LSTM/GRU

  • RNNs allow a lot of flexibility in architecture design.
  • Vanilla RNNs are simple but don’t work very well
  • Backward flow of gradient in RNN can explode or vanish
  • Common to us LSTM or GRU : their additive interactions improve gradient flow





Further Reading

Understanding LSTM Networks

Further Question

  • BPTT 이외에 RNN/LSTM/GRU의 구조를 유지하면서 gradient vanishing/exploding 문제를 완화할 수 있는 방법이 있을까요?
  • RNN/LSTM/GRU 기반의 Language Model에서 초반 time step의 정보를 전달하기 어려운 점을 완화할 수 있는 방법이 있을까요?

Reference

  • bootcamp AI Tech pdf .
  • NAVER Connect Foundation.