안녕하세요! 제이덥입니다. 최근에 기술 면접을 준비하며, 기초적인 내용부터 하나씩 정리하고 있는데요. 이전 글에서는 Vanilla RNN이 겪는 Long-Term Dependency 문제를 다뤘는데요. 이번 포스팅에서는 이를 해결하기 위해 등장한 LSTM과 GRU의 탄생 배경과 작동 원리를 정리해보겠습니다. 1️⃣ RNN의 한계(Long-Term Dependency Problem) 지난 포스팅에서 Vanila RNN에서 Long-Term Dependency 문제에 대해서 다뤘습니다. 이를 간단히 설명하면 학습에 일어나는 Gradient Vanishing/Exploding 문제로 인해 상대적으로 오래된 시점의 정보가 유실되는 문제를 말합니다. 이를 해결하기 위해 Truncated BPTT를 이용해 개선했..