2025/03 3

Transformer 내부 작동 원리: Self-Attention를 중심으로

안녕하세요, 제이덥입니다! 기술 면접을 준비하면서 기초 개념들을 하나씩 정리하고 있는데요. 오늘은 Transformer에 대해 다뤄보려 합니다. 이번 글에서는 Transformer의 탄생 배경이 된 Long-Term Dependency 문제를 간단히 소개하고 논문 Attention Is All You Need에서 제안된 Transformer의 작동 원리를 정리해보겠습니다. 특히 그중에서도 핵심 개념인 Self-Attention에 집중해 개념과 수식을 중심으로 깊이 있게 설명드릴 예정입니다.0️⃣ 탄생 배경 : Long-Term Dependency이전 포스팅에서 Vanilla RNN의 BPTT를 소개하면서 RNN의 Long-Term Dependency 문제에 대해서 다뤘습니다. 이 문제는 이후 Transf..

NLP 2025.03.30

BLEU Score

안녕하세요, 제이덥입니다! 기술 면접을 준비하면서 기초 개념들을 하나씩 정리하고 있는데요. 오늘은 기계 번역 등 생성 모델 평가에 널리 사용되는 BLEU Score에 대해 다뤄보려고 합니다.본격적으로 BLEU Score를 살펴보기 전에, 먼저 Precision, Recall, F1 Score와 같은 전통적인 평가 방법이 번역 품질 평가에 어떻게 활용되는지 간단히 짚고 넘어가겠습니다. 이후, 이러한 지표들의 한계를 보완하기 위해 BLEU Score가 어떤 방식으로 발전했는지 정리해 보겠습니다. 0️⃣ 언어 모델에서 생성한 문장은 어떻게 평가해야할까?언어 모델이 생성한 문장, 특히 번역된 문장은 어떻게 평가하는 것이 좋을까요? 번역 태스크에는 특이한 특징이 있습니다. 바로 생성된 문장의 단어 수나 단어 위치..

NLP 2025.03.16

Greedy Decoding vs. Beam Search vs. Exhaustive Search: 텍스트 생성 알고리즘 비교

안녕하세요, 제이덥입니다! 기술 면접을 준비하면서 기초 개념들을 하나씩 정리해보고 있는데요. 오늘은 Text Generation모델의 텍스트 생성 알고리즘에 대해서 다뤄보려고 합니다. 대표적인 텍스트 알고리즘 중 가장 대표적이며 학습자/실무자 쉽게 접할 수 있는 Greedy Decoding, Exhaustive Search, Beam Search 3가지 알고리즘의 정의/장점/한계에 대해 정리하여 포스팅합니다.  0️⃣ 문장을 생성할 때 학습만 하면 다 된 것 아니야?Sequence to Sequence Model with Attention(이하, Seq2Seq 모델), 즉 자연어 생성모델에서 디코더는 다음 토큰에 대한 확률 값을 계산하여 문장을 출력합니다. 하지만, 매 타임 스텝마다 다음 단어 중 가장 ..

NLP 2025.03.02