안녕하세요, 제이덥입니다! 기술 면접을 준비하면서 기초 개념들을 하나씩 정리하고 있는데요. 오늘은 기계 번역 등 생성 모델 평가에 널리 사용되는 BLEU Score에 대해 다뤄보려고 합니다.본격적으로 BLEU Score를 살펴보기 전에, 먼저 Precision, Recall, F1 Score와 같은 전통적인 평가 방법이 번역 품질 평가에 어떻게 활용되는지 간단히 짚고 넘어가겠습니다. 이후, 이러한 지표들의 한계를 보완하기 위해 BLEU Score가 어떤 방식으로 발전했는지 정리해 보겠습니다. 0️⃣ 언어 모델에서 생성한 문장은 어떻게 평가해야할까?언어 모델이 생성한 문장, 특히 번역된 문장은 어떻게 평가하는 것이 좋을까요? 번역 태스크에는 특이한 특징이 있습니다. 바로 생성된 문장의 단어 수나 단어 위치..