GPT-2(Generative Pre-trained Transformer 2)는 이름에서 알 수 있듯이 Transformer 아키텍처를 기반으로 한 생성형(Generative) 모델입니다. GPT-2의 핵심 동작 원리는 자동회귀(Autoregressive)입니다. 이 문서에서는 자동회귀의 개념이 무엇인지, 그리고 GPT-2가 학습 과정에서 이 원리를 어떻게 구현하는지, 특히 '룩-어헤드 마스크'의 역할을 중심으로 자세히 설명합니다.1. 자동회귀 (Autoregressive) 란?자동회귀(AR)는 간단히 말해 "자기 자신(Auto)을 입력으로 참조하여 다음 결과를 예측(Regressive)하는" 방식입니다. 언어 모델의 맥락에서 이는 다음에 올 단어를 예측하기 위해 이전에 생성된 모든 단어들을 입력으로 사..