2025/10/23 4

TR-06. 트랜스포머 디코더(Decoder)

트랜스포머의 인코더(Encoder)가 입력 문장 전체를 읽고 문맥적 의미를 풍부하게 담은 '표현(representation)'을 생성하는 역할이라면, 디코더(Decoder)는 이 표현을 참조하여 우리가 원하는 출력 문장을 한 단어씩 순차적으로 생성하는 '생성기' 역할을 합니다. 디코더 역시 인코더와 마찬가지로 동일한 구조의 여러 개 레이어(논문에서는 6개)를 쌓아 올린 형태입니다. 하나의 디코더 레이어는 크게 세 부분으로 구성됩니다.1. 디코더 레이어의 핵심 구성 요소각 디코더 레이어는 다음과 같은 세 개의 하위 레이어(sub-layer)로 이루어져 있습니다.마스크드 멀티-헤드 어텐션 (Masked Multi-Head Attention)역할: 디코더가 '지금까지 생성한' 출력 단어들 간의 관계를 파악합니..

TR-05. 트랜스포머 인코더(Encoder)

트랜스포머 모델의 인코더는 입력 시퀀스(예: "나는 학생이다")를 받아, 각 단어(토큰)의 문맥적 의미를 풍부하게 담은 벡터 시퀀스로 변환하는 역할을 합니다. 이 벡터 시퀀스는 디코더가 번역이나 요약과 같은 작업을 수행하는 데 필요한 핵심 정보를 담고 있습니다. 인코더는 동일한 구조의 '인코더 레이어(Encoder Layer)'가 N개(오리지널 논문에서는 6개) 쌓여 있는 형태입니다.1. 인코더의 시작: 입력 처리본격적으로 인코더 레이어에 들어가기 전에, 입력 텍스트는 두 단계를 거칩니다.입력 임베딩 (Input Embedding):입력 문장의 각 단어(토큰)는 고유한 벡터로 변환됩니다. 예를 들어 "I", "am", "a", "student"라는 단어들이 각각 512차원의 벡터가 됩니다. 이 벡터는 단..

GPT-2의 자동회귀 학습 상세 설명

GPT-2(Generative Pre-trained Transformer 2)는 이름에서 알 수 있듯이 Transformer 아키텍처를 기반으로 한 생성형(Generative) 모델입니다. GPT-2의 핵심 동작 원리는 자동회귀(Autoregressive)입니다. 이 문서에서는 자동회귀의 개념이 무엇인지, 그리고 GPT-2가 학습 과정에서 이 원리를 어떻게 구현하는지, 특히 '룩-어헤드 마스크'의 역할을 중심으로 자세히 설명합니다.1. 자동회귀 (Autoregressive) 란?자동회귀(AR)는 간단히 말해 "자기 자신(Auto)을 입력으로 참조하여 다음 결과를 예측(Regressive)하는" 방식입니다. 언어 모델의 맥락에서 이는 다음에 올 단어를 예측하기 위해 이전에 생성된 모든 단어들을 입력으로 사..

BERT의 마스크드 언어 모델 상세 설명

BERT (Bidirectional Encoder Representations from Transformers)의 핵심 혁신 중 하나가 바로 이 '마스크드 언어 모델(Masked Language Model, MLM)'입니다. 이 개념이 왜 중요하고 어떻게 작동하는지 자세히 설명합니다.1. MLM이란 무엇이며 왜 필요한가?전통적인 언어 모델(예: GPT-1)은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며 다음 단어를 예측하는 방식으로 학습되었습니다."나는 학교에 [?]" -> 모델이 "가서"를 예측이 방식은 문맥을 한쪽 방향(왼쪽)으로만 학습한다는 한계가 있습니다. 반면, BERT는 "깊은 양방향성(deep bidirectionality)"을 구현하고자 했습니다. 즉, 문장 내 모든 단어가 자신의 왼쪽과..