전체 글 127

GPT-2의 자동회귀 학습 상세 설명

GPT-2(Generative Pre-trained Transformer 2)는 이름에서 알 수 있듯이 Transformer 아키텍처를 기반으로 한 생성형(Generative) 모델입니다. GPT-2의 핵심 동작 원리는 자동회귀(Autoregressive)입니다. 이 문서에서는 자동회귀의 개념이 무엇인지, 그리고 GPT-2가 학습 과정에서 이 원리를 어떻게 구현하는지, 특히 '룩-어헤드 마스크'의 역할을 중심으로 자세히 설명합니다.1. 자동회귀 (Autoregressive) 란?자동회귀(AR)는 간단히 말해 "자기 자신(Auto)을 입력으로 참조하여 다음 결과를 예측(Regressive)하는" 방식입니다. 언어 모델의 맥락에서 이는 다음에 올 단어를 예측하기 위해 이전에 생성된 모든 단어들을 입력으로 사..

BERT의 마스크드 언어 모델 상세 설명

BERT (Bidirectional Encoder Representations from Transformers)의 핵심 혁신 중 하나가 바로 이 '마스크드 언어 모델(Masked Language Model, MLM)'입니다. 이 개념이 왜 중요하고 어떻게 작동하는지 자세히 설명합니다.1. MLM이란 무엇이며 왜 필요한가?전통적인 언어 모델(예: GPT-1)은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며 다음 단어를 예측하는 방식으로 학습되었습니다."나는 학교에 [?]" -> 모델이 "가서"를 예측이 방식은 문맥을 한쪽 방향(왼쪽)으로만 학습한다는 한계가 있습니다. 반면, BERT는 "깊은 양방향성(deep bidirectionality)"을 구현하고자 했습니다. 즉, 문장 내 모든 단어가 자신의 왼쪽과..

NP-01. 평생 쓰는 뇌, 어떻게 매일 새로워질까?

우리 뇌의 대부분을 차지하는 신경세포는 한번 만들어지면 평생 교체되지 않는다는 사실, 알고 계셨나요? 피부 세포처럼 며칠 만에 바뀌지도, 뼈세포처럼 몇 년에 걸쳐 서서히 리모델링되지도 않습니다. ​하지만 우리 몸에는 아주 특별한 '평생 건물'들이 있습니다. 한번 지어지면 거의 교체되지 않고 평생을 함께하는 세포들이죠.뇌의 신경세포 (뉴런): 우리 뇌의 핵심 일꾼들입니다. 대부분 태어날 때 함께한 세포들이 평생을 갑니다.심장 근육세포: 쉼 없이 뛰는 심장을 구성하는 세포 역시 교체율이 아주 낮습니다.눈의 수정체 세포: 세상을 보는 창문, 수정체의 세포도 한번 만들어지면 바뀌지 않아요.뇌세포는 그대로인데, 어떻게 배우고 기억할까?매일 새로운 것을 배우고, 어제와 다른 생각을 하고, 성격까지 변하는 우리의 뇌..

TR-04. 멀티-헤드 인코더-디코더 어텐션(Multi-head Encoder-Decoder Attention)

멀티-헤드 인코더-디코더 어텐션은 트랜스포머 디코더의 "두 번째 어텐션 층"에 위치하며, 디코더가 출력 단어를 생성할 때 인코더의 입력 문장 전체를 참고할 수 있게 해주는 핵심 다리 역할을 합니다. 이는 "크로스-어텐션(Cross-Attention)"이라고도 불립니다. 앞서 설명한 '셀프 어텐션'은 문장 내부의 관계를 파악하는 것이 목적이었다면, 이 '인코더-디코더 어텐션'은 서로 다른 두 문장(입력 문장과 출력 문장) 간의 관계를 파악하는 것이 목적입니다.핵심 차이점: Q, K, V의 출처가장 큰 차이점은 Query(Q), Key(K), Value(V)를 가져오는 위치입니다.Query (Q): 디코더의 이전 층(Masked Self-Attention 층)에서 옵니다. 의미: "내가 지금 번역/생성하려는..

두 벡터의 내적의 분산 구하기

1. 문제의 전제 조건 정의먼저, 우리가 가진 조건들을 수학적으로 정리해 보겠습니다.$n$차원의 두 벡터 $\mathbf{a}$와 $\mathbf{b}$가 있습니다. $\mathbf{a} = (a_1, a_2, \ldots, a_n)$$\mathbf{b} = (b_1, b_2, \ldots, b_n)$각 벡터의 성분 $a_i$와 $b_j$는 모두 독립적인 확률 변수라고 가정합니다. (이 가정이 매우 중요합니다!)각 성분의 평균(기대값)은 0입니다. $E[a_i] = 0$ (모든 $i$에 대해)$E[b_i] = 0$ (모든 $i$에 대해)각 성분의 분산은 1입니다. $Var(a_i) = 1$ (모든 $i$에 대해)$Var(b_i) = 1$ (모든 $i$에 대해)2. 목표: 내적의 분산우리가 구하려는 것은 ..