인공지능/BERT 계열 이해 4

BERT의 마스크드 언어 모델 상세 설명

BERT (Bidirectional Encoder Representations from Transformers)의 핵심 혁신 중 하나가 바로 이 '마스크드 언어 모델(Masked Language Model, MLM)'입니다. 이 개념이 왜 중요하고 어떻게 작동하는지 자세히 설명합니다.1. MLM이란 무엇이며 왜 필요한가?전통적인 언어 모델(예: GPT-1)은 문장을 왼쪽에서 오른쪽으로 순차적으로 처리하며 다음 단어를 예측하는 방식으로 학습되었습니다."나는 학교에 [?]" -> 모델이 "가서"를 예측이 방식은 문맥을 한쪽 방향(왼쪽)으로만 학습한다는 한계가 있습니다. 반면, BERT는 "깊은 양방향성(deep bidirectionality)"을 구현하고자 했습니다. 즉, 문장 내 모든 단어가 자신의 왼쪽과..

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

개요BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다. 실험에 사용한 모델과 데이터셋은 다음과 같습니다.기본 모델: distilbert-base-multilingual-cased데이터셋: KorQuAD 1.0미세 조정 훈련은 아래의 작업을 목표로 하였습니다.Masked Language Model (MLM) (참고: Fine-tuning a masked language model)GPU 모델 사양훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.GPU 모델RTX 4090T4A100 (40GB 기준)CUDA 코어 수16,384개2,560개6,912개T..

허깅 페이스 Transformers에서 DistilBERT 기반 작업 클래스들

허깅 페이스의 Transformers 라이브러리는 DistilBERT 모델을 기반으로 구체적인 작업을 수행하도록 구현한 클래스들을 제공합니다. 이 문서에서는 이들의 작업 유형, 출력층, 그리고 손실함수들을 표로 정리하였습니다.작업 구현 클래스1. DistilBertForMaskedLM작업 유형출력층손실함수빈 칸의 단어 맞추기vocab_transformactivationvocab_layer_normvocab_projectornn.CrossEntropyLoss2. DistilBertForSequenceClassification작업 유형출력층손실함수점수 매기기 (예: 호감도)pre_classiferdropoutclassifenn.MSELoss한 개의 라벨 할당 (예: 감정 분석)pre_classiferdrop..

BERT, GPT-2, XLNet 학습 방식 비교: 양방향, 단방향, 순열

주요 언어 모델 특징 비교: BERT, GPT-2, XLNet이 세 모델은 현대 자연어 처리(NLP) 분야에 혁명을 일으킨 대표적인 언어 모델들입니다. 모두 트랜스포머(Transformer)라는 강력한 아키텍처를 공유하지만, 마치 각기 다른 철학을 가진 라이벌처럼 언어를 학습하는 방식에서 뚜렷한 차이를 보입니다. 이 차이점을 이해하는 것은 NLP 기술을 올바르게 활용하는 데 매우 중요합니다.1. BERT (Bidirectional Encoder Representations from Transformers)BERT는 문장의 양쪽 문맥을 동시에 고려하여 단어의 의미를 파악하는 양방향(Bidirectional) 모델입니다. 이는 마치 우리가 문장을 읽을 때 특정 단어의 의미를 파악하기 위해 앞뒤 단어를 모두 ..