DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

인공지능/BERT 계열 이해

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

FedTensor 2025. 10. 18. 10:40

개요

BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다.

실험에 사용한 모델과 데이터셋은 다음과 같습니다.

기본 모델: distilbert-base-multilingual-cased
데이터셋: KorQuAD 1.0

미세 조정 훈련은 아래의 작업을 목표로 하였습니다.

Masked Language Model (MLM) (참고: Fine-tuning a masked language model)

GPU 모델 사양

훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.

GPU 모델	RTX 4090	T4	A100 (40GB 기준)
CUDA 코어 수	16,384개	2,560개	6,912개
Tensor 코어 수	512개 (4세대)	320개 (2세대)	432개 (3세대)
메모리	24GB GDDR6X	16GB GDDR6	40GB HBM2
출시 시점	2022년	2018년	2020년
실험 머신 유형	데스크톱 PC	GCP의 VM 인스턴스	GCP의 VM 인스턴스

RTX 4090은 PC에 장착된 것으로, T4와 A100은 GCP의 VM 인스턴스에 연결된 것으로 사용해서 환경의 차이가 있고, 또한 소요 시간에 영향을 미치는 다른 요인들도 있긴 하지만 GPU 간 소요 시간 차이를 대략적으로 확인하는 데에는 중요한 요소가 아닌 것으로 간주하였습니다.

실험 결과

실험을 위해 사용한 파이썬 스크립트 파일은 여기에 있습니다.

사전 작업:

파이썬 패키지 설치: pip install datasets transformers accelerate
스크립트 소스 코드에서 epochs 수정: epochs = 4.0

model.train() 소요 시간 (1회 테스트):

GPU 모델	RTX 4090 (24GB)	T4 (16GB)	A100 (40GB)
실험 머신 유형	데스크톱 PC	GCP의 VM 인스턴스	GCP의 VM 인스턴스
소요 시간 (단위: 초)	0:19:33	1:57:01	0:27:09

'인공지능 > BERT 계열 이해' 카테고리의 다른 글

BERT의 마스크드 언어 모델 상세 설명 (0)	2025.10.23
허깅 페이스 Transformers에서 DistilBERT 기반 작업 클래스들 (0)	2025.10.13
BERT, GPT-2, XLNet 학습 방식 비교: 양방향, 단방향, 순열 (0)	2025.10.11

현재글DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

FedTensor

데이터의 보호와 활용 - 천천히, 제대로

차분프라이버시, smpc, 트랜스포머, 정보보호, 비밀공유, 최소작용의원리, 푸아송분포, kl발산, ECC, ecdlp, 뇌가소성, 보안다자간계산, 사이버보안, 안전한집계, 이질적데이터, non-iid, 개인정보보호, 타원곡선암호, 차등정보보호, 신경세포, 이산로그문제, 데이터분석, 베이지안추론, 데이터이질성, 엔트로피, 인공지능, secagg+, 연합학습, 신경망, 멱법칙,

Today :
Yesterday :

FedTensor