개요
BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다.
실험에 사용한 모델과 데이터셋은 다음과 같습니다.
- 기본 모델: distilbert-base-multilingual-cased
- 데이터셋: KorQuAD 1.0
미세 조정 훈련은 아래의 작업을 목표로 하였습니다.
- Masked Language Model (MLM) (참고: Fine-tuning a masked language model)
GPU 모델 사양
훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.
| GPU 모델 | RTX 4090 | T4 | A100 (40GB 기준) |
| CUDA 코어 수 | 16,384개 | 2,560개 | 6,912개 |
| Tensor 코어 수 | 512개 (4세대) | 320개 (2세대) | 432개 (3세대) |
| 메모리 | 24GB GDDR6X | 16GB GDDR6 | 40GB HBM2 |
| 출시 시점 | 2022년 | 2018년 | 2020년 |
| 실험 머신 유형 | 데스크톱 PC | GCP의 VM 인스턴스 | GCP의 VM 인스턴스 |
RTX 4090은 PC에 장착된 것으로, T4와 A100은 GCP의 VM 인스턴스에 연결된 것으로 사용해서 환경의 차이가 있고, 또한 소요 시간에 영향을 미치는 다른 요인들도 있긴 하지만 GPU 간 소요 시간 차이를 대략적으로 확인하는 데에는 중요한 요소가 아닌 것으로 간주하였습니다.
실험 결과
실험을 위해 사용한 파이썬 스크립트 파일은 여기에 있습니다.
사전 작업:
- 파이썬 패키지 설치: pip install datasets transformers accelerate
- 스크립트 소스 코드에서 epochs 수정: epochs = 4.0
model.train() 소요 시간 (1회 테스트):
| GPU 모델 | RTX 4090 (24GB) | T4 (16GB) | A100 (40GB) |
| 실험 머신 유형 | 데스크톱 PC | GCP의 VM 인스턴스 | GCP의 VM 인스턴스 |
| 소요 시간 (단위: 초) | 0:19:33 | 1:57:01 | 0:27:09 |
'인공지능 > BERT 계열 이해' 카테고리의 다른 글
| BERT의 마스크드 언어 모델 상세 설명 (0) | 2025.10.23 |
|---|---|
| 허깅 페이스 Transformers에서 DistilBERT 기반 작업 클래스들 (0) | 2025.10.13 |
| BERT, GPT-2, XLNet 학습 방식 비교: 양방향, 단방향, 순열 (0) | 2025.10.11 |