페드텐서 FedTensor

데이터 반출 없는 다기관 연합 인공지능 학습 플랫폼

distilbert 2

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

개요BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다. 실험에 사용한 모델과 데이터셋은 다음과 같습니다.기본 모델: distilbert-base-multilingual-cased데이터셋: KorQuAD 1.0미세 조정 훈련은 아래의 작업을 목표로 하였습니다.Masked Language Model (MLM) (참고: Fine-tuning a masked language model)GPU 모델 사양훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.GPU 모델RTX 4090T4A100 (40GB 기준)CUDA 코어 수16,384개2,560개6,912개T..

인공지능/BERT 계열 이해 2025.10.18

허깅 페이스 Transformers에서 DistilBERT 기반 작업 클래스들

허깅 페이스의 Transformers 라이브러리는 DistilBERT 모델을 기반으로 구체적인 작업을 수행하도록 구현한 클래스들을 제공합니다. 이 문서에서는 이들의 작업 유형, 출력층, 그리고 손실함수들을 표로 정리하였습니다.작업 구현 클래스1. DistilBertForMaskedLM작업 유형출력층손실함수빈 칸의 단어 맞추기vocab_transformactivationvocab_layer_normvocab_projectornn.CrossEntropyLoss2. DistilBertForSequenceClassification작업 유형출력층손실함수점수 매기기 (예: 호감도)pre_classiferdropoutclassifenn.MSELoss한 개의 라벨 할당 (예: 감정 분석)pre_classiferdrop..

인공지능/BERT 계열 이해 2025.10.13

페드텐서 FedTensor

데이터의 보호와 활용 - 천천히, 제대로

보안다자간계산, 사이버보안, 비밀공유, smpc, 데이터분석, 태동검사, 이산로그문제, 차분프라이버시, 멱법칙, 뇌가소성, 데이터이질성, 타원곡선암호, 트랜스포머, 개인정보보호, 차등정보보호, ECC, 엔트로피, ecdlp, 정보보호, non-iid, 프라이버시, 신경세포, secagg+, kl발산, 푸아송분포, 베이지안추론, 신경망, 인공지능, 이질적데이터, 연합학습,

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

distilbert 2

티스토리툴바