분류 전체보기 127

확률(Probability)과 우도(Likelihood): 명확한 개념 비교

통계학을 공부할 때 가장 혼동하기 쉬운 개념 중 하나가 바로 확률(Probability)과 우도(Likelihood)입니다. 두 용어는 일상적으로 비슷하게 사용되지만, 통계적 추론의 세계에서는 근본적으로 다른 관점을 가집니다. 예시를 통한 개념 비교:확률 (모수로부터 관찰값 추정): 상황: 불투명한 주머니 속에 노란공 6개, 파란공 4개가 들어 있다는 사실을 알고 있다. 질문: 한 개의 공을 꺼낼 때 노란공일 가능성은? 우도 (관찰값으로부터 모수 추정):상황: 불투명한 주머니 속에 노란공과 파란공이 함께 들어 있다는 사실을 알고는 있지만 몇 개씩인지는 모른다.질문: 한 개의 공을 꺼냈다가 다시 집어 넣는 동작을 10번 반복했더니 노란공이 4번 나왔다. 그렇다면 주머니 속 노란공과 파란공의 비율이 4:6일..

DistilBERT + KorQuAD MLM 훈련 소요 시간 비교 (RTX 4090, T4, A100)

개요BERT 계열 언어 모델 중 하나인 DistilBERT(논문)로 미세 조정 훈련을 수행할 때 NVIDIA GPU 모델에 따라 훈련에 걸리는 시간이 어떻게 달라지는지 궁금했습니다. 실험에 사용한 모델과 데이터셋은 다음과 같습니다.기본 모델: distilbert-base-multilingual-cased데이터셋: KorQuAD 1.0미세 조정 훈련은 아래의 작업을 목표로 하였습니다.Masked Language Model (MLM) (참고: Fine-tuning a masked language model)GPU 모델 사양훈련 소요 시간 비교를 위해 사용한 NVIDIA GPU 모델은 아래 표와 같습니다.GPU 모델RTX 4090T4A100 (40GB 기준)CUDA 코어 수16,384개2,560개6,912개T..

선형 회귀 분석의 이해

1. 회귀 분석이란?회귀 분석(Regression Analysis)은 변수들 사이의 관계를 모델링하는 통계적 방법입니다. 가장 단순한 예로, '집의 크기'를 알 때 '집의 가격'을 예측하는 모델을 만들 수 있습니다. 이처럼 하나의 변수(독립 변수)를 사용하여 다른 변수(종속 변수)의 값을 예측하는 것이 회귀 분석의 핵심입니다. ​회귀 분석 과정은 다음 세 단계로 요약할 수 있습니다.데이터 준비: 예측 모델을 학습시키기 위한 훈련 데이터 세트 $(x, y)$를 준비합니다. 여기서 $x$는 예측에 사용될 독립 변수이고, $y$는 예측하고자 하는 종속 변수입니다.모델 학습: 훈련 데이터를 가장 잘 표현하는 수학적 모델을 정의하고, 데이터에 가장 근접한 예측을 하는 최적의 파라미터(parameter)를 찾습니다..

회귀(Regression)라는 용어를 쉽게 설명하는 방법

조별 단체 식사 준비 상황을 예로 들어 회귀라는 용어에 대해 설명합니다. 그리고 회귀라는 용어가 어렵게 느껴지는 이유는 무엇이며 어떻게 하면 쉽게 받아들여질 수 있는지도 살펴봅니다.조별 단체 식사 준비와 회귀 현상 발생100명 정도의 인원이 매주 일요일 함께 모여 점심 식사를 합니다. 조를 짜서 식사를 준비하는 상황에서 일어나는 현상을 통해 회귀라는 용어가 무엇을 의미하는지 설명합니다.10개 조가 조별로 두 주 연속으로 일요일 단체 점심 식사를 준비한다. 한 끼 점심 식사 준비를 위해 지원받는 비용은 15만원이다. 이보다 덜 쓰면 반납하고 더 쓰면 조에서 부담한다. 오늘 점심 식사를 준비한 조에 대한 칭찬이 자자하다. 최근 들어 식사에 대한 만족도가 높아지고 있다는 생각이 든다. 내가 속한 조에서는 몇 ..

SecAgg+ 프로토콜에서 악의적인 서버의 공격 시나리오

클라이언트별로 다른 조작된 이탈 목록을 보냄으로써 특정 온라인 상태의 클라이언트를 대상으로 모델 원본 파라미터를 복원하는 것이 가능한가? 만약 프로토콜에 추가적인 안전장치가 없다면, 이러한 공격은 실제로 가능하며 특정 클라이언트의 모델 원본을 복원할 수 있습니다.이 공격은 '선택적 참여자 목록 공격(Selective Client List Attack)'이라고 볼 수 있으며, 악의적인 서버(Malicious Server)가 시도할 수 있는 대표적인 공격 시나리오입니다.악의적인 서버의 공격 시나리오서버가 온라인 상태인 클라이언트 $u$의 모델 $x_u$를 탈취하려고 한다고 가정해 보겠습니다. 이 서버는 또 다른 온라인 클라이언트 $v$를 이 공격에 이용합니다.서버의 이중 플레이: 서버는 $u$와 $v$에게 ..

SecAgg+ 프로토콜에서 서버와 클라이언트 간 상태 확인 절차

클라이언트는 다른 클라이언트의 상태를 알아야만 올바른 키를 서버에 전송할 수 있습니다. 이는 SecAgg+ 프로토콜의 중요한 단계이며, 서버가 중앙에서 조정자(Coordinator) 역할을 수행함으로써 가능해집니다. 클라이언트가 서로의 상태를 직접 확인하는 것이 아니라, 서버가 상태를 판별하고 그 결과를 온라인 클라이언트들에게 알려주는 방식으로 동작합니다.서버와 클라이언트 간 상태 확인 절차프로토콜의 '이탈자 처리' 단계는 다음과 같은 명확한 순서로 진행됩니다.1단계: 마스킹된 값 제출 및 대기모든 클라이언트는 자신의 마스킹된 모델 업데이트($y_u$)를 서버에 전송합니다. 서버는 정해진 시간 동안 클라이언트들의 제출을 기다립니다.2단계: 서버의 상태 판별 및 목록 생성제출 시간이 마감되면, 서버는 성공..

SecAgg+ 프로토콜에서 개별 클라이언트의 모델 원본 복원이 가능한가?

서버는 개별 클라이언트의 모델 원본을 복원할 수 없습니다. SecAgg+ 프로토콜의 핵심적인 보안 설계가 바로 그 지점에 있습니다. 서버가 특정 클라이언트와 관련된 키 정보들을 수집하는 것은 사실이지만, 그 정보는 전체 합산 값에서 불필요한 마스크를 제거하기 위한 최소한의 정보일 뿐, 개별 클라이언트의 원본 값을 역산하기에는 불충분합니다. 왜 그런지 클라이언트가 온라인(online) 상태일 때와 이탈(dropped) 상태일 때로 나누어 살펴보겠습니다.1. 대상 클라이언트가 '온라인(Online)' 상태일 경우가장 중요한 시나리오입니다. 클라이언트 $u$가 정상적으로 참여하여 마스킹된 값 $y_u$를 서버에 제출했다고 가정해 봅시다. 서버가 $u$의 원본 모델 $x_u$를 복원하려면 $y_u$에서 $u$가..

독일 V2 로켓과 런던 폭격 - 푸아송 분포와 카이제곱 검정

아래 자료들을 참고하면서 실습을 하였습니다.AN APPLICATION OF THE POISSON DISTRIBUTION, by R. D. CLARKEThe flying bomb and the actuary - Royal Statistical Society, Wiley푸아송 분포실제값n_squares = 576n_bombs = 537# 구역당 떨어진 폭탄 수의 평균m = n_bombs / n_squaresprint(f'{m:.3f}')0.932# 구역당 떨어진 폭탄 수n_bombs_per_square = [0, 1, 2, 3, 4, 5]# 해당 구역 수 (관찰도수)observed_num_of_squares = [229, 211, 93, 35, 7, 1]print(f'# of squares: {sum(obs..

연합학습의 안전한 집계를 위한 SecAgg+ 프로토콜

SecAgg+는 다수의 클라이언트(예: 스마트폰)가 각자 학습한 모델 업데이트 값(가중치)을 서버에 전송할 때, 서버가 개별 클라이언트의 값을 알 수 없도록 암호화하면서도 전체 합산 결과는 정확하게 얻을 수 있도록 하는 프로토콜입니다. 이 과정에서 일부 클라이언트가 통신 문제 등으로 중도에 이탈하더라도 전체 집계 과정이 안전하게 완료될 수 있도록 설계된 것이 핵심입니다. 보안 모델 및 가정:SecAgg+는 주로 반-정직(Semi-honest) 위협 모델을 가정합니다. 이는 프로토콜에 참여하는 모든 당사자가 프로토콜의 명세를 그대로 따르지만, 중간 계산 결과를 엿보아 추가적인 정보를 얻으려고 시도할 수 있다는 것을 의미합니다. 이러한 가정 하에 SecAgg+는 개별 클라이언트의 모델 업데이트에 대한 기밀성..

독일 V2 로켓과 런던 폭격 - 푸아송 분포 응용

관심을 가졌던 사항은 2차 세계 대전 말기 독일 V2 로켓에 의한 런던 폭격 지점의 분포와 푸아송 분포 응용 사례였는데 우연히 접한 기사를 흥미있게 읽다가 오류로 의심되는 부분을 발견하고 이를 확인하는 과정에서 글을 쓰게 되었습니다.기사 인용- [문학이 사랑한 통계⑬] 로저 멕시코와 함께하는 확률론 강의, 2019.01.03, 시사위크도서 내용 중 일부 - 토머스 핀천, 중력의 무지개, 이상국 옮김, 새물결로저는 그녀에게 V폭탄의 통계에 대해 애써 설명했다. 천사의 눈에나 보일 영국 지도 안의 분포와 이 아래 인간의 눈에 보이는, 그들 자신이 살아남을 기회의 차이에 대해.“그러나 이미 폭격을 몇 번이나 받은 곳도 있잖아. 그러니까-” “미안하지만 그게 바로 몬테카를로 오류라는 거야. 특정한 지역에 얼마나..