대수의 법칙
개인적으로 대수의 법칙을 생전 처음 봤을 때는
도대체 이게 뭔 소린가 싶었다.
간단하게 말해서
어떤 샘플에서 평균을 계산했을 때, 그 샘플의 크기가 커지면 커질수록 계산한 평균이 기댓값에 가까워진다는 이야기이다.(다만, 독립, 동일분포 가정이 필요하다.)
여기서 대수의 법칙은 또 두 가지로 나뉘는데 약한 대수의 법칙(Weak Law of Large Number, WLLN)과 강한 대수의 법칙(Strong Law of Large Number, SLLN)으로 나뉜다.
WLLN은 확률의 극한이 1이고 SLLN은 극한의 확률이 1이다.
... 무슨 소리인지 한번 확인해 보자.
WLLN은
1) 표본평균과 기댓값의 차이가 0일 확률이
2) 샘플의 크기가 커지면
3) 1에 가까워진다는 것이다.
4) 확률의 극한이 1이다. 확률이 1이라는 말이 아니다. "확률의 극. 한. 이 1이다."
(lim(P(~)) = 1)
5) 단순하게 보면 극한의 값이 1이라는 말이다. 확률이 1이라는 말이 아니다. 확률의 극한값이 1이다. 엄밀히 말해서 확률이 1이라는 말과 확률의 극한이 1이라는 말은 같은 말이 아니다.
SLLN은
1) 샘플크기가 계속 커질 때의 표본평균과 기댓값의 차이가 매우 작을 확률이
2) 1이다.
3) 극한의 확률이 1이다. 이때는 확률이 1이다!
(P(lim(~)) = 1)
4) 이걸 두고 almost surely(거의 확실히) convergence라고 한다.
5) 결국 확률이 1이니까, 표본평균이 기대값으로 수렴한다!라고 거의 확실히 말할 수 있다.
(이걸 좀 수학적으로 말하면 "거의 확실히 수렴한다!"라고 한다. "확실히 수렴한다!"가 아닌 "거의!"를 붙이는 이유는 수렴할 확. 류. 이 1이라서이다.)
(WLLN, SLLN은 랜덤샘플이 독립이고 동일분포라는 가정하에 이루어진다.)
수렴속도
그럼 기대값에 가까워지긴 할 텐데 도대체 언제 가까워지느냐에 대한 대답이 수렴속도라고 할 수 있다.
일반적으로 추정량(여기서는 표본평균)의 분산이 작으면 수렴속도가 빠르다고 할 수 있다.
베이지안
위에서 말한 대수의 법칙은 기본적으로 모수가 불변의 값이라는 빈도주의적 관점에서 진행되는 이야기이다.
베이지안은 기본적으로 모수를 불변의 값이 아니라 확률변수로 가정하기 때문에
모수의 분포를 추정하게 되고 따라서 위의 대수의 법칙과는 상관이 없어진다.
다만, 언제 모수의 분포와 추정한 분포가 비슷해지는지는 이야기할 수 있다.
데이터의 크기가 계속해서 커질 때, 베이지안 추정에 의해 얻어진 사후 분포는 사전 분포의 영향을 덜 받게 된다.
그리고 결국 사후 분포의 형태가 모수의 참값에 점점 더 집중하게 되는 형태를 띠게 된다.
따라서 일반적으로 데이터의 크기가 충분히 크면 사후 분포는 모수의 실제 분포에 가까워진다고 할 수 있다.
이때, 데이터의 양 뿐만 아니라 데이터의 질 또한 중요하다. 잘못된 데이터가 많다면 사후 분포가 실제 모수의 분포와
달라질 수 있다.
'Statistics' 카테고리의 다른 글
표본 분산에 대한 분포와 조건 (feat. 카이제곱분포) (1) | 2024.12.15 |
---|---|
Statistics. Random Sample, Data Set (0) | 2024.08.15 |
Probabilistic Thinking. 베이지안, 리스크 관리, 헷징, 장기적 관점 (0) | 2024.08.15 |