Bayesian Statistics. 사후분포가 실제 분포와 맞는지 어떻게 확인할까?
·
Statistics/Bayesian
베이지안은 기본적으로 추정 대상을 분포로 가정하여 분포 자체를 추정하게 된다.  빈도주의에선 추정 대상이 불변의 값이므로  추정량의 분산, 편향의 정도, 일치성, 점근정규성 등등 다양한 성질들을 이용하여 추정량의 질 좋은 정도(?)를 판단하게 된다. 그렇다면 베이지안에선 추정된 분포가 적절히 추정되었는지 어떻게 확인할까?   1. 사후분포의 분산만을 확인한다? 사후분포의 분산이 작다면 추정된 분포의 유용성이 좋다고 할 수 있다.  그러나 이는 빈도주의로 말하자면 편향의 정도가 작을 때의 이야기이다.    2. Posterior Predictive Checks(PPC)! 일반적으로 사후분포가 타겟 분포를 잘 추정했는지 알아보는 방법에는 Posterior Predictive Checks(PPC)가 있다.  ..
Statistics. 대수의 법칙, 수렴속도와 베이지안
·
Statistics
대수의 법칙 개인적으로 대수의 법칙을 생전 처음 봤을 때는 도대체 이게 뭔 소린가 싶었다.  간단하게 말해서  어떤 샘플에서 평균을 계산했을 때, 그 샘플의 크기가 커지면 커질수록 계산한 평균이 기댓값에 가까워진다는 이야기이다.(다만, 독립, 동일분포 가정이 필요하다.) 여기서 대수의 법칙은 또 두 가지로 나뉘는데 약한 대수의 법칙(Weak Law of Large Number, WLLN)과 강한 대수의 법칙(Strong Law of Large Number, SLLN)으로 나뉜다.WLLN은 확률의 극한이 1이고 SLLN은 극한의 확률이 1이다. ... 무슨 소리인지 한번 확인해 보자.  WLLN은1) 표본평균과 기댓값의 차이가 0일 확률이 2) 샘플의 크기가 커지면3) 1에 가까워진다는 것이다.4) 확률의..
Statistics. Random Sample, Data Set
·
Statistics
예를 들어 보자.   주사위를 10번 굴리면  X1, X2,... , X10으로 이루어진 크기 10의 랜덤벡터(물론 각 random variable은 i.i.d일 것이다.)에서 크기 10짜리 데이터 셋한 개가 나온다. 즉, 크기 10 짜리 랜덤 샘플 1개가 나온다.  주사위를 10번 굴리는 걸 10번 반복하면  크기 10 짜리 데이터 셋 10개 나오게 된다. 즉, 크기 10짜리 랜덤 샘플 10개가 나온다.  정리해 보면 1. X1, X2,... , X10 : 랜덤 벡터. 아직 실현되기 전의 확률변수들의 집합. 2. 여기서 실제 숫자로 실현되면 : 크기 10짜리 랜덤샘플 = 크기 10짜리 데이터셋  (다만, 맥락에 따라 랜덤벡터, 랜덤샘플이 혼용되어 사용된다. 보통은 랜덤벡터라는 말보다는 실현 전후에 관계..
HardConcentrator