표본 분산에 대한 분포와 조건 (feat. 카이제곱분포)
·
Statistics
계속 헷갈리고 잊어먹어서 정리. 표본 분포에서 표본 분산에 대한 분포인 카이제곱분포를 사용하려면 일단 Random Sample들이 정규분포에 대한 i.i.d가 만족되어야 한다. 따라서 표본 분산을 통해서 카이제곱분포를 사용하는 경우, 각 표본들이 정규분포를 따르는지 무조건 체크해봐야 된다. 표본 평균이 아니라!! 표본 자체가 정규분포를 따라야됨. n이 30이상이고 어쩌고 상관 없다. 이건 표본 평균(CLT)에 대해 다룰때.  1. 모집단이 정규분포를 따라야 함 모집단 X가 평균 μ, 분산 σ2를 갖는 정규분포 N(μ,σ2)를 따라야 한다. 이는 카이제곱 분포의 성질이 정규분포에서 파생되기 때문. 2. 독립적이고 동일한 분포의 표본 정규분포를 따르는 모집단으로부터 크기가 n인 표본이 독립적이고 동일한 분포..
데이터 리터러시 - 성공 확률이 0.5 vs 100번 시도해서 50번 성공??
·
Statistics/Fundamental
(어려움, 헷갈림 주의!!!!!!!) 성공확률이 0.5이면 이 확률 값이 100번 시도해서 50번 성공할 확률과 같다고 할 수 있을까? 이 둘은 엄연히 다르다.  (1) 성공확률이 0.5  성공 확률이 0.5라는 것은, 한 번 시도했을 때 성공할 확률이 0.5라는 것을 의미한다.이것은 단일 시행에서의 성공 가능성을 나타내며, 이항분포에서 특정 성공 횟수를 가지는 확률과는 다르다.    (2) 100번 시도해서 50번 성공 100번 시도해서 정확히 50번 성공할 확률은 이항분포를 따르며, 이는 성공 확률 p에 따라 달라진다. 예를 들어 X ~ Bin(100, 0.5) 일 때, P(X = 50) =0.08...이다. 다만, 이때의 기대값은 50번이 맞다.  즉, 성공 확률이 0.5일 때 100번 던지면 성공..
데이터 리터러시 - 기대값의 활용
·
Statistics/Fundamental
확률변수 X 가 정해지고  확률변수가 가지는 값에 대한 확률 P(X = x)가 정해지면 기댓값을 생각해 볼 수 있다.   기댓값이라는 것은 결국 X가 가질 수 있는 값이 확정적이지 않기 때문에 X가 가장 가질 것 같은 값이 어떤 값인지를 나타내는 것이라고 할 수 있다.   가령 확률변수 X가 "성공확률이 0.6일 때, 성공할 때까지 시도한 횟수"라고 한다면,(즉, X~Geo(0.6). X가 기하분포를 따르고 확률은 0.6 ) X의 기대되는 값. 즉, 성공할 때까지 시도할 횟수로 가장 기대되는 값이 1/0.6 = 1.67 정도 된다.   이때, 시도할 때마다 비용이 100만원이라고 가정해 보자.  그렇다면 성공할 때까지 대략 1.67 * 100만원 = 167만 원이 된다.    여기서 성공했을 시 기대 수..
데이터 리터러시 - 확률의 직관적 경험 2
·
Statistics/Fundamental
확률을 느껴보자!! 성공 확률 (0 ~ 1): 시도 결과: ">확률을 느껴보자!!성공 확률 (0 ~ 1): 시도결과:     이전 포스팅에선 기하분포에 대한 간략한 설명과 기하분포의 그래프를 그려보면서 확률을 느껴보고자 하였다.  이번엔 직접 성공확률을 정하고 시도를 해보면서 확률을 느껴보자.   위의 "시도"를 누르면 정해진 확률을 통해 성공할 때까지 시도를 하게 되고  성공할 때까지 시도한 횟수를 그래프에 누적해서 쌓아 올린다.  이러한 경험으로 확률에 대한 직관적 느낌을 길러보자
데이터 리터러시 - 확률의 직관적 경험 1
·
Statistics/Fundamental
성공 확률 (p): 그래프 그리기 ">성공 확률 (p): 그래프 그리기  "성공확률이 0.85이다."라고 할 때, 이걸 어떻게 받아들여야 하는 걸까? 어떻게 남에게 설득해야 할까? 시각화를 통해서 보여주면 좀 더 와닿을지도 모르겠다.  기하분포(geometric distribution)는 확률이 p로 정해져 있을 때, 성공할 때까지 시도한 횟수에 대한 분포이다. 다시 말해, 성공확률이 고정되었을 때, 몇 번 시도해야 실제로 성공하겠냐는 걸 분포로서 보여준다. 성공확률이 높으면 첫 번째만에 성공할 확률이 높고, 성공확률이 낮으면 여러 번 시도해야 성공할 확률이 높을 것이다.   위의 그래프는 확률에 따라 기하분포의 분포가 어떻게 변하는지를 보여준다. 한번 해..
통계의 목적
·
Statistics/Fundamental
통계는 도구이다.도구라면 응당 그 목적이 있다.도구는 도구의 목적에 맞게 사용해야 가장 알맞은 결과를 알 수 있다.그렇다면 통계의 목적은 무엇일까? 통계의 목적은 사람에 따라 여러 가지가 될 수 있을 것이라 생각된다. 누구에게는 예측이누구에게는 추정이누구에게는 단순 통계가누구에게는 테스트가. 여기에 정해진 정답은 딱히 없다.누구나 처해진 상황이 다르고 주어진 task가 다르기 때문에통계가 주는 느낌이 다를 수 있다. 그러나기준을 세워놓으면 그걸 토대로 다른 것들도 스토리텔링이 되고다른 개념들도 받아들이기 쉬워지니각자 통계의 근본적인 목적을 한번 설정해 보자.  내가 생각하는 통계의 가장 근본적인 목적을 한 마디로 정해보자면,  "데이터 이면의 분포를 알아보기" 라고 할 수 있겠다.  "데이터 이면"이라고..
Bayesian Statistics. 사후분포가 실제 분포와 맞는지 어떻게 확인할까?
·
Statistics/Bayesian
베이지안은 기본적으로 추정 대상을 분포로 가정하여 분포 자체를 추정하게 된다.  빈도주의에선 추정 대상이 불변의 값이므로  추정량의 분산, 편향의 정도, 일치성, 점근정규성 등등 다양한 성질들을 이용하여 추정량의 질 좋은 정도(?)를 판단하게 된다. 그렇다면 베이지안에선 추정된 분포가 적절히 추정되었는지 어떻게 확인할까?   1. 사후분포의 분산만을 확인한다? 사후분포의 분산이 작다면 추정된 분포의 유용성이 좋다고 할 수 있다.  그러나 이는 빈도주의로 말하자면 편향의 정도가 작을 때의 이야기이다.    2. Posterior Predictive Checks(PPC)! 일반적으로 사후분포가 타겟 분포를 잘 추정했는지 알아보는 방법에는 Posterior Predictive Checks(PPC)가 있다.  ..
Statistics. 대수의 법칙, 수렴속도와 베이지안
·
Statistics
대수의 법칙 개인적으로 대수의 법칙을 생전 처음 봤을 때는 도대체 이게 뭔 소린가 싶었다.  간단하게 말해서  어떤 샘플에서 평균을 계산했을 때, 그 샘플의 크기가 커지면 커질수록 계산한 평균이 기댓값에 가까워진다는 이야기이다.(다만, 독립, 동일분포 가정이 필요하다.) 여기서 대수의 법칙은 또 두 가지로 나뉘는데 약한 대수의 법칙(Weak Law of Large Number, WLLN)과 강한 대수의 법칙(Strong Law of Large Number, SLLN)으로 나뉜다.WLLN은 확률의 극한이 1이고 SLLN은 극한의 확률이 1이다. ... 무슨 소리인지 한번 확인해 보자.  WLLN은1) 표본평균과 기댓값의 차이가 0일 확률이 2) 샘플의 크기가 커지면3) 1에 가까워진다는 것이다.4) 확률의..
HardConcentrator
'Statistics' 카테고리의 글 목록