표본 분산에 대한 분포와 조건 (feat. 카이제곱분포)
·
Statistics
계속 헷갈리고 잊어먹어서 정리. 표본 분포에서 표본 분산에 대한 분포인 카이제곱분포를 사용하려면 일단 Random Sample들이 정규분포에 대한 i.i.d가 만족되어야 한다. 따라서 표본 분산을 통해서 카이제곱분포를 사용하는 경우, 각 표본들이 정규분포를 따르는지 무조건 체크해봐야 된다. 표본 평균이 아니라!! 표본 자체가 정규분포를 따라야됨. n이 30이상이고 어쩌고 상관 없다. 이건 표본 평균(CLT)에 대해 다룰때.  1. 모집단이 정규분포를 따라야 함 모집단 X가 평균 μ, 분산 σ2를 갖는 정규분포 N(μ,σ2)를 따라야 한다. 이는 카이제곱 분포의 성질이 정규분포에서 파생되기 때문. 2. 독립적이고 동일한 분포의 표본 정규분포를 따르는 모집단으로부터 크기가 n인 표본이 독립적이고 동일한 분포..
데이터 리터러시 - 기대값의 활용
·
Statistics/Fundamental
확률변수 X 가 정해지고  확률변수가 가지는 값에 대한 확률 P(X = x)가 정해지면 기댓값을 생각해 볼 수 있다.   기댓값이라는 것은 결국 X가 가질 수 있는 값이 확정적이지 않기 때문에 X가 가장 가질 것 같은 값이 어떤 값인지를 나타내는 것이라고 할 수 있다.   가령 확률변수 X가 "성공확률이 0.6일 때, 성공할 때까지 시도한 횟수"라고 한다면,(즉, X~Geo(0.6). X가 기하분포를 따르고 확률은 0.6 ) X의 기대되는 값. 즉, 성공할 때까지 시도할 횟수로 가장 기대되는 값이 1/0.6 = 1.67 정도 된다.   이때, 시도할 때마다 비용이 100만원이라고 가정해 보자.  그렇다면 성공할 때까지 대략 1.67 * 100만원 = 167만 원이 된다.    여기서 성공했을 시 기대 수..
통계의 목적
·
Statistics/Fundamental
통계는 도구이다.도구라면 응당 그 목적이 있다.도구는 도구의 목적에 맞게 사용해야 가장 알맞은 결과를 알 수 있다.그렇다면 통계의 목적은 무엇일까? 통계의 목적은 사람에 따라 여러 가지가 될 수 있을 것이라 생각된다. 누구에게는 예측이누구에게는 추정이누구에게는 단순 통계가누구에게는 테스트가. 여기에 정해진 정답은 딱히 없다.누구나 처해진 상황이 다르고 주어진 task가 다르기 때문에통계가 주는 느낌이 다를 수 있다. 그러나기준을 세워놓으면 그걸 토대로 다른 것들도 스토리텔링이 되고다른 개념들도 받아들이기 쉬워지니각자 통계의 근본적인 목적을 한번 설정해 보자.  내가 생각하는 통계의 가장 근본적인 목적을 한 마디로 정해보자면,  "데이터 이면의 분포를 알아보기" 라고 할 수 있겠다.  "데이터 이면"이라고..
Probabilistic Thinking. 베이지안, 리스크 관리, 헷징, 장기적 관점
·
Statistics
1. 확률이 결정되었을 때(확률추정)2. 그 확률로 말미암아 어떤 행동을 할 것인지 판단하고(이때, 행동의 결과를 고려 후 손익비 계산)3. 그 행동에 대한 헷징은 어떻게 할 것인지(큰 손실 회피)4. 그리고 그 행동을 비슷한 상황에서 반복(이득 실현)  확률론적 사고란 무엇인가. 정확히 말할 수 있는 건, 단순히 정량적으로 생각한다고 해서 그것이 꼭 확률론적 사고라고 할 수는 없다는 것이다. 확률론적 사고는 불확실한 어떤 현상에 대해 어떻게 대비하고 어떤 행동을 할지 결정하는 것이라고 할 수 있다. 그리고 불행히도 확률과 통계를 배우는 학과 심지어, 통계학과를 나온다고 해도 이러한 사고는 자연스럽게 길러지지 않는 것 같다. 확률론적 사고의 과정 확률론적 사고에는 크게  1) 확률 추정2) 리스크와 손익..
태블로 대시보드 - TikTok Data by Kaggle
·
Visualization
" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스
HardConcentrator
'통계' 태그의 글 목록