데이터 리터러시 - 성공 확률이 0.5 vs 100번 시도해서 50번 성공??
·
Statistics/Fundamental
(어려움, 헷갈림 주의!!!!!!!) 성공확률이 0.5이면 이 확률 값이 100번 시도해서 50번 성공할 확률과 같다고 할 수 있을까? 이 둘은 엄연히 다르다.  (1) 성공확률이 0.5  성공 확률이 0.5라는 것은, 한 번 시도했을 때 성공할 확률이 0.5라는 것을 의미한다.이것은 단일 시행에서의 성공 가능성을 나타내며, 이항분포에서 특정 성공 횟수를 가지는 확률과는 다르다.    (2) 100번 시도해서 50번 성공 100번 시도해서 정확히 50번 성공할 확률은 이항분포를 따르며, 이는 성공 확률 p에 따라 달라진다. 예를 들어 X ~ Bin(100, 0.5) 일 때, P(X = 50) =0.08...이다. 다만, 이때의 기대값은 50번이 맞다.  즉, 성공 확률이 0.5일 때 100번 던지면 성공..
데이터 리터러시 - 기대값의 활용
·
Statistics/Fundamental
확률변수 X 가 정해지고  확률변수가 가지는 값에 대한 확률 P(X = x)가 정해지면 기댓값을 생각해 볼 수 있다.   기댓값이라는 것은 결국 X가 가질 수 있는 값이 확정적이지 않기 때문에 X가 가장 가질 것 같은 값이 어떤 값인지를 나타내는 것이라고 할 수 있다.   가령 확률변수 X가 "성공확률이 0.6일 때, 성공할 때까지 시도한 횟수"라고 한다면,(즉, X~Geo(0.6). X가 기하분포를 따르고 확률은 0.6 ) X의 기대되는 값. 즉, 성공할 때까지 시도할 횟수로 가장 기대되는 값이 1/0.6 = 1.67 정도 된다.   이때, 시도할 때마다 비용이 100만원이라고 가정해 보자.  그렇다면 성공할 때까지 대략 1.67 * 100만원 = 167만 원이 된다.    여기서 성공했을 시 기대 수..
데이터 리터러시 - 확률의 직관적 경험 2
·
Statistics/Fundamental
확률을 느껴보자!! 성공 확률 (0 ~ 1): 시도 결과: ">확률을 느껴보자!!성공 확률 (0 ~ 1): 시도결과:     이전 포스팅에선 기하분포에 대한 간략한 설명과 기하분포의 그래프를 그려보면서 확률을 느껴보고자 하였다.  이번엔 직접 성공확률을 정하고 시도를 해보면서 확률을 느껴보자.   위의 "시도"를 누르면 정해진 확률을 통해 성공할 때까지 시도를 하게 되고  성공할 때까지 시도한 횟수를 그래프에 누적해서 쌓아 올린다.  이러한 경험으로 확률에 대한 직관적 느낌을 길러보자
데이터 리터러시 - 확률의 직관적 경험 1
·
Statistics/Fundamental
성공 확률 (p): 그래프 그리기 ">성공 확률 (p): 그래프 그리기  "성공확률이 0.85이다."라고 할 때, 이걸 어떻게 받아들여야 하는 걸까? 어떻게 남에게 설득해야 할까? 시각화를 통해서 보여주면 좀 더 와닿을지도 모르겠다.  기하분포(geometric distribution)는 확률이 p로 정해져 있을 때, 성공할 때까지 시도한 횟수에 대한 분포이다. 다시 말해, 성공확률이 고정되었을 때, 몇 번 시도해야 실제로 성공하겠냐는 걸 분포로서 보여준다. 성공확률이 높으면 첫 번째만에 성공할 확률이 높고, 성공확률이 낮으면 여러 번 시도해야 성공할 확률이 높을 것이다.   위의 그래프는 확률에 따라 기하분포의 분포가 어떻게 변하는지를 보여준다. 한번 해..
통계의 목적
·
Statistics/Fundamental
통계는 도구이다.도구라면 응당 그 목적이 있다.도구는 도구의 목적에 맞게 사용해야 가장 알맞은 결과를 알 수 있다.그렇다면 통계의 목적은 무엇일까? 통계의 목적은 사람에 따라 여러 가지가 될 수 있을 것이라 생각된다. 누구에게는 예측이누구에게는 추정이누구에게는 단순 통계가누구에게는 테스트가. 여기에 정해진 정답은 딱히 없다.누구나 처해진 상황이 다르고 주어진 task가 다르기 때문에통계가 주는 느낌이 다를 수 있다. 그러나기준을 세워놓으면 그걸 토대로 다른 것들도 스토리텔링이 되고다른 개념들도 받아들이기 쉬워지니각자 통계의 근본적인 목적을 한번 설정해 보자.  내가 생각하는 통계의 가장 근본적인 목적을 한 마디로 정해보자면,  "데이터 이면의 분포를 알아보기" 라고 할 수 있겠다.  "데이터 이면"이라고..
Probabilistic Thinking. 이것과 저것이 같을까 다를까. 다르다면 얼마나 다를까.
·
Statistics/Fundamental
예전 한창 PEET공부를 하던 중, 일반생물학을 가르치셨던 학원 강사(학원 강사님이라고 해도 생태학 박사님이시다.)님이  이런 말을 하신 적이 있다.  "생물학은 이것과 저것이 어떻게 다른지를 보는 학문이고, 수학과 물리학 등 다른 학문은 이것과 저것이 어떻게 같은지를 보는 학문이다." 기본적으로 과학적 사고방식이라 함은  1) 관찰을 하여2) 가설을 세우고3) 가설을 검증하려 데이터를 모으고(실험이든 뭐든) 4) 결과를 분석하여5) 가설을 검증한다. 이다.  이 과정 중에 필연적으로 "이것과 저것이 같은지 다른지"의 상황을 다루게 된다.  같다는 걸 어떻게 정의할 것인가. 다르다는 건 어떻게 정의할 것인가. 애초에 비교의 기준이 무엇인가? 등등 다양한 의문들이 나올 수 있다.  확률, 통계에선 어떨까?..
HardConcentrator
'Statistics/Fundamental' 카테고리의 글 목록