예전 한창 PEET공부를 하던 중, 일반생물학을 가르치셨던 학원 강사(학원 강사님이라고 해도 생태학 박사님이시다.)님이  이런 말을 하신 적이 있다. 

 

"생물학은 이것과 저것이 어떻게 다른지를 보는 학문이고, 수학과 물리학 등 다른 학문은 이것과 저것이 어떻게 같은지를 보는 학문이다."

 

기본적으로 과학적 사고방식이라 함은 

 

1) 관찰을 하여

2) 가설을 세우고

3) 가설을 검증하려 데이터를 모으고(실험이든 뭐든) 

4) 결과를 분석하여

5) 가설을 검증한다.

 

이다. 

 

이 과정 중에 필연적으로 "이것과 저것이 같은지 다른지"의 상황을 다루게 된다. 

 

같다는 걸 어떻게 정의할 것인가. 다르다는 건 어떻게 정의할 것인가. 애초에 비교의 기준이 무엇인가? 등등 다양한 의문들이 나올 수 있다. 

 

확률, 통계에선 어떨까?

일단 "이것과 저것"에서 이것, 저것은 무엇일까?

 

정답은 확률변수라고 할 수 있다.

그럼 두 확률 변수가 같은지 다른지 어떻게 알 수 있을까?

 

그전에, 실제 상황에서 눈 앞에 확률변수가 떡하니 존재하는 경우는 없다. 

우리 눈으로 볼 수 있는 건 유일하게 단순히 숫자로 이루어진 데이터일 뿐이다. 

우리는 이러한 데이터를 생성하는 어떠한 확률 변수가 있다고 가정하고 분석을 진행하게 된다.

 

그렇다면 두 데이터 뭉치 각각을 생성하는 두 확률변수가 있다고 생각해볼 수 있다. 

두 확률변수가 같은지 다른지 어떻게 알 수 있을까?

"두 확률변수가 같다."라는 말은 결국 "두 확률변수의 분포가 같다."라는 말과 동치이다. 

 

1. 가장 확실한 방법은 우리가 문자 그대로 데이터 생성 과정을 알고 있어서 해당 확률변수를 토대로 sampling을 왕창 시킨다음, 분포를 그려서 직접 시각적으로 비교해보는 것이다.(그러나 이게 가능할리가 없다).

 

2. 두 번째 방법은 통계적인 검정을 통해서 접근하는 방법이 있다. 

 

2-1. 분포 자체의 동일성을 검정하는 방법인 Kolmogorov-Smirnov 검정을 이용한다. (Anderson-Darling 검정도 마찬가지)

2-2. 분포 자체는 모르겠고, 두 데이터의 모집단의 기대값이 같은지를 T검정을 이용하여 검정한다. 

2-3. 분포 자체는 모르겠고, 두 데이터의 모집단의 분산이 같은지를 F 검정을 통해 검정한다.(조건 필요)

 

3. 베이지안으로 접근해보자.

(나중에 포스팅해보겠다.)

 

4. 비모수적으로 접근해보자.(시뮬레이션)

(나중에 포스팅해보겠다.)

 

그렇다면 두 확률변수가 다르다면 얼마나 다른지는 어떻게 알 수 있을까. 

즉, 두 확률변수의 거리를 어떻게 알 수 있을까.

 

1. 직접 거리 계산해보자. 

 

1-1. Kolmogorov-Smirnov Distance

1-2. Wasserstein Distance

1- 3. Kullback-Leibler Divergence

1- 4. Total Variation Distance

1- 5. Hellinger Distance 

1- 6. L1, L2 Distance

 

2. 계산은 복잡하다. 직접 눈으로 보자. 

 

2-1. 히스토그램

2-2. 커널밀도추정

 

3. 베이지안으로 접근하자. 

(나중에 포스팅해보겠다.)

 

4. 비모수적으로 시뮬레이션을 진행해보자. 

(이것도 나중에 포스팅해보겠다.)

 

 

 

 

+ Recent posts