아주 중요한 문제이다.
우리는 어차피 Random Sample만 볼 수 있다.
관찰 불가능한(또는 완전히 알 수 없는) 모집단과 비교했을 때 내가 가진 데이터가 편향되어 있다면, 이를 어떻게 알아챌 수 있을까?
이 질문은 “내가 가지고 있는 데이터가 실제 모집단을 잘 대표하지 못한다면, 어떠한 방법으로 편향을 감지할 수 있을까?”라는 문제로 해석할 수 있다.
편향을 감지하기 위한 전략은 다음과 같이 몇 가지로 나누어 생각해볼 수 있다.
1. 도메인 지식 및 외부 정보 활용
- 도메인 전문가의 정성적 평가
- 특정 산업, 과학 분야, 혹은 사회학적 맥락에서 일반적으로 알려진 분포나 경향이 있을 수 있다.
- 예를 들어, 의료 데이터에서 만약 특정 질환이 전체 환자 중 10% 빈도로 발생한다고 알려져 있는데, 내 데이터셋에서 1%만 나타난다면 ‘표집 편향(sample bias)’이 있을 가능성이 높다.
- 공공 데이터·통계와 비교
- 통계청, 정부 기관, 연구 단체 등이 발표하는 표본조사나 인구통계자료 등과 비교하는 방법.
- 내 데이터의 주요 특징(예: 성별 비율, 지역 분포, 연령대 비율 등)이 알려진 통계값과 지나치게 다르다면 편향을 의심해볼 수 있다.
- 문헌(학술 논문) 리서치
- 이미 유사한 연구가 여러 번 진행되었다면, 그 연구에서 제시된 표본 분포를 참고해볼 수 있다.
- 만약 내 데이터가 과거 연구들과는 아주 다른 양상을 보인다면, 편향 가능성을 고려할 수 있다.
2. 내부적으로 가능한 진단 방법
- 데이터 수집 과정 점검
- 데이터가 어떤 채널, 시간대, 조건에서 수집되었는지 살펴보자. 예를 들어 웹 서베이를 통해 특정 사이트에 방문한 사람들에게만 설문을 돌렸다거나, 특정 시간대/지역에서만 수집했다면 그 사실 자체가 편향의 원인이 된다.
- 수집 과정을 되짚어 보고, 표본에서 배제된 집단이 있는지 확인한다.
- 메타데이터와 로그 분석
- 어떤 사용자 또는 관측치가 주로 반영되었는지, 누락된 부분은 없는지 확인한다.
- 예: 대부분 높은 소득층이 주로 쓰는 앱에서만 데이터를 수집했다면, 중·저소득층 데이터가 크게 부족할 수 있다.
- 가능한 부분 표본(sub-sample) 간 비교
- 동일한 데이터셋 내에서, 서로 다른 특성 집단 간의 분포 차이를 확인한다.
- 예: 남성 vs 여성, 10대 vs 40대 등 여러 속성에 대해 데이터 분포가 극단적으로 차이가 나는지 살펴본다.
- 특정 그룹만 지나치게 많거나, 특정 그룹이 거의 없다면 편향을 의심할 수 있다.
3. 편향을 ‘추측’하기 위한 통계적·방법론적 기법
- Synthetic estimation, Small area estimation 기법
- 모집단 전체가 없을 때, 제한적인 표본 혹은 보조 지표를 통해 모집단 분포를 ‘추정’하는 통계적 방법.
- 예: 보조적으로 사용할 수 있는 인구학 표본이나 서베이 자료와 매칭하여, 내가 가진 데이터의 편향을 부분적으로 보정하거나 감지할 수 있다.
- Post-stratification, Re-weighting
- 전체 모집단의 분포를 정확히 모르지만, 부분적으로나마 아는 통계치가 있다면 해당 통계치에 맞춰 가중값을 재부여하는 방식.
- 예: 전체 국민에서 성별 비율이 남:여 = 50:50이라 가정하고, 내 데이터에서 남성의 비율이 지나치게 크다면 여성을 ‘가중하여’ 비교 분석을 해볼 수 있다.
- 가중 재부여 후 결과가 크게 달라진다면, 원본 데이터가 편향되었을 가능성을 시사한다.
- 샘플링 안정성 검증
- 수집된 데이터셋을 여러 부분집합으로 랜덤하게 분할(예: 부트스트랩, 교차검증 등)해서, 각 부분집합 간에 통계적 지표(평균, 분산, 특정 카테고리 비율 등)가 일관되게 나타나는지 살펴본다.
- 분할된 부분집합 간에 분포가 극단적으로 다르다면, 원본 데이터에서 중복된 집단만 과다/과소 표집됐을 수 있다. 이는 편향이 존재할 가능성을 암시한다.
4. 실제 모델 성능 또는 지표를 통한 간접적 판단
- 다른 (소규모라도) 독립적인 검증 데이터셋 활용
- 완전히 같은 모집단은 아니더라도, 유사한 도메인에서 얻은 ‘검증용’ 표본 데이터셋에 대해 모델을 돌려 보거나 결과를 비교해보면, 예측 성능이 크게 달라지거나 특정 지표에서 편차가 크면 편향의 가능성을 의심해볼 수 있다.
- 과적합 여부 및 일반화 성능 확인
- 모델링을 했을 때, 훈련 데이터 내에서는 높은 성능이지만 다른 환경(혹은 다른 시점)에서 성능이 급격히 떨어진다면 데이터 편향을 시사할 수 있다.
- 단순히 모델의 과적합으로 볼 수도 있지만, 그 근본 원인이 데이터가 편중된 그룹에만 잘 맞춰져 있었기 때문일 수도 있다.
- Fairness 지표 활용
- 인종, 성별, 소득, 지역 등 민감한 특성 그룹 간에 모델이 내는 결과가 일관적으로 차이가 나는지를 보는 방식(예: Demographic Parity, Equalized Odds 등)을 활용할 수도 있다.
- 어느 한 그룹에만 성능이 좋거나, 혹은 특정 그룹에만 결과가 왜곡되어 나타난다면, 데이터가 그 그룹 위주로만 수집되었는지 확인해야 한다.
모집단 데이터는 현실에 존재하지 않는 이상적인 개념으로 간주할 수 있다.
실제로 우리가 분석하고자 하는 모든 데이터를 한 번에 수집하는 것은 불가능에 가깝기 때문에,
모집단은 이론적인 기준점 또는 상상 속의 완전한 데이터 상태라고 할 수 있다.
1. 모집단이 이상적인 개념인 이유
- 완전한 정보의 부재
- 현실에서는 데이터를 수집하는 과정에서 비용, 시간, 접근성의 한계가 존재한다.
- 따라서 현실에서 얻을 수 있는 데이터는 모집단의 ‘부분 표본’일 뿐이며, 모집단을 완벽하게 재현할 수 없다.
- 변동하는 환경
- 모집단은 고정된 것이 아니라 시간, 공간, 상황에 따라 변화한다.
- 예를 들어, 소비자 행동 데이터는 계절, 트렌드, 경제 상황에 따라 변화하기 때문에 모집단을 항상 고정된 것으로 가정하기 어렵다.
- 정의 자체의 애매함
- 모집단을 어떻게 정의하느냐에 따라 그 모습은 달라질 수 있다.
- 예를 들어, ‘고객’을 정의할 때 이미 상품을 구매한 사람만 포함할지, 잠재 고객도 포함할지에 따라 모집단의 의미가 달라진다.
2. 그렇다면 모집단 대신 우리는 무엇을 신뢰할 수 있는가?
- 근사 모델(Approximation)
- 모집단의 ‘근사치’를 만드는 것이 현실적인 접근.
- 이미 알려진 공공 데이터나 과거 통계를 참조하여 ‘현실적으로 타당한 가설’을 기반으로 데이터 분포를 추정.
- 샘플링 편향 보정
- 현실의 표본이 편향되었을 가능성을 염두에 두고, 보정 및 재조정을 통해 모집단의 특징을 ‘추정’.
- 예: 표본의 특정 연령대가 과다 대표되었다면, 가중치를 조정하여 다른 연령대의 부족을 보완합.
- 시뮬레이션과 가상 데이터 활용
- 모집단을 현실적으로 직접 관찰할 수 없다면, 확률분포를 기반으로 한 시뮬레이션 데이터를 생성하여 실험을 보완.
- 예: 몬테카를로 시뮬레이션, 부트스트래핑 등.
- 이론적 가정의 활용
- 특정한 이론적 분포(정규분포, 지수분포 등)를 가정하고, 데이터의 특징을 해당 분포에 적합시켜 평가.
- 예: 데이터의 분포가 정규성을 따르는지 테스트하고, 필요에 따라 변환을 적용.
3. 모집단의 ‘허상’을 인정하고 실무적 접근을 선택
- 현실의 데이터는 불완전하다는 전제를 받아들이는 것이 핵심.
- 완전성을 포기하는 대신, 편향을 평가하고 보정하는 과정을 신뢰할 만한 데이터 분석의 목표로 설정.
- 실제 분석에서는 모집단에 대한 과도한 집착을 피하고, 표본 기반의 실용적인 의사결정을 추구하는 것이 더 중요.
4. 비유: 현실 속의 맵과 지도
모집단을 완벽한 지도에 비유할 수 있다.
- 실제로 존재하지 않는 이상적인 지도는 모든 지형과 정보가 완벽하게 담겨 있다.
- 그러나 우리가 사용하는 지도(표본 데이터)는 축소되었고 일부 정보는 생략되었지만, 실제 여행에서는 이 지도만으로도 충분히 길을 찾을 수 있다.
- 중요한 건, 지도에 빠진 부분(편향)을 인지하고, 추가 표지판(보정 도구)이나 나침반(통계적 검정)을 활용해 경로를 보완.
결국, 모집단이 완벽하지 않음을 인정하고, 표본 데이터를 통해 현실적으로 접근하는 능력이 분석의 핵심. 이 과정에서 편향을 줄이고 불확실성을 관리하는 방법론이 중요한 역할을 한다.
'PM > S.C.C - Essence' 카테고리의 다른 글
Stakeholder가 왜 "이해관계자"라는 뜻일까? (0) | 2024.12.29 |
---|---|
2024.12.27.Fri. 현상부터 실험까지 (Feat. Science) (1) | 2024.12.27 |
(매우 중요)"어차피 할 사람은 한다." + "가치 제안" (0) | 2024.12.23 |
데이터에서 문제 해결까지 - PM 간단 체험 (0) | 2024.12.18 |
이커머스에서 고객 여정 단계와 데이터, 그리고 PM의 역할 (2) | 2024.12.17 |