seaborn) 기본 요소 (이걸 중심으로 기억하자)
·
Visualization
1. 그래프 그리기1) Scatter Plotsns.scatterplot(data=data, x='bill_length_mm', y='bill_depth_mm', hue='species')2) Line Plotsns.lineplot(data=data, x='bill_length_mm', y='bill_depth_mm', hue='species')3) Bar Plotsns.barplot(data=data, x='species', y='bill_length_mm', ci='sd') # 신뢰구간 포함4) Histogram#KDE 추가안한 버전sns.histplot(data=data, x='bill_length_mm', hue='species', bins=20) #KDE 추가한 버전sns.histplot(d..
matplotlib.pyplot) 기본 요소 (이걸 중심으로 기억하자)
·
Visualization
크게, 1) 그래프 생성 2) 꾸미기 3) 그래프 출력 이렇게 나눠서 생각하면 편하다. 1. 그래프 생성 1) 선 그래프plt.plot(x, y)  2) 막대그래프plt.bar(['A', 'B', 'C'], [10, 20, 30])   3) Scatter Plotplt.scatter(x, y)  4) 히스토그램data = np.random.randn(1000) plt.hist(data, bins=30)  2. 꾸미기plt.title('Sine Wave Example') # 제목 추가plt.xlabel('X-axis') # x축 레이블plt.ylabel('Y-axis') # y축 레이블plt.grid(True) # 격자 추가plt.legen..
표본 분산에 대한 분포와 조건 (feat. 카이제곱분포)
·
Statistics
계속 헷갈리고 잊어먹어서 정리. 표본 분포에서 표본 분산에 대한 분포인 카이제곱분포를 사용하려면 일단 Random Sample들이 정규분포에 대한 i.i.d가 만족되어야 한다. 따라서 표본 분산을 통해서 카이제곱분포를 사용하는 경우, 각 표본들이 정규분포를 따르는지 무조건 체크해봐야 된다. 표본 평균이 아니라!! 표본 자체가 정규분포를 따라야됨. n이 30이상이고 어쩌고 상관 없다. 이건 표본 평균(CLT)에 대해 다룰때.  1. 모집단이 정규분포를 따라야 함 모집단 X가 평균 μ, 분산 σ2를 갖는 정규분포 N(μ,σ2)를 따라야 한다. 이는 카이제곱 분포의 성질이 정규분포에서 파생되기 때문. 2. 독립적이고 동일한 분포의 표본 정규분포를 따르는 모집단으로부터 크기가 n인 표본이 독립적이고 동일한 분포..
데이터 리터러시 - 성공 확률이 0.5 vs 100번 시도해서 50번 성공??
·
Statistics/Fundamental
(어려움, 헷갈림 주의!!!!!!!) 성공확률이 0.5이면 이 확률 값이 100번 시도해서 50번 성공할 확률과 같다고 할 수 있을까? 이 둘은 엄연히 다르다.  (1) 성공확률이 0.5  성공 확률이 0.5라는 것은, 한 번 시도했을 때 성공할 확률이 0.5라는 것을 의미한다.이것은 단일 시행에서의 성공 가능성을 나타내며, 이항분포에서 특정 성공 횟수를 가지는 확률과는 다르다.    (2) 100번 시도해서 50번 성공 100번 시도해서 정확히 50번 성공할 확률은 이항분포를 따르며, 이는 성공 확률 p에 따라 달라진다. 예를 들어 X ~ Bin(100, 0.5) 일 때, P(X = 50) =0.08...이다. 다만, 이때의 기대값은 50번이 맞다.  즉, 성공 확률이 0.5일 때 100번 던지면 성공..
앞으로의 데이터 분석가 미래, 전망
·
ETC
(순수 뇌피셜) 앞으로의 데이터 분석 직무의 운명은  솔직하게 말해 그렇게 밝지 않다.  단, 계속 현재에 머문다면 밝지 않다.   1. ChatGPT로 해결한다. 비용도 저렴하다. 무슨 말인가 하면, 현재 "데이터 분석가"라는 직무로  요구되는 뭔가 데이터를 시각화하고 숨은 의미를 찾고 이런  직무는 없어질 것이다.  그 이유는  ChatGPT를 시작으로 LLM을 통한 분석의 접근성이 매우 매우 좋아지고 있고 한 번이라도 GPT(유료)를 써본 사람이라면 어지간한 분석 정도는 맡길 수 있을 것이라고  바로 판단할 수 있을 정도로 성능이 좋아졌다. 예전에는 통계 공부를 어느 정도 해야 해석할 수 있었던 다양한 테스트 지표들도  알아서 해석해주고, 조금만 더 정교하게 질문하면 거기에 맞추어서 생각할 거리를 ..
HardConcentrator
'DATA' 태그의 글 목록