SciPy) 자주 사용하는 기능들 - 선형대수
·
Data Science
1. Inverse Matrixfrom scipy.linalg import invinv([[1, 2], [3, 4]])2. Determinantfrom scipy.linalg import detdet([[1, 2], [3, 4]])3. Normfrom scipy.linalg import normnorm([3, 4]) # L2 노름4. Orthogonal Matrixfrom scipy.linalg import orthorth([[1, 2], [3, 4]])5. Eigen Value, Eigen Vectorfrom scipy.linalg import eigeig([[1, 2], [2, 1]])6. Singular Value Decomposition(SVD)from scipy.linalg import svd..
SciPy) 자주 사용하는 기능들 - 최적화
·
Data Science
최적화 1) 1차원 최적화(Scalar Optimization)함수 입력값이 일차원인 경우. (1) 1차원 스칼라 함수 최적화(minimize_scalar)from scipy.optimize import minimize_scalarminimize_scalar(lambda x: (x-2)**2)(2) 이분법을 이용한 근 탐색(bisect)from scipy.optimize import bisectbisect(lambda x: x**3 - 1, 0, 2)(3) 뉴튼 랩슨(newton)from scipy.optimize import newtonnewton(lambda x: x**3 - 2, x0=1)(4) Brenth(brenth)from scipy.optimize import brenthbrenth(lamb..
seaborn) 기본 요소 (이걸 중심으로 기억하자)
·
Visualization
1. 그래프 그리기1) Scatter Plotsns.scatterplot(data=data, x='bill_length_mm', y='bill_depth_mm', hue='species')2) Line Plotsns.lineplot(data=data, x='bill_length_mm', y='bill_depth_mm', hue='species')3) Bar Plotsns.barplot(data=data, x='species', y='bill_length_mm', ci='sd') # 신뢰구간 포함4) Histogram#KDE 추가안한 버전sns.histplot(data=data, x='bill_length_mm', hue='species', bins=20) #KDE 추가한 버전sns.histplot(d..
데이터에서 문제 해결까지 - PM 간단 체험
·
PM/S.C.C - Essence
올리브영 데이터를 수집하여 리뷰데이터를 통해  문제점을 파악하고 해결방안 모색. 그러나 해당 문제가 회사 측에서 봤을 때 과연 문제라고 할 수 있을지에 대한 의문 발생.  사측의 입장에서 과연 작은 side effect까지 고려할 필요가 있을까? 매출에 심대한 타격이 없고 실험 상 유의미한 문제가 없고 대부분의 사용자에게 좋은 경험을 도출 할 수 있다면 소수의 불편은 감수할만하다. 그것이 비록 의도적일 지라도 말이다.(다크패턴)  타겟으로 삼는 사용자의 분포에서 벗어난 사람들의  손해는 사측에선 크게 신경쓰지 않는다. 타겟으로 삼는 사용자에게 이득만 가져다 줄 수 있다면 필연적인 손실은 짊어지고 진행한다.  또한 부정적인 데이터만 보면 마치 전체가 다 틀린 것 처럼 느껴진다는 말을 실제로 느껴봤다.(편향..
데이터 리터러시 - 성공 확률이 0.5 vs 100번 시도해서 50번 성공??
·
Statistics/Fundamental
(어려움, 헷갈림 주의!!!!!!!) 성공확률이 0.5이면 이 확률 값이 100번 시도해서 50번 성공할 확률과 같다고 할 수 있을까? 이 둘은 엄연히 다르다.  (1) 성공확률이 0.5  성공 확률이 0.5라는 것은, 한 번 시도했을 때 성공할 확률이 0.5라는 것을 의미한다.이것은 단일 시행에서의 성공 가능성을 나타내며, 이항분포에서 특정 성공 횟수를 가지는 확률과는 다르다.    (2) 100번 시도해서 50번 성공 100번 시도해서 정확히 50번 성공할 확률은 이항분포를 따르며, 이는 성공 확률 p에 따라 달라진다. 예를 들어 X ~ Bin(100, 0.5) 일 때, P(X = 50) =0.08...이다. 다만, 이때의 기대값은 50번이 맞다.  즉, 성공 확률이 0.5일 때 100번 던지면 성공..
데이터 리터러시 - 기대값의 활용
·
Statistics/Fundamental
확률변수 X 가 정해지고  확률변수가 가지는 값에 대한 확률 P(X = x)가 정해지면 기댓값을 생각해 볼 수 있다.   기댓값이라는 것은 결국 X가 가질 수 있는 값이 확정적이지 않기 때문에 X가 가장 가질 것 같은 값이 어떤 값인지를 나타내는 것이라고 할 수 있다.   가령 확률변수 X가 "성공확률이 0.6일 때, 성공할 때까지 시도한 횟수"라고 한다면,(즉, X~Geo(0.6). X가 기하분포를 따르고 확률은 0.6 ) X의 기대되는 값. 즉, 성공할 때까지 시도할 횟수로 가장 기대되는 값이 1/0.6 = 1.67 정도 된다.   이때, 시도할 때마다 비용이 100만원이라고 가정해 보자.  그렇다면 성공할 때까지 대략 1.67 * 100만원 = 167만 원이 된다.    여기서 성공했을 시 기대 수..
앞으로의 데이터 분석가 미래, 전망
·
ETC
(순수 뇌피셜) 앞으로의 데이터 분석 직무의 운명은  솔직하게 말해 그렇게 밝지 않다.  단, 계속 현재에 머문다면 밝지 않다.   1. ChatGPT로 해결한다. 비용도 저렴하다. 무슨 말인가 하면, 현재 "데이터 분석가"라는 직무로  요구되는 뭔가 데이터를 시각화하고 숨은 의미를 찾고 이런  직무는 없어질 것이다.  그 이유는  ChatGPT를 시작으로 LLM을 통한 분석의 접근성이 매우 매우 좋아지고 있고 한 번이라도 GPT(유료)를 써본 사람이라면 어지간한 분석 정도는 맡길 수 있을 것이라고  바로 판단할 수 있을 정도로 성능이 좋아졌다. 예전에는 통계 공부를 어느 정도 해야 해석할 수 있었던 다양한 테스트 지표들도  알아서 해석해주고, 조금만 더 정교하게 질문하면 거기에 맞추어서 생각할 거리를 ..
태블로 대시보드 - TikTok Data by Kaggle
·
Visualization
" data-ke-type="html">HTML 삽입미리보기할 수 없는 소스
HardConcentrator
'데이터' 태그의 글 목록