[데이터분석]/Python | AI | 머신러닝 16

Anomaly Detection

3-Sigma Rule & Box Plot이상치 Outlier → Data Noise (O): 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값: 분석하고자 하는 데이터에서 적은 확률로 나타나는 데이터: 분석 결과 해석 시 오해를 발생시킬 수 있기 때문에 사전 제거 필요: 분석 Domain에 따라 다르지만 대부분 분석 대상이 아님 이상 (Abnormal) → Data Noixe (X): 문제 해결의 관점으로 바라볼 수 있음: 현업의 Domain의 관점에서 보았을 때, 문제 발생 가능성이 높은 데이터: 정상적인 범주의 데이터라도 이상으로 정의할 수 있음: 일반적으로 자주 발생하지 않는 패턴이 이상일 확률이 높음: 따라서 데이터에 대해 Thread Hold가 존재함 Anomaly Detectio..

Dimensionality Reduction

Curse of Dimensionality'차원의 저주'는 차원이 늘어남에 따라 같은 영역을 가지고 있음에도 전체 영역 대비 설명 가능한 데이터가 줄어들게 되는 현상차원이 높아짐에 따라 어떠한 한 점이 나타내는 영역이 작아진다는 의미(점 하나가 차원이 높아짐에 따라 설명력이 낮아짐)  -고차원에 의한 저주 문제Data 내 Noise를 가지고 있을 확률이 높아짐학습할 때나 Model에 적용시킬 때 Computational Burden이 발생Model이 예측할 때 많은 Data (차원적으로) 가 요구 됨 -고차원의 저주를 해결하는 방법Domain Knowledge 사용Regularization Term (Penalty Term)을 활용하여 Model이 학습 시 차원을 줄이는 방법 사용Feature의 수를 새..

Clustering

Distance거리는 어떤 사물이나 장소가 공간적으로 얼마나 멀리 떨어져 있는가를 수치로 나타낸 것Euclidian Distance  Manhattan Distance Cosine Distance두 Vector들 사이의 각도를 계산함Vector의 크기는 무시하되 Vector의 방향의 차이만 계산함Cosine Distance는 어떤 개수의 차원에도 적용이 가능하여 흔히 다차원의 양수 공간에서의 유사도 측정에 자주 이용됨(eg 정보 검색 및 텍스트 마이닝 분야에서, 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 횟수로 표현되는 Vector 값을 가짐. 이러한 다차원 공간에서 Cosine Distance는 두 문서의 유사를 측정하는 매우 유용한 방법으로 사용됨)Cosine Dist..

eXplainableMethod

Black Box내부 구조나 작동 원리를 모르더라도 입력과 출력을 할 수 있는 장치나 회로, 또는 과정여객기, 수송기와 같은 항공기 안에 비치하는 데이터 자동 기록 장치비행 기록 장치와 조종실 음성기록 장치가 들어 있음사고가 났을 때 그 원인을 밝히는 데 중요한 구실을 함Explainability vs PerformanceModel Complexity가 높은 (해석력이 낮은) Model에 대해 해석을 얻으려는 연구가 많이 이루어짐Interpretable Machine LearningImportance of Interpretability: If a machine learning model performs well, why do we not just trust the model and ignore why i..

Classification Problem

Regression Loss Function RemindRegression Loss Function은 Error의 크기를 측정할 수 있었음하지만 Classification Loss Function은 옳고 그름 2가지 밖에 없음 (단, Class가 2개 이상일 수 있음)Decision Tree가장 기본적인 Classification ModelDecision Tree는 Regression Problem도 함께 적용 가능Classification Measuring Impurity for Split순도 (Homogeneity)를 최대로 증가시키는 방향불순도 (Impurity) 혹은 불확실성 (Uncertaionty)을 최소로 감소시키는 방향 - Measuring Impurity 1: Gini Index (Max..

Regression Problem

Error = Variance + Biasvariance: 추정 값(Algorithm Output)의 평균과 추정 값 (Algorithm Output) 들 간의 차이bias: 추정 값 (Algorithm Output)의 평균과 참 값 (True) 들 간의 차이bias는 참 값과 추정 값의 거리를 의미variance는 추정 값들의 흩어진 정도를 의미  Error = Noise (Data) + Variance + BiasSimple Linear Regression독립변수 X 1개, 종속변수 Y 1개Multi Linear Regression독립변수 X 여러 개, 종속변수 Y 1개Why use Square?미분 가능β 추정법각 β에 대해 편미분을 사용하여 추정Linear Regression의 Loss Funct..

Python을 활용한 프로그래밍 확률통계_Part 4

확률분포이산확률분포확률 변수의 값이 정수와 같이 이산적인 값을 가진 경우 -베르누이 분포베르누이 시행1) 각 시행은 성공과 실패 두 가지 중 하나의 결과를 가짐2) 각 시행에서 성공할 확률: p 실패할 확률: 1-p3) 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않음 -이항분포베르누이 시행을 반복했을 때, 성공하는 횟수의 확률분포 이항실험: 성공확률이 동일한 베르누이 시행을 독립적으로 반복하는 실험이항확률변수: 전체 시행 중 성공의 횟수에 따른 확률변수시행횟수 n은 자연수이며, 성공확률 p는 0 #이항분포from elice_utils import EliceUtilsimport numpy as np import matplotlib.pyplot as pltimport sci..

Python을 활용한 프로그래밍 확률통계_Part 3

경우의 수표본공간에서 사건 A가 발생할 확률 팩토리얼(!)1부터 어떤 양의 정수 n까지의 정수를 모두 곱한 것0! = 11! = 1n! = n * (n-1)!# ! 함수 정의 def fac(n): if n == 0: return 1 else: return n * fac(n-1) # 4! 계산print(fac(4)) 공리증명을 필요로 하지 않거나 증명할 수 없지만 직관적으로 자명한 진리인 명제-모든 사건 A에 대하여 0 -표본공간에 대해 P(표본공간) = 1 확률의 정리 순열곱의 법칙에 의해 총 가능한 경우의 수 = n개의 서로 다른 원소 중 k개를 선택하여 배열하는 경우의 수from itertools import permutationslist(permutatio..

현업 문제해결 유형별 머신러닝 알고리즘 Part 1

Loss Function모델의 성능을 측정하는, 모델이 얼마나 잘 학습할 수 있는지 좋은 알고리즘 기준-Set of rules to obtain the expected output from given input -Quality of Expected output-새로운 데이터를 input 했을 때, 얼마나 정확히 예측했는가-Error가 낮아야 함 Error = Variance + Bias-variance: 추정값의 평균과 추정값들간의 차이-bias: 추청값의 평균과 참값들의 차이-bias는 참 값과 추정 값의 거리를 의미, variance는 추정 값들의 흩어진 정도를 의미함-low bias, low variance가 best 모델임 Error(X) = Noise(X) + Bias(X) + Variance(..

실무 중심의 데이터 분석 방법 Part.4

Cloud데이터를 인터넷과 연결된 중앙컴퓨터에 저장하여 인터넷에 접속하기만 하면 언제든지 서비스를 이용할 수 있음을 의미Cloud를 이용하면 작업한 컴퓨터에서만 데이터를 불러올 수 있는 것이 아니라 마치 여러 장소에서 동일한 구름을 관찰할 수 있듯이 어디서나 필요한 서비스를 활용할 수 있음 -2022년에는 대기업 신규 소프트웨어 투자의 30% 이상이 Cloud Only 전략 채택됨(관리, 비용 측면에서 cloud가 압도적으로 우세하기 때문) Public Cloud서비스 유지를 위한 모든 인프라와 IT기술을 클라우드 사업자에서 제공 받는 형태-IaaS (infrastructure as a service): 클라오드 사업자는 infrastructure만 서비스로 제공해주고, 기업 자체에서 필요한 앱, 서비스..