[데이터분석] 25

Anomaly Detection

3-Sigma Rule & Box Plot이상치 Outlier → Data Noise (O): 관측된 데이터의 범위에서 많이 벗어난 아주 작은 값이나 큰 값: 분석하고자 하는 데이터에서 적은 확률로 나타나는 데이터: 분석 결과 해석 시 오해를 발생시킬 수 있기 때문에 사전 제거 필요: 분석 Domain에 따라 다르지만 대부분 분석 대상이 아님 이상 (Abnormal) → Data Noixe (X): 문제 해결의 관점으로 바라볼 수 있음: 현업의 Domain의 관점에서 보았을 때, 문제 발생 가능성이 높은 데이터: 정상적인 범주의 데이터라도 이상으로 정의할 수 있음: 일반적으로 자주 발생하지 않는 패턴이 이상일 확률이 높음: 따라서 데이터에 대해 Thread Hold가 존재함 Anomaly Detectio..

Dimensionality Reduction

Curse of Dimensionality'차원의 저주'는 차원이 늘어남에 따라 같은 영역을 가지고 있음에도 전체 영역 대비 설명 가능한 데이터가 줄어들게 되는 현상차원이 높아짐에 따라 어떠한 한 점이 나타내는 영역이 작아진다는 의미(점 하나가 차원이 높아짐에 따라 설명력이 낮아짐)  -고차원에 의한 저주 문제Data 내 Noise를 가지고 있을 확률이 높아짐학습할 때나 Model에 적용시킬 때 Computational Burden이 발생Model이 예측할 때 많은 Data (차원적으로) 가 요구 됨 -고차원의 저주를 해결하는 방법Domain Knowledge 사용Regularization Term (Penalty Term)을 활용하여 Model이 학습 시 차원을 줄이는 방법 사용Feature의 수를 새..

Clustering

Distance거리는 어떤 사물이나 장소가 공간적으로 얼마나 멀리 떨어져 있는가를 수치로 나타낸 것Euclidian Distance  Manhattan Distance Cosine Distance두 Vector들 사이의 각도를 계산함Vector의 크기는 무시하되 Vector의 방향의 차이만 계산함Cosine Distance는 어떤 개수의 차원에도 적용이 가능하여 흔히 다차원의 양수 공간에서의 유사도 측정에 자주 이용됨(eg 정보 검색 및 텍스트 마이닝 분야에서, 단어 하나 하나는 각각의 차원을 구성하고 문서는 각 단어가 문서에 나타나는 횟수로 표현되는 Vector 값을 가짐. 이러한 다차원 공간에서 Cosine Distance는 두 문서의 유사를 측정하는 매우 유용한 방법으로 사용됨)Cosine Dist..

eXplainableMethod

Black Box내부 구조나 작동 원리를 모르더라도 입력과 출력을 할 수 있는 장치나 회로, 또는 과정여객기, 수송기와 같은 항공기 안에 비치하는 데이터 자동 기록 장치비행 기록 장치와 조종실 음성기록 장치가 들어 있음사고가 났을 때 그 원인을 밝히는 데 중요한 구실을 함Explainability vs PerformanceModel Complexity가 높은 (해석력이 낮은) Model에 대해 해석을 얻으려는 연구가 많이 이루어짐Interpretable Machine LearningImportance of Interpretability: If a machine learning model performs well, why do we not just trust the model and ignore why i..

Classification Problem

Regression Loss Function RemindRegression Loss Function은 Error의 크기를 측정할 수 있었음하지만 Classification Loss Function은 옳고 그름 2가지 밖에 없음 (단, Class가 2개 이상일 수 있음)Decision Tree가장 기본적인 Classification ModelDecision Tree는 Regression Problem도 함께 적용 가능Classification Measuring Impurity for Split순도 (Homogeneity)를 최대로 증가시키는 방향불순도 (Impurity) 혹은 불확실성 (Uncertaionty)을 최소로 감소시키는 방향 - Measuring Impurity 1: Gini Index (Max..

Regression Problem

Error = Variance + Biasvariance: 추정 값(Algorithm Output)의 평균과 추정 값 (Algorithm Output) 들 간의 차이bias: 추정 값 (Algorithm Output)의 평균과 참 값 (True) 들 간의 차이bias는 참 값과 추정 값의 거리를 의미variance는 추정 값들의 흩어진 정도를 의미  Error = Noise (Data) + Variance + BiasSimple Linear Regression독립변수 X 1개, 종속변수 Y 1개Multi Linear Regression독립변수 X 여러 개, 종속변수 Y 1개Why use Square?미분 가능β 추정법각 β에 대해 편미분을 사용하여 추정Linear Regression의 Loss Funct..

다가올 변화, 대체거래소(ATS) 바로 알기

대체거래소의 출범대체거래소-오전 8시 ~ 저녁 8시 주식 투자 가능-내년 3월 출범-하루 12시간 주식 거래 가능-주식 거래 수수료 경쟁 체제-한국 거래소 KRX  주식 매매 체결 기능을 대체하는 증권 거래소(자본시장법상 다자간 매매체결 업무를 하는 투자매매업자 또는 투자중개업자) 한국거래소가 68년간 독점체제로 인한 소비자 이익 소외 이슈 지속 발생하여 대체거래소가 출범하게 됨NEXTRADE(2025.03.04 출범) 증권사, 투자자 입장 혼선 가능→ 경쟁체제가 되면 시장 혼선 방지를 위한 제도나 시스템이 필요함 대체거래소 출범으로 인한 기대효과수수료 경쟁, 서비스 다양화로 고객 이익 창출시장 경쟁체제 통한 한국 주식시장 경쟁력 강화(한국거래소: 서비스 본질에 대한 고민이 필요)해외의 대체거래소 운영 ..

금융보안원 월간 뉴스레터

디지털 IT 동향안전하고 효율적인 데이터 활용법 'AI 연합학습 기술'-AI 모델에서 프라이버시를 안전하게 보호하면서도 데이터를 원활히 활용할 수 있게 돕는 연합학습 기술이 금융, 의료 등 산업 분야에서 주목받고 있음 ※연합학습 기술여러 참여자가 공동으로 AI 모델을 개발할 때 사용되는 기술로, 각 참여자가 가진 데이터를 다른 참여자에게 보내지 않더라도 AI 모델을 학습시키고 성능을 높일 수 있어 유용함1. 먼저 중앙기관이 참여자에게 공동 AI 모델을 공유2. 참여자는 자사 고객데이터로 전달받은 AI 모델을 개별 훈련3. 일정 기간 경과 후 참여자는 자사 데이터는 빼고, 학습 후 개선된 AI 모델만 중앙기관에 공유4. 중앙기관은 모든 참여자의 개선 내용을 합쳐서 향상된 공동 AI 모델을 마련, 배포 -고..

주요 금융권의 AI 서비스 현황 / NFT

주요 금융권의 AI 서비스 현황전 세계 금융 서비스 전문가의 80% 이상이 AI 도입을 통해 매출을 증가시키고 비용을 절감하고 있다고 한다.-마스터카드: 금융 사기 탐지에 생성형 AI 도입한 결과 사기 탐지율이 평균 20% 상승-뱅크오브아메리카: AI를 활용한 초개인화된 맞춤형 서비스인 에리카를 적용하여 3,700만 사용자를 유치-JP모건체이스는 COiN을 활용해 계약서 조항의 적정성을 AI가 검토하여 연간 36만 시간을 절감 KB금융-KB손해보험: AI 명함: 가상인간을 활용한 움직이고 말하는 AI 명함 서비스로, 사진 1장과 10초 분량의 음성만으로 보험 설계사 실제 모습을 구현-KB증권: Stock AI: 실시간 투자 정보 및 양방향 대화형 챗봇 서비스로, 고객별 보유 및 관심 종목에 대한 실시간 ..

Python을 활용한 프로그래밍 확률통계_Part 4

확률분포이산확률분포확률 변수의 값이 정수와 같이 이산적인 값을 가진 경우 -베르누이 분포베르누이 시행1) 각 시행은 성공과 실패 두 가지 중 하나의 결과를 가짐2) 각 시행에서 성공할 확률: p 실패할 확률: 1-p3) 각 시행은 서로 독립으로 각 시행의 결과가 다른 시행의 결과에 영향을 미치지 않음 -이항분포베르누이 시행을 반복했을 때, 성공하는 횟수의 확률분포 이항실험: 성공확률이 동일한 베르누이 시행을 독립적으로 반복하는 실험이항확률변수: 전체 시행 중 성공의 횟수에 따른 확률변수시행횟수 n은 자연수이며, 성공확률 p는 0 #이항분포from elice_utils import EliceUtilsimport numpy as np import matplotlib.pyplot as pltimport sci..