반응형
1. Log변환을 통해 왜곡된 분포도를 정규분포로 변환
2. IQR(Inter Quantile Range)을 이용해서 분포 제거
- 박스 플랏 밖의 데이터(Box plot) 제거
3. oversampling, undersampling 을 통해 이상치 제거
3.1 방법론
1) SMOTE(Synthetic Minority OverSampling Technique)
- k최근접을 이용한 방법
'IT > BigData, 머신러닝' 카테고리의 다른 글
머신러닝의 기초 (0) | 2020.11.11 |
---|---|
주식 공부 PER (0) | 2020.05.05 |
데이터 전처리(preprocessing) 주요 포인트 (0) | 2020.04.13 |
kafka java consumer 샘플 코드 (0) | 2018.03.22 |
kafka java producer 예제 코드 (0) | 2018.03.22 |