반응형
- 데이터 클린징
- 결손값 처리(null, nana 처리)
- 데이터 인코딩(문자 등등을 숫자로 변경)
- 레이블 인코딩
- 분류를 숫자로 변경하는것, 쉽다
- 하지만 숫자이기 떄문에 알고리즘에 영향을 미칠수가 있다. 이런것을 고려하여 구현해야한다.
- 원핫 인코딩(one-hot)
- 분류별로 데이터 테이블, 차원( 3 x 3 배열을 만들고 0, 1 로 채우는것)
- pandas의 get_dummies(datafram)으로 사용
- pandas를 안한다면 LabelEncoder로 변환 -> 2차원 데이터로 변환 -> 원핫 인코딩으로 변환
- 레이블 인코딩
- 데이터 스케일링(kg, cm 등의 작업)
- 이상치 제거 - 어처구니 없는 값 제거
- Feature 선택, 추출 및 가공
'IT > BigData, 머신러닝' 카테고리의 다른 글
주식 공부 PER (0) | 2020.05.05 |
---|---|
데이터 스케이일링 변환 방법 (0) | 2020.04.19 |
kafka java consumer 샘플 코드 (0) | 2018.03.22 |
kafka java producer 예제 코드 (0) | 2018.03.22 |
Hive - Create Table & csv file (0) | 2014.06.17 |