본문 바로가기

IT/BigData, 머신러닝

데이터 전처리(preprocessing) 주요 포인트

반응형
  • 데이터 클린징
  • 결손값 처리(null, nana 처리)
  • 데이터 인코딩(문자 등등을 숫자로 변경)
    • 레이블 인코딩
      • 분류를 숫자로 변경하는것, 쉽다
      • 하지만 숫자이기 떄문에 알고리즘에 영향을 미칠수가 있다. 이런것을 고려하여 구현해야한다.
    • 원핫 인코딩(one-hot)
      • 분류별로 데이터 테이블, 차원( 3 x 3 배열을 만들고  0, 1 로 채우는것)  
      • pandas의 get_dummies(datafram)으로 사용
      • pandas를 안한다면 LabelEncoder로 변환 -> 2차원 데이터로 변환 -> 원핫 인코딩으로 변환
  • 데이터 스케일링(kg, cm 등의 작업)
  • 이상치 제거 - 어처구니 없는 값 제거
  • Feature 선택, 추출 및 가공

 

'IT > BigData, 머신러닝' 카테고리의 다른 글

주식 공부 PER  (0) 2020.05.05
데이터 스케이일링 변환 방법  (0) 2020.04.19
kafka java consumer 샘플 코드  (0) 2018.03.22
kafka java producer 예제 코드  (0) 2018.03.22
Hive - Create Table & csv file  (0) 2014.06.17