본문 바로가기

머신러닝

학습 방법 학습방법에는 크게 2종류가 있다. 인터넷을 활용한 오프라인/온라인 학습 데이터 중심으로 보는 사례기반/모델기반 학습 오프라인 학습 정해진 데이터를 학습하는 방법 새로운 데이터를 학습하기 위해서는 shutdown을 해야하는 단점있다 온라인 학습 batch 작업을 통해 계속 학습 데이터를 제공하는 방법이다 하지만 제공하는 데이터의 질이 안좋으면 결과가 나빠질수 있다는 단점이 있다 사례기반 예제를 모두 저장하여 사용하는 것이다 스팸에서 사용하는 단어들을 사례로 판단하여 학습하는 방법이다 모델기반 샘플 데이터 , 에제 데이터를 사용하여 예측에 중점 두는것을 말한다 더보기
머신러닝의 기초 지도학습(supervised learning) 은 훈련데이터를 통해 label을 얻는것을 얘기한다 분류 - 메일/문자 샘플링 예측변수(predictor variable, feature) 을 통한 타켓 값 예측 반복직인 훈련(회귀)를 통해 하기 떄문에 많은 데이터가 필요 지도학습에 가장 많이 사용하는 알고리즘 종류 K-최근접 이웃(k-nearest neighbors) 선형회귀 로지스틱 회귀 서포트 백터 결정 트리/랜던 포레스트 신경망 비지도 학습이란? unsupervised learning? 지도학습과 달리 훈려네이터에 레이블(분류?)가 없다. 예를 들어 어떤 데이터를 분석하는데 이 데이터를 사용하는 혹은 조회하는 사용자의 정보가 없을때.이러한 경우 머신러닝이 스스로 학습해서 사용자를 분류하는것을 얘기한다.. 더보기
데이터 스케이일링 변환 방법 1. Log변환을 통해 왜곡된 분포도를 정규분포로 변환 2. IQR(Inter Quantile Range)을 이용해서 분포 제거 - 박스 플랏 밖의 데이터(Box plot) 제거 3. oversampling, undersampling 을 통해 이상치 제거 3.1 방법론 1) SMOTE(Synthetic Minority OverSampling Technique) - k최근접을 이용한 방법 더보기
데이터 전처리(preprocessing) 주요 포인트 데이터 클린징 결손값 처리(null, nana 처리) 데이터 인코딩(문자 등등을 숫자로 변경) 레이블 인코딩 분류를 숫자로 변경하는것, 쉽다 하지만 숫자이기 떄문에 알고리즘에 영향을 미칠수가 있다. 이런것을 고려하여 구현해야한다. 원핫 인코딩(one-hot) 분류별로 데이터 테이블, 차원( 3 x 3 배열을 만들고 0, 1 로 채우는것) pandas의 get_dummies(datafram)으로 사용 pandas를 안한다면 LabelEncoder로 변환 -> 2차원 데이터로 변환 -> 원핫 인코딩으로 변환 데이터 스케일링(kg, cm 등의 작업) 이상치 제거 - 어처구니 없는 값 제거 Feature 선택, 추출 및 가공 더보기

반응형