본문 바로가기

IT/BigData, 머신러닝

머신러닝의 기초

반응형

지도학습(supervised learning) 은 훈련데이터를 통해 label을 얻는것을 얘기한다

 

  • 분류 - 메일/문자 샘플링
  • 예측변수(predictor variable, feature) 을 통한 타켓 값 예측
    • 반복직인 훈련(회귀)를 통해 하기 떄문에 많은 데이터가 필요

지도학습에 가장 많이 사용하는 알고리즘 종류

  •  K-최근접 이웃(k-nearest neighbors)
  • 선형회귀
  • 로지스틱 회귀
  • 서포트 백터
  • 결정 트리/랜던 포레스트
  • 신경망

비지도 학습이란? unsupervised learning?

지도학습과 달리 훈려네이터에 레이블(분류?)가 없다. 

예를 들어 어떤 데이터를 분석하는데 이 데이터를 사용하는 혹은 조회하는 사용자의 정보가 없을때.이러한 경우 머신러닝이 스스로 학습해서 사용자를 분류하는것을 얘기한다.

 

 

 

비지도 학습에 사용하는 알고리즘 종류

  • 군집(clustering)
    • k-means
    • 계층 군집 분석
    • 이상치, 특이점 탐지
      • 이 알고리즘을 위해서는 순수한 데이터가 필요하다 왜냐하면 이 알고리즘은 정상 데이터가 아닌것을 찾아내는것이기 때문이다. 이상한 값이 들어가 있으면 그것 또한 정상적인 값으로 생각할 수 있기 때문이다
      • ex) 신용거래의 이상한 거래 내역감지? 
      •  
  • 시각각화 알고리즘 종류
    • 커널
    • 원리 분석?(principla component analysis)
  • 연관 규칙 학습
    • 연관된 것들을 찾아내는 학습 방법이다.
    • ex) 술사는 사람은 담배도 같이산다
    • ex) 토익책을 사는 사람은 취준생이다

강화 학습이란? reinforcement learning?

이 알고리즘은 enviroment를 모니터링하여 실천하고 긍정적(reward)혹은 부정적(penalty)를 받는 방식이다

보상을 받기 위해 정책을 수립하는 과정이라고 할수있다

 

강화학습의 예로 알파고가 있다. 결국 바둑게임에서 이기기 위한(reward)를 받기 위한 policy를 계속 찾는 학습이다

 

'IT > BigData, 머신러닝' 카테고리의 다른 글

학습 방법  (0) 2020.11.11
주식 공부 PER  (0) 2020.05.05
데이터 스케이일링 변환 방법  (0) 2020.04.19
데이터 전처리(preprocessing) 주요 포인트  (0) 2020.04.13
kafka java consumer 샘플 코드  (0) 2018.03.22