본문 바로가기

IT/BigData, 머신러닝

학습 방법 학습방법에는 크게 2종류가 있다. 인터넷을 활용한 오프라인/온라인 학습 데이터 중심으로 보는 사례기반/모델기반 학습 오프라인 학습 정해진 데이터를 학습하는 방법 새로운 데이터를 학습하기 위해서는 shutdown을 해야하는 단점있다 온라인 학습 batch 작업을 통해 계속 학습 데이터를 제공하는 방법이다 하지만 제공하는 데이터의 질이 안좋으면 결과가 나빠질수 있다는 단점이 있다 사례기반 예제를 모두 저장하여 사용하는 것이다 스팸에서 사용하는 단어들을 사례로 판단하여 학습하는 방법이다 모델기반 샘플 데이터 , 에제 데이터를 사용하여 예측에 중점 두는것을 말한다 더보기
머신러닝의 기초 지도학습(supervised learning) 은 훈련데이터를 통해 label을 얻는것을 얘기한다 분류 - 메일/문자 샘플링 예측변수(predictor variable, feature) 을 통한 타켓 값 예측 반복직인 훈련(회귀)를 통해 하기 떄문에 많은 데이터가 필요 지도학습에 가장 많이 사용하는 알고리즘 종류 K-최근접 이웃(k-nearest neighbors) 선형회귀 로지스틱 회귀 서포트 백터 결정 트리/랜던 포레스트 신경망 비지도 학습이란? unsupervised learning? 지도학습과 달리 훈려네이터에 레이블(분류?)가 없다. 예를 들어 어떤 데이터를 분석하는데 이 데이터를 사용하는 혹은 조회하는 사용자의 정보가 없을때.이러한 경우 머신러닝이 스스로 학습해서 사용자를 분류하는것을 얘기한다.. 더보기
주식 공부 PER 주식공부를 시작했다. 빅 데이터, 기계머신, 학습머신을 공부하기 위해 프로야구 예측 시스템을 만들었다. 하지만 서버운용을 하기에는 돈이 들고 해서 그냥 혼자 돌려서 예측이 얼마나 정확한지 보기로 했다. 광고를 달려고 해도 구글 애드센스에서 자료가 너무 없어서 안된다고 거절당했다.......... 그래서 주식을 공부하기로 했다. 어차피 앞으로 돈만 벌어 저축하는거에는 한계가 있기 때문에. 앞으로 재무제표 공부하는데 있어서 RIM 등 기업가치를 일일이 계산하기는 힘드니.. 간단히 시스템 구축해서 할려고 한다. 시자아아아악 더보기
데이터 스케이일링 변환 방법 1. Log변환을 통해 왜곡된 분포도를 정규분포로 변환 2. IQR(Inter Quantile Range)을 이용해서 분포 제거 - 박스 플랏 밖의 데이터(Box plot) 제거 3. oversampling, undersampling 을 통해 이상치 제거 3.1 방법론 1) SMOTE(Synthetic Minority OverSampling Technique) - k최근접을 이용한 방법 더보기
데이터 전처리(preprocessing) 주요 포인트 데이터 클린징 결손값 처리(null, nana 처리) 데이터 인코딩(문자 등등을 숫자로 변경) 레이블 인코딩 분류를 숫자로 변경하는것, 쉽다 하지만 숫자이기 떄문에 알고리즘에 영향을 미칠수가 있다. 이런것을 고려하여 구현해야한다. 원핫 인코딩(one-hot) 분류별로 데이터 테이블, 차원( 3 x 3 배열을 만들고 0, 1 로 채우는것) pandas의 get_dummies(datafram)으로 사용 pandas를 안한다면 LabelEncoder로 변환 -> 2차원 데이터로 변환 -> 원핫 인코딩으로 변환 데이터 스케일링(kg, cm 등의 작업) 이상치 제거 - 어처구니 없는 값 제거 Feature 선택, 추출 및 가공 더보기
kafka java consumer 샘플 코드 123456789101112131415161718192021222324252627282930313233343536373839404142434445464748495051525354555657585960package kafka.sw.example; import java.util.HashMap;import java.util.List;import java.util.Map;import java.util.Properties;import java.util.concurrent.ExecutorService;import java.util.concurrent.Executors;import kafka.consumer.Consumer;import kafka.consumer.ConsumerConfig;import kafka.co.. 더보기
kafka java producer 예제 코드 123456789101112131415161718192021222324252627282930313233343536373839404142package aaaa; import java.util.ArrayList;import java.util.List;import java.util.Properties; import kafka.javaapi.producer.Producer; import kafka.producer.KeyedMessage; import kafka.producer.ProducerConfig; public class ProducerExample { public static void main(String[] args) throws Exception { Properties props = new Prope.. 더보기
Hive - Create Table & csv file create table bike (col1 float, col2 string, col3 float, col4 string, col5 float, col6 float, col7 float, col8 float, col9 float)row format delimited fields terminated by ',' lines terminated by '\n'; 더보기

반응형