머신러닝 : 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법의 통칭

 

파이썬을 이용한 머신러닝을 하기 위해 필요한 지식
 - 패키지 - sklearn, numpy, pandas, matplotlob, seaborn
 - 성능 평가 - 정확도, 오차행렬, 정밀도, 재현율, ROC AUC, F1 score

 

머신러닝의 분류

- 지도 학습 (Supervised Learning)

- 비지도 학습 (Un-supervised Learning)

- 강화 학습 (Reinforcement Learning)

지도 학습

  : 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식

 

- 분류 (Classification)

  : 모델을 데이터(결정값, 결과값)로 학습시켜서 새로운 데이터를 모델에게 주었을 때 미지의 결과값을 예측하는 것

분류에 사용되는 머신러닝 알고리즘
-  Naive Bayes : 베이즈 통계와 생성 모델 기반
- Logistic Regression : 독립변수와 종속변수의 선형 관계성 기반
- Decision Tree : 데이터의 균일도에 따른 규칙 기반
- Support Vector Machine 
- Nearest Neighbor 
- Neural Network : 심층 연결 기반
- Ensemble : 서로 다르거나 같은 머신러닝 알고리즘 결합

 

- 회귀 (Regression)

  회귀 분석 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법

  : 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법

    (독립변수 : 결정값(결과에 영향을 주는 값),  종속변수 : 결과값)

회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 유형으로 나뉨
- 독립 변수가 한 개일 경우 단일 회귀
- 독립 변수가 여러개일 경우 다중 회귀
- 회귀계수의 결합이 선형일 경우 선형 회귀
- 회귀계수의 결합이 비선형일 경우 비선형 회귀
분류와 회귀의 가장 큰 차이는 예측값
  분류의 경우 예측값이 카테고리와 같은 이산값
  회귀의 경우 예측값이 연속형 숫자값

 

차원 축소 (Dimension Reduction)

- PCA
- LDA
- SVD
- NMF

 

군집화 (Clustering)

: 주어진 데이터를 유사한 데이터들의 그룹으로 나누는 것

- K-평균
- GMM
- DBSCAN

+ Recent posts