머신러닝 : 데이터를 기반으로 패턴을 학습하고 결과를 예측하는 알고리즘 기법의 통칭
파이썬을 이용한 머신러닝을 하기 위해 필요한 지식
- 패키지 - sklearn, numpy, pandas, matplotlob, seaborn
- 성능 평가 - 정확도, 오차행렬, 정밀도, 재현율, ROC AUC, F1 score
머신러닝의 분류
- 지도 학습 (Supervised Learning)
- 비지도 학습 (Un-supervised Learning)
- 강화 학습 (Reinforcement Learning)
지도 학습
: 명시적인 정답이 있는 데이터가 주어진 상태에서 학습하는 머신러닝 방식
- 분류 (Classification)
: 모델을 데이터(결정값, 결과값)로 학습시켜서 새로운 데이터를 모델에게 주었을 때 미지의 결과값을 예측하는 것
분류에 사용되는 머신러닝 알고리즘
- Naive Bayes : 베이즈 통계와 생성 모델 기반
- Logistic Regression : 독립변수와 종속변수의 선형 관계성 기반
- Decision Tree : 데이터의 균일도에 따른 규칙 기반
- Support Vector Machine
- Nearest Neighbor
- Neural Network : 심층 연결 기반
- Ensemble : 서로 다르거나 같은 머신러닝 알고리즘 결합
- 회귀 (Regression)
회귀 분석 : 데이터 값이 평균과 같은 일정한 값으로 돌아가려는 경향을 이용한 통계학 기법
: 여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법
(독립변수 : 결정값(결과에 영향을 주는 값), 종속변수 : 결과값)
회귀 계수의 선형/비선형 여부, 독립변수의 개수, 종속변수의 개수에 따라 여러 유형으로 나뉨
- 독립 변수가 한 개일 경우 단일 회귀
- 독립 변수가 여러개일 경우 다중 회귀
- 회귀계수의 결합이 선형일 경우 선형 회귀
- 회귀계수의 결합이 비선형일 경우 비선형 회귀
분류와 회귀의 가장 큰 차이는 예측값
분류의 경우 예측값이 카테고리와 같은 이산값
회귀의 경우 예측값이 연속형 숫자값
차원 축소 (Dimension Reduction)
- PCA
- LDA
- SVD
- NMF
군집화 (Clustering)
: 주어진 데이터를 유사한 데이터들의 그룹으로 나누는 것
- K-평균
- GMM
- DBSCAN