6월15일 수업자료 입니다.
- 머신러닝 딥러닝 4장 지도학습 - 분류모델
📚 머신러닝 분류(Classification) 요약 정리
1. 분류(Classification)
분류란 데이터를 미리 정해진 범주(Class) 중 하나로 예측하는 머신러닝 기법입니다.
예시:
이메일 → 스팸 / 정상
종양 → 양성 / 악성
꽃 → Setosa / Versicolor / Virginica
2. 대표 분류 모델
KNN (K-최근접 이웃)
주변 K개의 가장 가까운 데이터를 확인하여 다수결로 분류하는 알고리즘입니다.
K=3 → 주변 3개 데이터 참고
K=5 → 주변 5개 데이터 참고
특징
이해하기 쉽다.
학습 과정이 거의 없다.
데이터가 많아질수록 예측 속도가 느려진다.
로지스틱 회귀 (Logistic Regression)
데이터를 직선(또는 평면) 경계로 구분하는 분류 알고리즘입니다.
특징
계산이 빠르다.
결과 해석이 쉽다.
비교적 단순한 문제에 적합하다.
SVM (Support Vector Machine)
두 그룹 사이의 간격(Margin)을 최대화하여 분류하는 알고리즘입니다.
특징
높은 분류 성능을 보이는 경우가 많다.
데이터가 적어도 좋은 성능을 낼 수 있다.
계산량이 상대적으로 많다.
3. 과적합과 과소적합
과적합(Overfitting)
훈련 데이터를 지나치게 학습하여 새로운 데이터에 대한 성능이 떨어지는 상태
예시:
모의고사 문제를 외웠지만 실제 시험은 못 푸는 경우
과소적합(Underfitting)
데이터의 패턴을 충분히 학습하지 못한 상태
예시:
공부를 거의 하지 않아 모의고사와 실제 시험 모두 성적이 낮은 경우
4. 데이터 분할
Train Data
모델 학습에 사용하는 데이터
Test Data
모델 성능 평가에 사용하는 데이터
일반적으로
Train : 80%
Test : 20%
비율로 분할한다.
Stratify
데이터 분할 시 각 클래스의 비율을 유지하는 기능
예시
전체 데이터
합격 70%
불합격 30%
Train/Test 데이터도 동일한 비율로 유지
5. 혼동 행렬(Confusion Matrix)
분류 모델의 예측 결과를 표 형태로 정리한 것
실제값 \ 예측값양성(+)음성(-)
| 양성(+) | TP | FN |
| 음성(-) | FP | TN |
용어 설명
TP : 실제 양성을 양성으로 예측
TN : 실제 음성을 음성으로 예측
FP : 실제 음성을 양성으로 예측
FN : 실제 양성을 음성으로 예측
6. 성능 평가 지표
정확도 (Accuracy)
전체 데이터 중 맞게 예측한 비율
Accuracy = (TP + TN) / (TP + TN + FP + FN)
정밀도 (Precision)
양성이라고 예측한 것 중 실제 양성의 비율
Precision = TP / (TP + FP)
예시:
스팸메일 분류
재현율 (Recall)
실제 양성 중 모델이 찾아낸 비율
Recall = TP / (TP + FN)
예시:
암 진단, 사기 탐지
F1 Score
정밀도와 재현율의 조화평균
F1 = 2 × (Precision × Recall) / (Precision + Recall)
클래스 불균형 데이터에서 자주 사용된다.