CAFE

수업자료

6월15일 수업자료

작성자개발누리|작성시간26.06.15|조회수19 목록 댓글 0

6월15일 수업자료 입니다.

- 머신러닝 딥러닝 4장 지도학습 - 분류모델

 

 

📚 머신러닝 분류(Classification)  요약 정리

 

1. 분류(Classification)

분류란 데이터를 미리 정해진 범주(Class) 중 하나로 예측하는 머신러닝 기법입니다.

예시:

  • 이메일 → 스팸 / 정상

  • 종양 → 양성 / 악성

  • 꽃 → Setosa / Versicolor / Virginica


2. 대표 분류 모델

 

KNN (K-최근접 이웃)

주변 K개의 가장 가까운 데이터를 확인하여 다수결로 분류하는 알고리즘입니다.

  • K=3 → 주변 3개 데이터 참고

  • K=5 → 주변 5개 데이터 참고

특징

  • 이해하기 쉽다.

  • 학습 과정이 거의 없다.

  • 데이터가 많아질수록 예측 속도가 느려진다.


로지스틱 회귀 (Logistic Regression)

데이터를 직선(또는 평면) 경계로 구분하는 분류 알고리즘입니다.

특징

  • 계산이 빠르다.

  • 결과 해석이 쉽다.

  • 비교적 단순한 문제에 적합하다.


SVM (Support Vector Machine)

두 그룹 사이의 간격(Margin)을 최대화하여 분류하는 알고리즘입니다.

특징

  • 높은 분류 성능을 보이는 경우가 많다.

  • 데이터가 적어도 좋은 성능을 낼 수 있다.

  • 계산량이 상대적으로 많다.


3. 과적합과 과소적합

 

과적합(Overfitting)

훈련 데이터를 지나치게 학습하여 새로운 데이터에 대한 성능이 떨어지는 상태

예시:

  • 모의고사 문제를 외웠지만 실제 시험은 못 푸는 경우

과소적합(Underfitting)

데이터의 패턴을 충분히 학습하지 못한 상태

예시:

  • 공부를 거의 하지 않아 모의고사와 실제 시험 모두 성적이 낮은 경우


4. 데이터 분할

 

Train Data

모델 학습에 사용하는 데이터

 

Test Data

모델 성능 평가에 사용하는 데이터

일반적으로

  • Train : 80%

  • Test : 20%

비율로 분할한다.


Stratify

데이터 분할 시 각 클래스의 비율을 유지하는 기능

예시

전체 데이터

  • 합격 70%

  • 불합격 30%

Train/Test 데이터도 동일한 비율로 유지


5. 혼동 행렬(Confusion Matrix)

분류 모델의 예측 결과를 표 형태로 정리한 것

실제값 \ 예측값양성(+)음성(-)

양성(+)TPFN
음성(-)FPTN

용어 설명

  • TP : 실제 양성을 양성으로 예측

  • TN : 실제 음성을 음성으로 예측

  • FP : 실제 음성을 양성으로 예측

  • FN : 실제 양성을 음성으로 예측


6. 성능 평가 지표

 

정확도 (Accuracy)

전체 데이터 중 맞게 예측한 비율

Accuracy = (TP + TN) / (TP + TN + FP + FN)

 


정밀도 (Precision)

양성이라고 예측한 것 중 실제 양성의 비율

Precision = TP / (TP + FP)

예시:
스팸메일 분류

 


재현율 (Recall)

실제 양성 중 모델이 찾아낸 비율

Recall = TP / (TP + FN)

예시:
암 진단, 사기 탐지

 


F1 Score

정밀도와 재현율의 조화평균

F1 = 2 × (Precision × Recall) / (Precision + Recall)

클래스 불균형 데이터에서 자주 사용된다.

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼