6월16일 수업자료 입니다.
- 머신러닝 딥러닝 5장 트리모델
🌳 트리기반 모델 및 모델 평가 요약
1. 결정 트리 (Decision Tree)
결정 트리는 질문을 반복하면서 데이터를 분류하거나 예측하는 알고리즘입니다.
예시
나이 > 30 ? ├─ 예 → 구매 └─ 아니오 → 미구매
사람의 의사결정 과정과 비슷한 구조를 가집니다.
장점
이해하기 쉽다.
시각화가 가능하다.
결과 해석이 쉽다.
단점
훈련 데이터를 과도하게 학습하기 쉽다.
과적합(Overfitting)이 자주 발생한다.
한 줄 요약
결정 트리 = 질문을 반복하며 판단하는 모델
2. 랜덤 포레스트 (Random Forest)
랜덤 포레스트는 여러 개의 결정 트리를 만들어 다수결 또는 평균으로 결과를 결정하는 앙상블 모델입니다.
예시
트리 100개가 예측
구매 : 80개
미구매 : 20개
↓
최종 결과 = 구매
장점
과적합이 감소한다.
안정적인 성능
높은 정확도
특징 중요도(Feature Importance) 확인 가능
단점
개별 트리보다 해석이 어렵다.
모델 크기가 커질 수 있다.
한 줄 요약
랜덤 포레스트 = 여러 결정 트리의 집단 지성
3. 그래디언트 부스팅 (Gradient Boosting)
이전 모델이 틀린 데이터를 다음 모델이 계속 보완하며 학습하는 방식입니다.
학습 흐름
첫 번째 트리 학습
틀린 부분 확인
두 번째 트리가 보완
다시 틀린 부분 보완
반복
장점
매우 높은 성능
캐글(Kaggle) 대회에서 자주 사용
복잡한 패턴 학습 가능
단점
학습 시간이 길다.
하이퍼파라미터가 많다.
튜닝이 어렵다.
한 줄 요약
그래디언트 부스팅 = 틀린 문제를 계속 보완하며 학습
4. 교차 검증 (Cross Validation)
데이터를 여러 번 나누어 평가하는 방법
일반적으로 K=5를 가장 많이 사용
5-Fold Cross Validation
데이터를 5등분
1개는 검증
4개는 학습
5번 반복
평균 성능 계산
예시
1회 : 90%
2회 : 88%
3회 : 91%
4회 : 89%
5회 : 92%
평균
= 90%
장점
데이터 활용 극대화
성능 평가 신뢰도 증가
한 줄 요약
교차 검증 = 데이터를 번갈아 검증하여 성능을 더 정확하게 측정
5. 학습 곡선 (Learning Curve)
학습 데이터 양에 따른 성능 변화를 나타낸 그래프
확인 가능한 내용
과적합 여부
과소적합 여부
데이터 추가 효과
과적합 패턴
Train 점수 높음
Validation 점수 낮음
과소적합 패턴
Train 점수 낮음
Validation 점수 낮음
한 줄 요약
학습 곡선 = 모델 상태를 진단하는 그래프
6. 과적합 (Overfitting)
훈련 데이터에만 지나치게 맞춘 상태
특징
Train 성능 매우 높음
Validation/Test 성능 낮음
해결 방법
더 많은 데이터 확보
모델 단순화
특징 수 감소
교차 검증 활용
한 줄 요약
과적합 = 암기만 잘하고 응용은 못하는 상태
7. 과소적합 (Underfitting)
데이터의 패턴을 충분히 학습하지 못한 상태
특징
Train 성능 낮음
Validation/Test 성능 낮음
해결 방법
더 복잡한 모델 사용
특징(Feature) 추가
학습 충분히 수행
한 줄 요약
과소적합 = 공부가 부족한 상태
8. GridSearchCV
여러 하이퍼파라미터 조합을 자동으로 시험하여 최적의 값을 찾는 기능
예시
param_grid = { 'max_depth': [3, 5, 7], 'n_estimators': [100, 200] }
자동 탐색
max_depth=3, n_estimators=100
max_depth=3, n_estimators=200
max_depth=5, n_estimators=100
max_depth=5, n_estimators=200
max_depth=7, n_estimators=100
max_depth=7, n_estimators=200
↓
가장 좋은 조합 선택
장점
최적 파라미터 탐색 자동화
성능 향상 가능
단점
경우의 수가 많으면 시간이 오래 걸림
한 줄 요약
GridSearchCV = 최적의 하이퍼파라미터 자동 탐색기