CAFE

수업자료

6월16일 수업자료

작성자개발누리|작성시간26.06.16|조회수15 목록 댓글 0

6월16일 수업자료 입니다.

- 머신러닝 딥러닝 5장 트리모델

 

🌳 트리기반 모델 및 모델 평가 요약

 

1. 결정 트리 (Decision Tree)

결정 트리는 질문을 반복하면서 데이터를 분류하거나 예측하는 알고리즘입니다.

예시

나이 > 30 ? ├─ 예 → 구매 └─ 아니오 → 미구매

사람의 의사결정 과정과 비슷한 구조를 가집니다.

장점

  • 이해하기 쉽다.

  • 시각화가 가능하다.

  • 결과 해석이 쉽다.

단점

  • 훈련 데이터를 과도하게 학습하기 쉽다.

  • 과적합(Overfitting)이 자주 발생한다.

한 줄 요약

결정 트리 = 질문을 반복하며 판단하는 모델


2. 랜덤 포레스트 (Random Forest)

랜덤 포레스트는 여러 개의 결정 트리를 만들어 다수결 또는 평균으로 결과를 결정하는 앙상블 모델입니다.

예시

트리 100개가 예측

  • 구매 : 80개

  • 미구매 : 20개

최종 결과 = 구매

장점

  • 과적합이 감소한다.

  • 안정적인 성능

  • 높은 정확도

  • 특징 중요도(Feature Importance) 확인 가능

단점

  • 개별 트리보다 해석이 어렵다.

  • 모델 크기가 커질 수 있다.

한 줄 요약

랜덤 포레스트 = 여러 결정 트리의 집단 지성


3. 그래디언트 부스팅 (Gradient Boosting)

이전 모델이 틀린 데이터를 다음 모델이 계속 보완하며 학습하는 방식입니다.

학습 흐름

  1. 첫 번째 트리 학습

  2. 틀린 부분 확인

  3. 두 번째 트리가 보완

  4. 다시 틀린 부분 보완

  5. 반복

장점

  • 매우 높은 성능

  • 캐글(Kaggle) 대회에서 자주 사용

  • 복잡한 패턴 학습 가능

단점

  • 학습 시간이 길다.

  • 하이퍼파라미터가 많다.

  • 튜닝이 어렵다.

한 줄 요약

그래디언트 부스팅 = 틀린 문제를 계속 보완하며 학습


4. 교차 검증 (Cross Validation)

데이터를 여러 번 나누어 평가하는 방법

일반적으로 K=5를 가장 많이 사용

5-Fold Cross Validation

  1. 데이터를 5등분

  2. 1개는 검증

  3. 4개는 학습

  4. 5번 반복

  5. 평균 성능 계산

예시

  • 1회 : 90%

  • 2회 : 88%

  • 3회 : 91%

  • 4회 : 89%

  • 5회 : 92%

평균

= 90%

장점

  • 데이터 활용 극대화

  • 성능 평가 신뢰도 증가

한 줄 요약

교차 검증 = 데이터를 번갈아 검증하여 성능을 더 정확하게 측정


5. 학습 곡선 (Learning Curve)

학습 데이터 양에 따른 성능 변화를 나타낸 그래프

확인 가능한 내용

  • 과적합 여부

  • 과소적합 여부

  • 데이터 추가 효과

과적합 패턴

  • Train 점수 높음

  • Validation 점수 낮음

과소적합 패턴

  • Train 점수 낮음

  • Validation 점수 낮음

한 줄 요약

학습 곡선 = 모델 상태를 진단하는 그래프


6. 과적합 (Overfitting)

훈련 데이터에만 지나치게 맞춘 상태

특징

  • Train 성능 매우 높음

  • Validation/Test 성능 낮음

해결 방법

  • 더 많은 데이터 확보

  • 모델 단순화

  • 특징 수 감소

  • 교차 검증 활용

한 줄 요약

과적합 = 암기만 잘하고 응용은 못하는 상태


7. 과소적합 (Underfitting)

데이터의 패턴을 충분히 학습하지 못한 상태

특징

  • Train 성능 낮음

  • Validation/Test 성능 낮음

해결 방법

  • 더 복잡한 모델 사용

  • 특징(Feature) 추가

  • 학습 충분히 수행

한 줄 요약

과소적합 = 공부가 부족한 상태


8. GridSearchCV

여러 하이퍼파라미터 조합을 자동으로 시험하여 최적의 값을 찾는 기능

예시

param_grid = { 'max_depth': [3, 5, 7], 'n_estimators': [100, 200] }

자동 탐색

  • max_depth=3, n_estimators=100

  • max_depth=3, n_estimators=200

  • max_depth=5, n_estimators=100

  • max_depth=5, n_estimators=200

  • max_depth=7, n_estimators=100

  • max_depth=7, n_estimators=200

가장 좋은 조합 선택

장점

  • 최적 파라미터 탐색 자동화

  • 성능 향상 가능

단점

  • 경우의 수가 많으면 시간이 오래 걸림

한 줄 요약

GridSearchCV = 최적의 하이퍼파라미터 자동 탐색기


 

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼