CAFE

수업자료

6월17일 수업자료

작성자개발누리|작성시간26.06.17|조회수20 목록 댓글 0

6월17일 수업자료 입니다.

- 머신러닝 딥러닝 6장 비지도학습

🎯 비지도 학습(Clustering) 요약 정리

 

1. 비지도 학습 (Unsupervised Learning)

비지도 학습은 정답(Label) 없이 데이터의 패턴이나 구조를 찾는 머신러닝 기법입니다.

지도 학습과 차이

지도 학습

  • 데이터 + 정답 제공

  • 정답을 맞추는 것이 목표

비지도 학습

  • 데이터만 제공

  • 비슷한 데이터끼리 그룹을 찾는 것이 목표

예시

  • 고객 유형 분류

  • 상품 추천

  • 이상 거래 탐지

  • 뉴스 기사 그룹화

한 줄 요약

비지도 학습 = 정답 없이 데이터의 패턴과 그룹을 찾는 방법


2. 클러스터링 (Clustering)

비슷한 특징을 가진 데이터를 자동으로 묶는 작업입니다.

예시

쇼핑몰 고객 데이터

  • 자주 구매하는 고객

  • 가끔 구매하는 고객

  • 거의 구매하지 않는 고객

자동으로 그룹 생성

한 줄 요약

클러스터링 = 비슷한 데이터끼리 자동 그룹화


3. K-Means

가장 대표적인 클러스터링 알고리즘입니다.

K개의 중심점(Centroid)을 기준으로 데이터를 그룹화합니다.

예시

K = 3

데이터를 3개의 그룹으로 분류

동작 과정

  1. K개의 중심점 생성

  2. 가장 가까운 중심점에 데이터 배정

  3. 중심점 위치 재계산

  4. 다시 배정

  5. 반복 후 종료

특징

  • 빠르고 구현이 쉬움

  • 가장 널리 사용되는 군집화 알고리즘

  • K 값을 직접 지정해야 함

한 줄 요약

K-Means = K개의 중심점을 기준으로 그룹 분류


4. K 값 선택 문제

K-Means의 가장 큰 고민은

"그룹을 몇 개로 나눌 것인가?"

입니다.

예시

  • K=2 → 너무 단순

  • K=10 → 너무 세분화

따라서 적절한 K를 찾아야 합니다.


5. 엘보우 방법 (Elbow Method)

최적의 K 값을 찾는 대표적인 방법

K를 증가시키면서 Inertia(군집 내 거리 합)를 측정합니다.

Inertia

각 데이터와 중심점 사이 거리의 제곱합

값이 작을수록 좋음

하지만 K를 늘리면 항상 감소합니다.

그래서 감소 폭이 급격히 줄어드는 지점을 찾습니다.

그래프가 팔꿈치(Elbow)처럼 꺾이는 지점이 최적 K입니다.

 


6. 실루엣 점수 (Silhouette Score)

클러스터링 품질을 평가하는 지표

범위

  • 1에 가까움 → 매우 좋음

  • 0 근처 → 경계가 모호함

  • -1에 가까움 → 잘못 군집화됨

해석

예시

  • 0.85 → 매우 우수

  • 0.65 → 양호

  • 0.30 → 애매함

  • 음수 → 군집 품질 나쁨

특징

  • 클러스터 간 분리가 잘 되었는지 평가

  • K 선택 기준으로 자주 사용

한 줄 요약

실루엣 점수 = 클러스터링 품질 평가 점수


7. PCA (주성분 분석)

Principal Component Analysis

고차원 데이터를 적은 차원으로 압축하는 기법

예시

원본 데이터

  • 몸무게

  • 나이

  • 소득

  • 소비금액

PCA 적용

2차원 또는 3차원으로 축소

목적

  • 시각화

  • 데이터 압축

  • 노이즈 제거

  • 학습 속도 향상

특징

정보 손실을 최소화하면서 차원을 줄입니다.

한 줄 요약

PCA = 중요한 정보는 유지하고 차원 축소


8. PCA를 사용하는 이유

머신러닝 데이터는 종종 수십~수백 개 특징을 가집니다.

예시

이미지 데이터

  • 28 × 28 픽셀

784개 특징

사람이 보기 어렵고 계산량도 많음

PCA

2~3개 축으로 압축

시각화 가능

한 줄 요약

PCA = 복잡한 데이터를 단순하게 표현

 

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼