6월17일 수업자료 입니다.
- 머신러닝 딥러닝 6장 비지도학습
🎯 비지도 학습(Clustering) 요약 정리
1. 비지도 학습 (Unsupervised Learning)
비지도 학습은 정답(Label) 없이 데이터의 패턴이나 구조를 찾는 머신러닝 기법입니다.
지도 학습과 차이
지도 학습
데이터 + 정답 제공
정답을 맞추는 것이 목표
비지도 학습
데이터만 제공
비슷한 데이터끼리 그룹을 찾는 것이 목표
예시
고객 유형 분류
상품 추천
이상 거래 탐지
뉴스 기사 그룹화
한 줄 요약
비지도 학습 = 정답 없이 데이터의 패턴과 그룹을 찾는 방법
2. 클러스터링 (Clustering)
비슷한 특징을 가진 데이터를 자동으로 묶는 작업입니다.
예시
쇼핑몰 고객 데이터
자주 구매하는 고객
가끔 구매하는 고객
거의 구매하지 않는 고객
↓
자동으로 그룹 생성
한 줄 요약
클러스터링 = 비슷한 데이터끼리 자동 그룹화
3. K-Means
가장 대표적인 클러스터링 알고리즘입니다.
K개의 중심점(Centroid)을 기준으로 데이터를 그룹화합니다.
예시
K = 3
↓
데이터를 3개의 그룹으로 분류
동작 과정
K개의 중심점 생성
가장 가까운 중심점에 데이터 배정
중심점 위치 재계산
다시 배정
반복 후 종료
특징
빠르고 구현이 쉬움
가장 널리 사용되는 군집화 알고리즘
K 값을 직접 지정해야 함
한 줄 요약
K-Means = K개의 중심점을 기준으로 그룹 분류
4. K 값 선택 문제
K-Means의 가장 큰 고민은
"그룹을 몇 개로 나눌 것인가?"
입니다.
예시
K=2 → 너무 단순
K=10 → 너무 세분화
따라서 적절한 K를 찾아야 합니다.
5. 엘보우 방법 (Elbow Method)
최적의 K 값을 찾는 대표적인 방법
K를 증가시키면서 Inertia(군집 내 거리 합)를 측정합니다.
Inertia
각 데이터와 중심점 사이 거리의 제곱합
값이 작을수록 좋음
하지만 K를 늘리면 항상 감소합니다.
그래서 감소 폭이 급격히 줄어드는 지점을 찾습니다.
그래프가 팔꿈치(Elbow)처럼 꺾이는 지점이 최적 K입니다.
6. 실루엣 점수 (Silhouette Score)
클러스터링 품질을 평가하는 지표
범위
1에 가까움 → 매우 좋음
0 근처 → 경계가 모호함
-1에 가까움 → 잘못 군집화됨
해석
예시
0.85 → 매우 우수
0.65 → 양호
0.30 → 애매함
음수 → 군집 품질 나쁨
특징
클러스터 간 분리가 잘 되었는지 평가
K 선택 기준으로 자주 사용
한 줄 요약
실루엣 점수 = 클러스터링 품질 평가 점수
7. PCA (주성분 분석)
Principal Component Analysis
고차원 데이터를 적은 차원으로 압축하는 기법
예시
원본 데이터
키
몸무게
나이
소득
소비금액
↓
PCA 적용
↓
2차원 또는 3차원으로 축소
목적
시각화
데이터 압축
노이즈 제거
학습 속도 향상
특징
정보 손실을 최소화하면서 차원을 줄입니다.
한 줄 요약
PCA = 중요한 정보는 유지하고 차원 축소
8. PCA를 사용하는 이유
머신러닝 데이터는 종종 수십~수백 개 특징을 가집니다.
예시
이미지 데이터
28 × 28 픽셀
↓
784개 특징
사람이 보기 어렵고 계산량도 많음
↓
PCA
↓
2~3개 축으로 압축
↓
시각화 가능
한 줄 요약
PCA = 복잡한 데이터를 단순하게 표현