6월23일 수업자료 입니다.
머신러닝 딥러닝 9장 시계열 예측 및 자연어 처리
📝 자연어 처리(NLP)·시계열 예측 요약 정리
1. 자연어 처리 (NLP)
자연어 처리(Natural Language Processing)는 사람이 사용하는 언어(텍스트)를 컴퓨터가 이해하고 분석하도록 만드는 기술입니다.
활용 분야
감성 분석
챗봇
번역
문서 분류
검색 엔진
한 줄 요약
NLP = 컴퓨터가 사람의 언어를 이해하는 기술
2. BoW (Bag of Words)
문장을 단어의 출현 횟수로 표현하는 방법
예시
문장
나는 사과를 좋아한다 나는 바나나를 좋아한다
단어 사전
단어개수
| 나는 | 2 |
| 사과를 | 1 |
| 바나나를 | 1 |
| 좋아한다 | 2 |
특징
구현이 쉽다.
단어 순서를 고려하지 않는다.
한 줄 요약
BoW = 단어를 단순히 개수로 표현
3. TF-IDF
중요한 단어에 더 높은 가중치를 부여하는 방법
문제점
BoW는
"은"
"는"
"이"
"가"
같은 흔한 단어도 중요하게 취급
TF-IDF 해결
문서마다 자주 나오지만
전체 문서에서는 드물게 등장하는 단어에 높은 점수 부여
예시
AI 머신러닝 딥러닝
↓
높은 중요도
특징
문서 특징을 잘 표현
텍스트 분류에서 자주 사용
한 줄 요약
TF-IDF = 중요한 단어에 가중치 부여
4. Pipeline
전처리와 모델을 하나로 묶는 기능
예시
TF-IDF ↓ 로지스틱 회귀
↓
하나의 모델처럼 사용
장점
코드 단순화
실수 감소
재사용 용이
한 줄 요약
Pipeline = 전처리 + 모델을 하나로 연결
5. 감성 분석 (Sentiment Analysis)
텍스트의 감정을 분류하는 작업
예시
정말 재미있는 영화였다
↓
긍정
시간이 아까웠다
↓
부정
활용
상품 리뷰 분석
SNS 분석
고객 만족도 분석
한 줄 요약
감성 분석 = 긍정/부정 감정 분류
6. 시계열 데이터
시간 순서가 중요한 데이터
예시
주가
기온
전력 사용량
매출 데이터
특징
시간 순서가 깨지면 의미가 달라짐
한 줄 요약
시계열 = 시간 순서가 중요한 데이터
7. RNN
Recurrent Neural Network
순서가 있는 데이터를 처리하기 위한 신경망
기존 신경망
입력 → 출력
RNN
입력 → 상태(State) → 출력 ↑ 기억
이전 정보를 기억하면서 학습
활용
번역
음성 인식
시계열 예측
한 줄 요약
RNN = 이전 정보를 기억하는 신경망
8. Hidden State
RNN이 과거 정보를 저장하는 공간
예시
오늘 ↓ 날씨가 ↓ 좋다
현재 단어를 처리할 때
이전 단어 정보도 함께 기억
한 줄 요약
Hidden State = 과거 정보를 저장하는 기억 공간
9. LSTM
Long Short-Term Memory
RNN의 단점을 개선한 모델
RNN 문제
문장이 길어질수록
이전 정보를 잊어버림
LSTM 해결
게이트(Gate)를 이용해
중요한 정보는 오래 기억
불필요한 정보는 제거
특징
장기 의존성 해결
시계열 예측에서 자주 사용
한 줄 요약
LSTM = 중요한 정보를 오래 기억하는 RNN
10. 슬라이딩 윈도우
과거 N개 데이터를 이용해 미래를 예측하는 방법
예시
데이터
1 2 3 4 5 6
윈도우 크기 = 3
학습 데이터 생성
[1,2,3] → 4 [2,3,4] → 5 [3,4,5] → 6 활용
주가 예측
수요 예측
기온 예측
한 줄 요약
슬라이딩 윈도우 = 과거 N개로 미래 1개 예측
11. return_sequences
LSTM 출력 방식을 결정하는 옵션
True
모든 시점 출력
t1 t2 t3 t4
모두 출력
False
마지막 시점만 출력
t4
만 출력
사용 기준
다음 LSTM 층 연결 → True
최종 출력층 연결 → False
한 줄 요약
return_sequences=True → 모든 단계 출력
return_sequences=False → 마지막 단계만 출력
12. 시계열 데이터 분리
일반 머신러닝
shuffle 가능
시계열
shuffle 금지 이유
미래 데이터를 과거 학습에 사용하면 안 됨
올바른 방법
앞부분 → Train 뒷부분 → Test 한 줄 요약
시계열 데이터는 절대 섞지 않는다