CAFE

수업자료

6월23일 수업자료

작성자개발누리|작성시간26.06.23|조회수13 목록 댓글 0

6월23일 수업자료 입니다.

머신러닝 딥러닝 9장 시계열 예측 및 자연어 처리

 

📝 자연어 처리(NLP)·시계열 예측 요약 정리

 

1. 자연어 처리 (NLP)

자연어 처리(Natural Language Processing)는 사람이 사용하는 언어(텍스트)를 컴퓨터가 이해하고 분석하도록 만드는 기술입니다.

활용 분야

  • 감성 분석

  • 챗봇

  • 번역

  • 문서 분류

  • 검색 엔진

한 줄 요약

NLP = 컴퓨터가 사람의 언어를 이해하는 기술


2. BoW (Bag of Words)

문장을 단어의 출현 횟수로 표현하는 방법

예시

문장

나는 사과를 좋아한다 나는 바나나를 좋아한다

단어 사전

단어개수

나는2
사과를1
바나나를1
좋아한다2

특징

  • 구현이 쉽다.

  • 단어 순서를 고려하지 않는다.

한 줄 요약

BoW = 단어를 단순히 개수로 표현


3. TF-IDF

중요한 단어에 더 높은 가중치를 부여하는 방법

문제점

BoW는

  • "은"

  • "는"

  • "이"

  • "가"

같은 흔한 단어도 중요하게 취급

TF-IDF 해결

문서마다 자주 나오지만

전체 문서에서는 드물게 등장하는 단어에 높은 점수 부여

예시

AI 머신러닝 딥러닝

높은 중요도

특징

  • 문서 특징을 잘 표현

  • 텍스트 분류에서 자주 사용

한 줄 요약

TF-IDF = 중요한 단어에 가중치 부여


4. Pipeline

전처리와 모델을 하나로 묶는 기능

예시

TF-IDF ↓ 로지스틱 회귀

하나의 모델처럼 사용

장점

  • 코드 단순화

  • 실수 감소

  • 재사용 용이

한 줄 요약

Pipeline = 전처리 + 모델을 하나로 연결


5. 감성 분석 (Sentiment Analysis)

텍스트의 감정을 분류하는 작업

예시

정말 재미있는 영화였다

긍정

시간이 아까웠다

부정

활용

  • 상품 리뷰 분석

  • SNS 분석

  • 고객 만족도 분석

한 줄 요약

감성 분석 = 긍정/부정 감정 분류


 

6. 시계열 데이터

시간 순서가 중요한 데이터

예시

  • 주가

  • 기온

  • 전력 사용량

  • 매출 데이터

특징

시간 순서가 깨지면 의미가 달라짐

한 줄 요약

시계열 = 시간 순서가 중요한 데이터


7. RNN

Recurrent Neural Network

순서가 있는 데이터를 처리하기 위한 신경망

기존 신경망

입력 → 출력

RNN

입력 → 상태(State) → 출력 ↑ 기억

이전 정보를 기억하면서 학습

활용

  • 번역

  • 음성 인식

  • 시계열 예측

한 줄 요약

RNN = 이전 정보를 기억하는 신경망


8. Hidden State

RNN이 과거 정보를 저장하는 공간

예시

오늘 ↓ 날씨가 ↓ 좋다

현재 단어를 처리할 때

이전 단어 정보도 함께 기억

한 줄 요약

Hidden State = 과거 정보를 저장하는 기억 공간


9. LSTM

Long Short-Term Memory

RNN의 단점을 개선한 모델

RNN 문제

문장이 길어질수록

이전 정보를 잊어버림

LSTM 해결

게이트(Gate)를 이용해

중요한 정보는 오래 기억

불필요한 정보는 제거

특징

  • 장기 의존성 해결

  • 시계열 예측에서 자주 사용

한 줄 요약

LSTM = 중요한 정보를 오래 기억하는 RNN


10. 슬라이딩 윈도우

과거 N개 데이터를 이용해 미래를 예측하는 방법

예시

데이터

1 2 3 4 5 6

윈도우 크기 = 3

학습 데이터 생성

[1,2,3] → 4 [2,3,4] → 5 [3,4,5] → 6 활용

  • 주가 예측

  • 수요 예측

  • 기온 예측

한 줄 요약

슬라이딩 윈도우 = 과거 N개로 미래 1개 예측


11. return_sequences

LSTM 출력 방식을 결정하는 옵션

True

모든 시점 출력

t1 t2 t3 t4

모두 출력

False

마지막 시점만 출력

t4

만 출력

사용 기준

  • 다음 LSTM 층 연결 → True

  • 최종 출력층 연결 → False

한 줄 요약

return_sequences=True → 모든 단계 출력

return_sequences=False → 마지막 단계만 출력


12. 시계열 데이터 분리

일반 머신러닝

shuffle 가능

시계열

shuffle 금지 이유

미래 데이터를 과거 학습에 사용하면 안 됨

올바른 방법

앞부분 → Train 뒷부분 → Test 한 줄 요약

시계열 데이터는 절대 섞지 않는다


 

다음검색
현재 게시글 추가 기능 열기

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼