CAFE

강의자료

[GM] Generative model

작성자Sungryul Lee|작성시간26.06.15|조회수13 목록 댓글 0

1. Generative model(GM, 생성형 모델)

VLM이 영상을 입력으로 받아서 텍스트로 설명해주는 모델이라면 생성형 모델은 반대로 텍스트를 입력으로 받아서 영상, 비디오, 오디오 등을 생성해주는 모델임, 예) 피카소 화풍으로 개사진 그려줘 -> 개 영상 생성

특히, VLA모델에서 VLM이 이해한 환경정보를 로봇의 제어명령으로 생성해주는 Action decoder에서 사용됨

 

2. 종류

GAN

VAE

Diffusion Model(DM) -> Stochastic differential equation(확률미분방정식), Score Matching(SM) 훈련 알고리즘 사용

Continuous Normalizing Flow Model(CNF) -> ordinary differential equation(상미분방정식), Flow Matching(FM) 훈련알고리즘 사용

최근추세는 DM와 CNF 모델을 FM 으로 훈련하는 것임 -> 훈련,추론 속도빠름

로봇제어용 VLA모델에서 Action decoder로 DF모델에서 CNF+FM으로 바뀌고 있는 추세

예를 들어 기존 VLM + CNF + FM 개발을 연구주제로 추천

 

3. 논문 및 교재

CNF : Neural Ordinary Differential Equations, 2018

https://arxiv.org/abs/1806.07366

 

FFJORD: Free-form Continuous Dynamics for Scalable Reversible Generative Models, 2019

https://arxiv.org/abs/1810.01367

 

Flow Matching for Generative Modeling, 2022, Meta AI

https://arxiv.org/abs/2210.02747

 

The Principles of Diffusion Models, 2026

https://arxiv.org/abs/2510.21890

 

Diffusion Models: A Comprehensive Survey of Methods and Applications, 2022

https://arxiv.org/abs/2209.00796

 

Flow Matching Guide and Code, 2024, Meta

https://arxiv.org/abs/2412.06264

Flow Matching 이론설명과 Meta에서 개발한  flow_matching 라이브러리 이용한 예제코드까지 제공됨

 

 An Introduction to Flow Matching and Diffusion Models, 2026, MIT 강의노트

https://diffusion.csail.mit.edu/2026/docs/lecture_notes.pdf  

 

4. 라이브러리

Diffusion model -> 허깅페이스 라이브러리 Diffusers 사용하면됨

TorchCFM -> flow-matching 라이브러리, 로봇, 과학분야 적합

flow_matching ->flow-matching 라이브러리 , 메타에서 개발 LLM개발에 적합

 

5. 유튜브 강의자료

https://dmqa.korea.ac.kr/activity/seminar/486

다음검색
현재 게시글 추가 기능 열기
  • 북마크
  • 신고 센터로 신고

댓글

댓글 리스트
맨위로

카페 검색

카페 검색어 입력폼