1. Generative model(GM, 생성형 모델)
VLM이 영상을 입력으로 받아서 텍스트로 설명해주는 모델이라면 생성형 모델은 반대로 텍스트를 입력으로 받아서 영상, 비디오, 오디오 등을 생성해주는 모델임, 예) 피카소 화풍으로 개사진 그려줘 -> 개 영상 생성
특히, VLA모델에서 VLM이 이해한 환경정보를 로봇의 제어명령으로 생성해주는 Action decoder에서 사용됨
2. 종류
GAN
VAE
Diffusion Model(DM) -> Stochastic differential equation(확률미분방정식), Score Matching(SM) 훈련 알고리즘 사용
Continuous Normalizing Flow Model(CNF) -> ordinary differential equation(상미분방정식), Flow Matching(FM) 훈련알고리즘 사용
최근추세는 DM와 CNF 모델을 FM 으로 훈련하는 것임 -> 훈련,추론 속도빠름
로봇제어용 VLA모델에서 Action decoder로 DF모델에서 CNF+FM으로 바뀌고 있는 추세
예를 들어 기존 VLM + CNF + FM 개발을 연구주제로 추천
3. 논문 및 교재
CNF : Neural Ordinary Differential Equations, 2018
https://arxiv.org/abs/1806.07366
FFJORD: Free-form Continuous Dynamics for Scalable Reversible Generative Models, 2019
https://arxiv.org/abs/1810.01367
Flow Matching for Generative Modeling, 2022, Meta AI
https://arxiv.org/abs/2210.02747
The Principles of Diffusion Models, 2026
https://arxiv.org/abs/2510.21890
Diffusion Models: A Comprehensive Survey of Methods and Applications, 2022
https://arxiv.org/abs/2209.00796
Flow Matching Guide and Code, 2024, Meta
https://arxiv.org/abs/2412.06264
Flow Matching 이론설명과 Meta에서 개발한 flow_matching 라이브러리 이용한 예제코드까지 제공됨
An Introduction to Flow Matching and Diffusion Models, 2026, MIT 강의노트
https://diffusion.csail.mit.edu/2026/docs/lecture_notes.pdf
4. 라이브러리
Diffusion model -> 허깅페이스 라이브러리 Diffusers 사용하면됨
TorchCFM -> flow-matching 라이브러리, 로봇, 과학분야 적합
flow_matching ->flow-matching 라이브러리 , 메타에서 개발 LLM개발에 적합
5. 유튜브 강의자료