인공지능로봇연구실

작성자김위제|작성시간26.06.22|조회수20 목록 댓글 0

예제 git

https://github.com/nkasmanoff/moondream-finetuning

GitHub - nkasmanoff/moondream-finetuning: SFT and RL fine-tuning for object detection

SFT and RL fine-tuning for object detection. Contribute to nkasmanoff/moondream-finetuning development by creating an account on GitHub.

github.com

LORA fine-tuning이 적용대상

code를 보면

model의 text decoder 부분이 LoRA가 적용되는 대상인것 같다.

텍스트 블럭 마다 안에 있는 qkv,proj,fc1,fc2를 LoRA레이어로 교체하는것을 알수있다

원본 layer를 freeze

파인튜닝 데이터셋

각 구역을 A/B/C로 나누어 데이터셋을 구축

20장씩 찍고 증강을 적용해서 20 + 80 = 100 장

각 구역 별로 각각 100장씩 학습

lora-rank : 32 / rola-alpa: 64

그래프

val_accuracy	eval‎_interval마다 검증셋에서 정답을 정확히 맞춘 비율
lr	학습률 스케줄 값
initial_val_accuracy	학습 시작 전, 베이스 모델 상태에서의 검증 정확도
initial_test_accuracy	학습 시작 전, 베이스 모델 상태에서의 테스트셋 정확도
epoch	현재 몇 번째 epoch을 도는 중인지
loss/train	매 step의 학습 loss(answer 토큰에 대한 cross-entropy)