DeepSeek R1에서 Phi-4의 정제: SFT 및 GRPO | xinyuwei

https://techcommunity.microsoft.com/blog/machinelearningblog/distillation-of-phi-4-on-deepseek-r1-sft-and-grpo/4381697

본문의 코드가 Python으로 전개하지만 Python은 AI를 이용하기 위한 일반 언어이므로 프로그래밍 언어 > Python 카테고리로 분류하지 않았습니다.


이 글은 마이크로소프트의 Phi-4 모델을 DeepSeek R1 데이터세트로 파인튜닝하여, 모델이 태그 등을 활용해 사고 과정을 담아내도록 학습하는 방법을 소개합니다. LoRA 기법을 활용해 매개변수를 효율적으로 조정하고, GRPO 기법으로 형식화된 출력과 추가 보상(“aha” 예정어 등)을 통해 모델의 응답 품질을 높입니다. 결과적으로 더 작은 모델도 추론 단계에서 논리를 포함한 답변을 생성할 수 있게 됩니다.

1개의 좋아요