DeepSeek의 신비를 풀다 | Prasanna Pendse

dimohy · 2월 3, 2025, 1:32오후

ChatGPT o1으로 요약함

DeepSeek는 2023년 5월에 설립된 중국의 AI 스타트업으로, 2025년 1월 10일에 OpenAI의 ChatGPT 수준의 추론 능력을 가진 LLM인 R1을 출시했습니다. 이 모델은 훈련 비용이 600만 달러 미만이라고 주장하여 큰 화제를 모았습니다. DeepSeek는 V3와 R1 두 가지 모델을 개발했으며, V3는 일반 언어 모델이고 R1은 V3-Base를 기반으로 한 추론 모델입니다.

DeepSeek의 모델은 제한된 하드웨어(H800 GPU)를 최대한 활용하기 위해 FP8 양자화, MLA(Multi-head Latent Attention), DualPipe 알고리즘 등 다양한 최적화 기술을 적용했습니다. 또한 강화 학습과 지도를 통한 미세 조정을 사용하여 모델의 성능을 향상시켰습니다.

그러나 DeepSeek의 보고된 성능 결과는 아직 독립적으로 재현되지 않았으며, 학습 데이터에 벤치마크 데이터가 포함되었는지에 대한 의문도 있습니다. 오픈 소스 커뮤니티는 Huggingface의 openR1 프로젝트를 통해 결과 재현을 시도하고 있습니다.

전체적으로 DeepSeek의 접근 방식은 제한된 자원에서 최적의 성능을 끌어내기 위한 혁신적인 방법을 보여주며, 향후 연구와 발전에 흥미로운 방향을 제시하고 있습니다.