마이크로소프트에서 최근에 CPU만으로도 실행 가능한 가볍고 효율적인 LLM을 공개했습니다. 현재 테스트 해볼 수 있는 데모 페이지와 로컬로 구축하여 직접 실행해볼 수 있습니다.
잠깐 테스트 해봤는데, 영어는 꽤 그럴싸한 답변을 얻을 수 있었습니다. 한국어의 경우는 특정 문장이 반복되거나 전혀 다른 답변 등을 얻는 걸 보니 아직은 영어로만 원할하게 동작하는 거 같습니다.
데모 페이지
깃허브 페이지
아래 내용은 깃허브에 적힌 소개문을 일부를 번역한 내용입니다.
bitnet.cpp는 1비트 LLM(예: BitNet b1.58)을 위한 공식 추론 프레임워크입니다. CPU에서 1.58비트 모델을 빠르고 무손실로 추론할 수 있는 최적화된 커널 세트를 제공합니다(NPU 및 GPU 지원이 다음 단계로 예정되어 있습니다).
bitnet.cpp의 첫 번째 릴리스는 CPU에서 추론을 지원하는 것입니다. bitnet.cpp는 ARM CPU에서 1**.37**배에서 5.07배의 속도 향상을 달성하며, 더 큰 모델들은 더 큰 성능 향상을 경험합니다. 또한 에너지 소비를 55.4%에서 70.0%로 줄여 전체 효율성을 더욱 높입니다. x86 CPU에서 속도 향상은 2.37배에서 6.17배까지 다양하며 에너지 절감은 71.9%에서 82.2% 사이입니다. 또한, bitnet.cpp는 단일 CPU에서 100B BitNet b1.58 모델을 실행할 수 있어 사람이 읽을 수 있는 속도(초당 5-7개의 토큰)를 달성하여 로컬 장치에서 LLM을 실행할 수 있는 잠재력을 크게 향상시켰습니다.