파이실리카를 위한 멀티모달 기능 활성화 | Vivek Pradeep | Windows Blogs


요약

Microsoft의 최신 온디바이스 소형 언어 모델(SLM)인 Phi Silica에 이미지 이해 기능이 추가되어 멀티모달 기능이 구현되었습니다. 이를 통해 스냅드래곤 기반 Copilot+ PC 등에서 텍스트와 이미지를 함께 이해하고, 이미지 설명을 생성할 수 있습니다. 기존 Phi Silica와 Florence 비전 인코더를 재활용하고, 소형 프로젝터 모듈(8천만 파라미터)만 추가해, 디스크와 메모리 사용량을 최소화하면서 효율적으로 멀티모달 처리를 지원합니다. 이 기능은 예를 들어 스크린리더를 사용하는 시각장애인을 위한 상세 이미지 설명 등 접근성 기능을 강화합니다. 모든 처리와 학습은 NPU에서 효율적으로 실행되며, 짧은 설명에서부터 자세한 묘사까지 다양한 수준의 이미지 설명을 제공합니다. 평가 결과, 기존보다 더 정확하고 풍부한 내용을 생성하였습니다.

1개의 좋아요