NVIDIA 연구원들이 LLaMA-Mesh라는 새로운 접근 방식을 개발했어요. 이 접근 방식은 큰 언어 모델(LLM)을 확장하여 3D 메시 데이터를 생성하고 해석하는 통합된 텍스트 기반 프레임워크에요. LLaMA-Mesh는 3D 메시 데이터를 평문 텍스트로 토큰화하여 공간적 정보와 텍스트 정보를 원활하게 통합합니다.
LLaMA-Mesh의 핵심 포인트:
- 3D 메시를 평문 텍스트로 토큰화: 기존 LLM이 확장된 어휘 없이 이 정보를 처리할 수 있음
- 지도 학습 튜닝(SFT) 데이터셋: LLaMA-Mesh를 훈련시켜 텍스트 설명에서 3D 메시를 생성하고, 텍스트와 3D 메시 출력을 결합하며, 3D 메시 구조를 해석할 수 있게 함
- 특화된 모델과 유사한 품질: LLaMA-Mesh는 텍스트 생성 능력을 유지하면서 고품질의 3D 메시를 생성함
- 실용적인 응용 분야: 디자인, 건축 등 공간적 추론이 필요한 분야에서 유용함
- 커뮤니티 피드백: 예측 가능한 명령 언어가 필요하다는 등 일부 개선 사항이 지적되었음
- Hugging Face에서 데모 이용 가능: 4096 토큰 제한이 있는 기능을 시연합니다. 전체 모델은 최대 8k 토큰을 지원하며 로컬에서 실행할 수 있음
이 작업은 자연어 처리와 공간 데이터 이해 간의 격차를 줄이는 중요한 단계임을 강조해요. 연구자들은 GitHub에서 LLaMA-Mesh와 도구 및 문서를 제공하고 있어요.
데모: