이제 Gemini 2.5 모델에서 암시적 캐싱 지원 | Logan Kilpatrick | Google

dimohy · 5월 10, 2025, 1:15오후

요약

구글이 Gemini 2.5 모델 API에 ‘암시적 캐싱(Implicit Caching)’ 기능을 새롭게 선보였습니다. 기존 명시적 캐싱이 반복 컨텍스트에 대해 75%의 비용 절감 효과를 제공했던 것에 더해, 이제는 개발자가 별도의 캐시를 만들 필요 없이 자동으로 비용 절감 혜택을 받을 수 있게 되었습니다.

새로운 요청이 이전 요청과 동일한 접두사(prefix)를 공유할 경우, 자동으로 캐시가 적용되어 75%의 토큰 할인이 제공됩니다. 캐시 적중률을 높이려면 프롬프트의 시작 부분은 동일하게 유지하고, 사용자 질문 등 변경되는 내용은 끝부분에 추가하는 것이 좋습니다.

또한, 캐시 적용 대상을 늘리기 위해 2.5 Flash 모델은 최소 요청 크기를 1024 토큰, 2.5 Pro 모델은 2048 토큰으로 조정했습니다. 기존의 명시적 캐싱 기능도 계속 지원되며, 사용량 메타데이터에서 'cached_content_token_count’를 통해 캐시된 토큰 수를 확인할 수 있습니다. 구글은 이번 업데이트를 통해 개발자들에게 더 큰 비용 효율성을 제공할 것으로 기대하고 있습니다.