
Google presenta 'caché implícito' para reducir costos en el acceso a sus nuevos modelos de inteligencia artificial.
Google ha introducido una nueva función en su API Gemini, denominada caché implícita, que, según la compañía, facilitará a los desarrolladores externos el uso de sus modelos de inteligencia artificial a un costo reducido.
Google ha comenzado a implementar una nueva funcionalidad en su API Gemini que, según la empresa, permitirá a los desarrolladores de terceros utilizar modelos de inteligencia artificial más económicos. Esta característica, denominada “caching implícito”, promete ofrecer a los usuarios un ahorro del 75% en el manejo de "contextos repetitivos" que se envían a los modelos a través de la API Gemini. Se encuentra disponible para los modelos Gemini 2.5 Pro y 2.5 Flash, lo que seguramente es una buena noticia para los desarrolladores, dado el aumento de costos al utilizar modelos de vanguardia.
La funcionalidad de caching, una práctica común en la industria de la inteligencia artificial, reutiliza datos pre-computados o de acceso frecuente, lo que reduce las necesidades computacionales y los costos. Por ejemplo, se pueden guardar respuestas a preguntas recurrentes, eliminando así la necesidad de que el modelo genere de nuevo respuestas a las mismas solicitudes. Anteriormente, Google había ofrecido un caching de modelo que requería que los desarrolladores definieran sus prompts más utilizados, pero este proceso resultaba tedioso y propenso a errores, lo que llevó a que algunos desarrolladores se quejaran de facturas sorpresivamente elevadas.
Frente a las quejas recientes, el equipo de Gemini se disculpó y se comprometió a realizar cambios en la implementación del caching. A diferencia del cacheo explícito, que requiere intervención manual, el nuevo sistema de caching implícito está habilitado de manera automática para los modelos 2.5. Google detalló que, al enviar una solicitud a uno de estos modelos, si esta solicitud comparte un prefijo común con solicitudes anteriores, se tiene la posibilidad de acceder al sistema de caching. Además, se han reducido los mínimos de tokens necesarios para activar el caching implícito a 1,024 para 2.5 Flash y 2,048 para 2.5 Pro, lo que facilita el acceso a estos ahorros automáticos.
No obstante, la implementación del nuevo sistema aún presenta áreas de precaución. Google aconseja a los desarrolladores que mantengan el contexto repetitivo al principio de las solicitudes para aumentar las probabilidades de acceder al cache, sugiriendo que el contexto que varía debe ser añadido al final. A pesar de las promesas de ahorros automáticos, la empresa no ha proporcionado una verificación independiente de que este nuevo sistema de caching implícito logre las economías esperadas, por lo que se deberá esperar a las evaluaciones de los primeros usuarios.