Google maakt AI-modellen goedkoper met Automatische Caching
- Mark Baars
- 2 days ago
- 2 min read
Google heeft een nieuwe functie gelanceerd in zijn Gemini API: “implicit caching”. Deze innovatie moet het voor ontwikkelaars goedkoper maken om de nieuwste AI-modellen van Google te gebruiken, zoals Gemini 2.5 Pro en 2.5 Flash. Volgens Google kan deze automatische caching tot wel 75% kostenbesparing opleveren bij herhaald gebruik van dezelfde context in API-aanvragen.

Caching is een bekende techniek in de AI-wereld. Hierbij worden veelgebruikte of eerder berekende antwoorden opgeslagen, zodat het model niet telkens opnieuw dezelfde berekeningen hoeft te doen. Tot nu toe bood Google alleen “expliciete caching” aan, waarbij ontwikkelaars zelf moesten aangeven welke prompts het vaakst gebruikt werden. Dit was echter omslachtig en leidde soms tot onverwacht hoge kosten, wat recent tot veel klachten leidde.
Met de nieuwe “implicit caching” wordt dit proces volledig geautomatiseerd. Ontwikkelaars hoeven niets meer in te stellen: als een aanvraag aan het Gemini-model eenzelfde begin (prefix) heeft als een eerdere aanvraag, wordt automatisch gekeken of er een cache-hit is. Is dat het geval, dan wordt de kostenbesparing direct doorberekend aan de gebruiker.
De drempel om van deze besparing te profiteren is laag: voor Gemini 2.5 Flash geldt een minimum van 1.024 tokens (ongeveer 750 woorden), voor 2.5 Pro is dat 2.048 tokens. Google raadt ontwikkelaars aan om herhalende context aan het begin van hun prompts te plaatsen, zodat de kans op een cache-hit groter wordt.
Let wel: Google heeft nog geen onafhankelijke verificatie gegeven dat de beloofde besparingen altijd gehaald worden. Ontwikkelaars doen er dus goed aan om hun gebruik en kosten goed in de gaten te houden, zeker in de beginfase van deze nieuwe functie.
Kortom, met implicit caching zet Google een stap richting efficiënter en betaalbaarder gebruik van geavanceerde AI-modellen, zonder dat ontwikkelaars daar extra werk aan hebben.
Comments