Daniel Bourke, een machine learning engineer, bouwde met Google Gemini een systeem dat alle items in huis kan bijhouden. Het systeem gebruikt smartphonevideo's, verwerkt ze via de Gemini API en creëert een gestructureerde database. Ideaal voor een persoonlijke inventaris of om een gepersonaliseerde verzekeringsofferte te krijgen, en dit alles voor minder dan 10 cent!
Demonstratie
Use Case:
Verhuizen en te veel spullen hebben. De vraag van de verzekeringsmaatschappij: Hoeveel verzekeringsdekking is nodig? Schatten is lastig, te hoog is te duur, te laag te risicovol. De oplossing: een video-opname van je huis maken, belangrijke items filmen en Gemini de rest laten doen.
Gemini extraheert informatie zoals namen en geschatte waarde van de items. Via een webinterface controleer je de gegevens en kun je deze doorsturen naar je verzekeraar.
Hoe werkt het?
Gemini's video features maken het mogelijk dankzij drie belangrijke functies:
Videoverwerking: Gemini verwerkt audio, beeld en tekst in videoframes.
Lange contextvensters: Gemini kan grote hoeveelheden inputdata verwerken (miljoenen tokens). Dit is cruciaal voor video's, die veel meer tokens vereisen dan tekst. Een 10-minuten video van 720p staat gelijk aan 165.000 tokens, terwijl 4000 woorden tekst slechts 11.000 tokens zijn.
Context caching: De video wordt drie keer verwerkt voor accurate resultaten. Context caching zorgt ervoor dat de video maar één keer volledig verwerkt hoeft te worden, wat de kosten aanzienlijk verlaagt. Dit maakt het proces vier keer goedkoper en levert nauwkeurigere resultaten op.
Het proces in drie stappen:
Initiële extractie: Gemini analyseert de video en extraheert informatie over de items. Vervolgens wordt deze informatie gecontroleerd.
Uitbreiding: Gemini krijgt een tweede prompt om de initiële extractie uit te breiden en te verfijnen. Ook hier volgt een controle.
Finale check: De gecombineerde output van stap 1 en 2 wordt gecontroleerd.
Zelf proberen?
Comments