Google gir Gemini «agentisk syn» — AI kan nå undersøke bilder som en detektiv
Google har gitt Gemini 3 Flash evnen til å «se» på en helt ny måte: I stedet for å analysere et bilde i ett pass, undersøker AI-en nå bilder som en agent — med planlegging, handling og observasjon.
Tenk → Handle → Observer
Den nye funksjonen heter «agentic vision» og kombinerer visuell resonnering med kodeeksekuering. I praksis betyr det at Gemini nå arbeider i en loop:
- Tenk: Analyser spørsmålet og bildet, planlegg en flerstegs tilnærming
- Handle: Generer og kjør Python-kode for å manipulere bildet — zoom, beskjær, marker
- Observer: Legg det transformerte bildet til konteksten før nytt svar
5-10% bedre nøyaktighet
Google hevder denne tilnærmingen gir 5-10% forbedring på de fleste visuelle benchmarks. To hovedfaktorer driver forbedringen:
Det berømte «fingerproblemet»: AI-er har lenge slitt med å telle fingre på en hånd korrekt. Google hevder at ved å tegne markeringsbokser rundt hver finger, kan Gemini nå løse dette problemet.
Kode for matematikk
Når Gemini møter komplekse visuelle beregninger, kan den nå delegere til deterministisk Python-kode med Matplotlib. Dette reduserer hallusinasjoner i bildebasert matematikk betydelig.
Reaksjoner fra utviklermiljøet
«Dette føles som retningen alle til slutt vil adoptere. Så mange edge cases eksisterte bare fordi modeller ikke kunne gripe inn eller verifisere visuelt.» — Kanika på X
«Implikasjonene er massive. De har i praksis låst opp visuell resonnering for roboter. Roboter vil få mye mer kontekstbevissthet og agentiske evner.» — Reddit-bruker
Andre påpeker at ChatGPT har hatt lignende funksjonalitet via Code Interpreter en stund — men fremdeles sliter med å telle fingre pålitelig.
Hva kommer?
Googles veikart inkluderer:
- Mer implisitt adferd — automatisk zooming og rotering uten eksplisitte prompts
- Nye verktøy som bildesøk og reverse image search
- Utvidelse til flere modeller i Gemini-familien
Agentic Vision er tilgjengelig via Gemini API i Google AI Studio og Vertex AI, og rulles ut i Gemini-appen i «Thinking mode».