Google gir Gemini «agentisk syn» — AI kan nå undersøke bilder som en detektiv

10. februar 2026 · 4 min lesing

Google har gitt Gemini 3 Flash evnen til å «se» på en helt ny måte: I stedet for å analysere et bilde i ett pass, undersøker AI-en nå bilder som en agent — med planlegging, handling og observasjon.

Tenk → Handle → Observer

Den nye funksjonen heter «agentic vision» og kombinerer visuell resonnering med kodeeksekuering. I praksis betyr det at Gemini nå arbeider i en loop:

🧠 Tenk → ⚡ Handle → 👁️ Observer → 🔄 Gjenta

Tenk: Analyser spørsmålet og bildet, planlegg en flerstegs tilnærming
Handle: Generer og kjør Python-kode for å manipulere bildet — zoom, beskjær, marker
Observer: Legg det transformerte bildet til konteksten før nytt svar

5-10% bedre nøyaktighet

Google hevder denne tilnærmingen gir 5-10% forbedring på de fleste visuelle benchmarks. To hovedfaktorer driver forbedringen:

                Finkornet inspeksjon: Ved å zoome inn på små detaljer (som liten tekst) i stedet for å gjette, kan Gemini nå lese ting som tidligere var umulig.
            

Det berømte «fingerproblemet»: AI-er har lenge slitt med å telle fingre på en hånd korrekt. Google hevder at ved å tegne markeringsbokser rundt hver finger, kan Gemini nå løse dette problemet.

Kode for matematikk

Når Gemini møter komplekse visuelle beregninger, kan den nå delegere til deterministisk Python-kode med Matplotlib. Dette reduserer hallusinasjoner i bildebasert matematikk betydelig.

Reaksjoner fra utviklermiljøet

«Dette føles som retningen alle til slutt vil adoptere. Så mange edge cases eksisterte bare fordi modeller ikke kunne gripe inn eller verifisere visuelt.» — Kanika på X

«Implikasjonene er massive. De har i praksis låst opp visuell resonnering for roboter. Roboter vil få mye mer kontekstbevissthet og agentiske evner.» — Reddit-bruker

Andre påpeker at ChatGPT har hatt lignende funksjonalitet via Code Interpreter en stund — men fremdeles sliter med å telle fingre pålitelig.

Hva kommer?

Googles veikart inkluderer:

Mer implisitt adferd — automatisk zooming og rotering uten eksplisitte prompts
Nye verktøy som bildesøk og reverse image search
Utvidelse til flere modeller i Gemini-familien

Agentic Vision er tilgjengelig via Gemini API i Google AI Studio og Vertex AI, og rulles ut i Gemini-appen i «Thinking mode».

Kilde: InfoQ / Google Blog