Google gir Gemini «agentisk syn» — AI kan nå undersøke bilder som en detektiv

10. februar 2026 · 4 min lesing

Google har gitt Gemini 3 Flash evnen til å «se» på en helt ny måte: I stedet for å analysere et bilde i ett pass, undersøker AI-en nå bilder som en agent — med planlegging, handling og observasjon.

Tenk → Handle → Observer

Den nye funksjonen heter «agentic vision» og kombinerer visuell resonnering med kodeeksekuering. I praksis betyr det at Gemini nå arbeider i en loop:

🧠 Tenk ⚡ Handle 👁️ Observer 🔄 Gjenta
  1. Tenk: Analyser spørsmålet og bildet, planlegg en flerstegs tilnærming
  2. Handle: Generer og kjør Python-kode for å manipulere bildet — zoom, beskjær, marker
  3. Observer: Legg det transformerte bildet til konteksten før nytt svar

5-10% bedre nøyaktighet

Google hevder denne tilnærmingen gir 5-10% forbedring på de fleste visuelle benchmarks. To hovedfaktorer driver forbedringen:

Finkornet inspeksjon: Ved å zoome inn på små detaljer (som liten tekst) i stedet for å gjette, kan Gemini nå lese ting som tidligere var umulig.

Det berømte «fingerproblemet»: AI-er har lenge slitt med å telle fingre på en hånd korrekt. Google hevder at ved å tegne markeringsbokser rundt hver finger, kan Gemini nå løse dette problemet.

Kode for matematikk

Når Gemini møter komplekse visuelle beregninger, kan den nå delegere til deterministisk Python-kode med Matplotlib. Dette reduserer hallusinasjoner i bildebasert matematikk betydelig.

Reaksjoner fra utviklermiljøet

«Dette føles som retningen alle til slutt vil adoptere. Så mange edge cases eksisterte bare fordi modeller ikke kunne gripe inn eller verifisere visuelt.» — Kanika på X
«Implikasjonene er massive. De har i praksis låst opp visuell resonnering for roboter. Roboter vil få mye mer kontekstbevissthet og agentiske evner.» — Reddit-bruker

Andre påpeker at ChatGPT har hatt lignende funksjonalitet via Code Interpreter en stund — men fremdeles sliter med å telle fingre pålitelig.

Hva kommer?

Googles veikart inkluderer:

Agentic Vision er tilgjengelig via Gemini API i Google AI Studio og Vertex AI, og rulles ut i Gemini-appen i «Thinking mode».

Kilde: InfoQ / Google Blog