AI-agenter feiler på konsulentoppgaver — men forbedres i rekordfart

Ny forskning fra Mercor viser at AI-agenter bare klarer 25% av virkelige konsulentoppgaver på første forsøk. Men CEO Brendan Foody sier de fortsatt er på vei til å erstatte konsulenter.

Benchmark mot McKinsey-oppgaver

Mercors APEX-Agents benchmark testet ledende AI-modeller på oppgaver designet av konsulenter fra McKinsey, BCG, Deloitte, Accenture og EY.

Resultatene var nedslående — i hvert fall ved første øyekast:

  • Under 25% av oppgavene ble løst på første forsøk
  • 40% ble løst etter 8 forsøk
  • OpenAI GPT 5.2 klarte ~23% på første forsøk
  • Anthropic Claude Opus 4.6 klarte ~33% — best i test

Eksponentiell forbedring

Men tallene forteller bare halve historien, ifølge Mercor-sjefen:

«GPT 3 hadde bare 3% suksessrate. GPT 5.2 har 23%. Anthropics modell gikk fra 13% til 33% på noen måneder. Jeg forventer 50% innen årets slutt.» — Brendan Foody, CEO Mercor

Hvor AI-agenter feiler

Mercor fant at agentene er gode på research og dataanalyse, men sliter med:

  • Lange oppgaver — jo lengre tid et menneske bruker, jo verre gjør AI-en det
  • Multi-steg oppgaver — planlegging og koordinering mellom verktøy
  • Filnavigering — finner ofte feil filer i komplekse systemer
  • Konsulent-sjargong — forstår ikke "client-ready" og lignende uttrykk

«De er nesten som praktikanter — 50% suksessrate, og partneren finner fortsatt mange feil,» sa Foody.

McKinsey: 25.000 AI-agenter ansatt

Til tross for begrensningene, er konsulentbransjen allerede i full transformasjon. McKinsey-sjef Bob Sternfels avslørte nylig at firmaet nå har:

  • 60.000 ansatte totalt
  • 25.000 av dem er AI-agenter
  • Første gang i historien de vokser uten å øke hodtall

«Skremmende for McKinsey»

Foody advarer om at neste versjon av benchmarken vil evaluere hele verdikjeden til et konsulentfirma — ikke bare analytiker-oppgaver:

«Dagens benchmark forteller en fin historie for McKinsey — AI kan tilføre verdi uten å erstatte mennesker. Neste versjon forteller en veldig skremmende historie. Om to år vil vi ha chatboter som er like gode som de beste konsulentfirmaene.» — Brendan Foody

Hva betyr dette?

Mercors forskning viser at AI-agenter ennå ikke kan erstatte erfarne konsulenter. Men forbedringshastigheten er enorm:

  • Fra 3% til 33% på under to år
  • Forventet 50% innen 2026
  • McKinsey har allerede 25.000 AI-"ansatte"

For konsulentbransjen er spørsmålet ikke om AI vil transformere yrket, men hvor raskt.