AI-agenter feiler på konsulentoppgaver — men forbedres raskt

Ny forskning fra Mercor viser at AI-agenter bare klarer 25% av virkelige konsulentoppgaver på første forsøk. Men CEO Brendan Foody sier de fortsatt er på vei til å erstatte konsulenter.

Benchmark mot McKinsey-oppgaver

Mercors APEX-Agents benchmark testet ledende AI-modeller på oppgaver designet av konsulenter fra McKinsey, BCG, Deloitte, Accenture og EY.

Resultatene var nedslående — i hvert fall ved første øyekast:

Under 25% av oppgavene ble løst på første forsøk
40% ble løst etter 8 forsøk
OpenAI GPT 5.2 klarte ~23% på første forsøk
Anthropic Claude Opus 4.6 klarte ~33% — best i test

Eksponentiell forbedring

Men tallene forteller bare halve historien, ifølge Mercor-sjefen:

«GPT 3 hadde bare 3% suksessrate. GPT 5.2 har 23%. Anthropics modell gikk fra 13% til 33% på noen måneder. Jeg forventer 50% innen årets slutt.» — Brendan Foody, CEO Mercor

Hvor AI-agenter feiler

Mercor fant at agentene er gode på research og dataanalyse, men sliter med:

Lange oppgaver — jo lengre tid et menneske bruker, jo verre gjør AI-en det
Multi-steg oppgaver — planlegging og koordinering mellom verktøy
Filnavigering — finner ofte feil filer i komplekse systemer
Konsulent-sjargong — forstår ikke "client-ready" og lignende uttrykk

«De er nesten som praktikanter — 50% suksessrate, og partneren finner fortsatt mange feil,» sa Foody.

McKinsey: 25.000 AI-agenter ansatt

Til tross for begrensningene, er konsulentbransjen allerede i full transformasjon. McKinsey-sjef Bob Sternfels avslørte nylig at firmaet nå har:

60.000 ansatte totalt
25.000 av dem er AI-agenter
Første gang i historien de vokser uten å øke hodtall

«Skremmende for McKinsey»

Foody advarer om at neste versjon av benchmarken vil evaluere hele verdikjeden til et konsulentfirma — ikke bare analytiker-oppgaver:

«Dagens benchmark forteller en fin historie for McKinsey — AI kan tilføre verdi uten å erstatte mennesker. Neste versjon forteller en veldig skremmende historie. Om to år vil vi ha chatboter som er like gode som de beste konsulentfirmaene.» — Brendan Foody

Hva betyr dette?

Mercors forskning viser at AI-agenter ennå ikke kan erstatte erfarne konsulenter. Men forbedringshastigheten er enorm:

Fra 3% til 33% på under to år
Forventet 50% innen 2026
McKinsey har allerede 25.000 AI-"ansatte"

For konsulentbransjen er spørsmålet ikke om AI vil transformere yrket, men hvor raskt.