Ny forskning fra Mercor viser at AI-agenter bare klarer 25% av virkelige konsulentoppgaver på første forsøk. Men CEO Brendan Foody sier de fortsatt er på vei til å erstatte konsulenter.
Benchmark mot McKinsey-oppgaver
Mercors APEX-Agents benchmark testet ledende AI-modeller på oppgaver designet av konsulenter fra McKinsey, BCG, Deloitte, Accenture og EY.
Resultatene var nedslående — i hvert fall ved første øyekast:
- Under 25% av oppgavene ble løst på første forsøk
- 40% ble løst etter 8 forsøk
- OpenAI GPT 5.2 klarte ~23% på første forsøk
- Anthropic Claude Opus 4.6 klarte ~33% — best i test
Eksponentiell forbedring
Men tallene forteller bare halve historien, ifølge Mercor-sjefen:
«GPT 3 hadde bare 3% suksessrate. GPT 5.2 har 23%. Anthropics modell gikk fra 13% til 33% på noen måneder. Jeg forventer 50% innen årets slutt.» — Brendan Foody, CEO Mercor
Hvor AI-agenter feiler
Mercor fant at agentene er gode på research og dataanalyse, men sliter med:
- Lange oppgaver — jo lengre tid et menneske bruker, jo verre gjør AI-en det
- Multi-steg oppgaver — planlegging og koordinering mellom verktøy
- Filnavigering — finner ofte feil filer i komplekse systemer
- Konsulent-sjargong — forstår ikke "client-ready" og lignende uttrykk
«De er nesten som praktikanter — 50% suksessrate, og partneren finner fortsatt mange feil,» sa Foody.
McKinsey: 25.000 AI-agenter ansatt
Til tross for begrensningene, er konsulentbransjen allerede i full transformasjon. McKinsey-sjef Bob Sternfels avslørte nylig at firmaet nå har:
- 60.000 ansatte totalt
- 25.000 av dem er AI-agenter
- Første gang i historien de vokser uten å øke hodtall
«Skremmende for McKinsey»
Foody advarer om at neste versjon av benchmarken vil evaluere hele verdikjeden til et konsulentfirma — ikke bare analytiker-oppgaver:
«Dagens benchmark forteller en fin historie for McKinsey — AI kan tilføre verdi uten å erstatte mennesker. Neste versjon forteller en veldig skremmende historie. Om to år vil vi ha chatboter som er like gode som de beste konsulentfirmaene.» — Brendan Foody
Hva betyr dette?
Mercors forskning viser at AI-agenter ennå ikke kan erstatte erfarne konsulenter. Men forbedringshastigheten er enorm:
- Fra 3% til 33% på under to år
- Forventet 50% innen 2026
- McKinsey har allerede 25.000 AI-"ansatte"
For konsulentbransjen er spørsmålet ikke om AI vil transformere yrket, men hvor raskt.