Kan AI-agenter bli advokater? Opus 4.6 scorer rekord
Kort oppsummert: Anthropics nye Opus 4.6 scorer nesten 30% på APEX-testen for juridiske oppgaver — opp fra 18% i januar. Med flere forsøk når den 45%. "Agent swarms" kan være nøkkelen.
18%
beste score januar
30%
Opus 4.6 første forsøk
45%
Opus 4.6 flere forsøk
Fra 18% til 30% på noen måneder
APEX-testen måler AI-agenters evne til å utføre profesjonelle oppgaver som juridisk analyse. I januar scoret de beste AI-modellene under 25%.
Men da Anthropic slapp Opus 4.6 denne uken, hoppet scoren til nesten 30% i første forsøk. Med flere forsøk? 45%.
"Å hoppe fra 18,4% til 29,8% på noen få måneder er helt vilt."
— Brendan Foody, CEO Mercor
Agent swarms hjelper
En nøkkelfaktor kan være Opus 4.6 sine nye "agent swarms" — der flere AI-agenter jobber sammen på komplekse problemer. Dette kan være spesielt nyttig for juridisk arbeid som krever flere steg og perspektiver.
Advokater trygge... foreløpig
30% er fortsatt langt fra 100%. Advokater trenger ikke bekymre seg for å bli erstattet neste uke.
Men de bør være mindre selvsikre enn de var forrige måned.
Hva dette betyr
- AI-fremgang på profesjonelle oppgaver akselererer
- "Agent swarms" kan være nøkkelen til komplekse problemer
- Juridiske verktøy basert på AI vil bli bedre — raskt