Oxford-studie: AI-medisinråd ikke bedre enn vanlig Google-søk

Å spørre AI om medisinske symptomer hjelper ikke pasienter med å ta bedre beslutninger om helsen sin — ikke bedre enn et standard nettsøk.

AI alene: 95% riktig

Forskere ved Oxfords Internet Institute testet tre store språkmodeller — ChatGPT-4o, Meta's Llama 3 og Coheres Command R+ — på 10 medisinske scenarier, fra forkjølelse til hjerneblødning.

Uten menneskelig involvering identifiserte modellene riktig tilstand i 94,9% av tilfellene.

Med mennesker: Under 35%

Men når 1.298 deltakere i Storbritannia faktisk brukte verktøyene:

Relevante tilstander ble identifisert i under 34,5% av tilfellene
Riktig handlingsforløp (ring ambulanse, gå til lege) i under 44,2%

Ikke bedre enn kontrollgruppen som brukte tradisjonelle verktøy som nettsøk eller NHS-nettsider.

«Enorm kløft»

«Kunnskapen kan være i disse bottene; men denne kunnskapen oversettes ikke alltid når de interagerer med mennesker.» — Adam Mahdi, medforfatter, Oxford

Samme symptomer — motsatte råd

Teamet studerte 30 interaksjoner i detalj. Ett eksempel:

Pasient A: Beskrev stiv nakke, lysskyhet og «den verste hodepinen noensinne» → AI sa: Dra til sykehus ✅
Pasient B: Samme symptomer, men «forferdelig» hodepine → AI sa: Legg deg ned i et mørkt rom ❌

Begge hadde symptomer på subaraknoidalblødning — en livstruende tilstand.

Mennesker gir ufullstendig info

Ofte ga mennesker ufullstendig eller feil informasjon, men AI-modellene genererte også noen ganger misvisende eller feil svar.

Studien ble publisert i Nature Medicine.