Å spørre AI om medisinske symptomer hjelper ikke pasienter med å ta bedre beslutninger om helsen sin — ikke bedre enn et standard nettsøk.
AI alene: 95% riktig
Forskere ved Oxfords Internet Institute testet tre store språkmodeller — ChatGPT-4o, Meta's Llama 3 og Coheres Command R+ — på 10 medisinske scenarier, fra forkjølelse til hjerneblødning.
Uten menneskelig involvering identifiserte modellene riktig tilstand i 94,9% av tilfellene.
Med mennesker: Under 35%
Men når 1.298 deltakere i Storbritannia faktisk brukte verktøyene:
- Relevante tilstander ble identifisert i under 34,5% av tilfellene
- Riktig handlingsforløp (ring ambulanse, gå til lege) i under 44,2%
Ikke bedre enn kontrollgruppen som brukte tradisjonelle verktøy som nettsøk eller NHS-nettsider.
«Enorm kløft»
«Kunnskapen kan være i disse bottene; men denne kunnskapen oversettes ikke alltid når de interagerer med mennesker.» — Adam Mahdi, medforfatter, Oxford
Samme symptomer — motsatte råd
Teamet studerte 30 interaksjoner i detalj. Ett eksempel:
- Pasient A: Beskrev stiv nakke, lysskyhet og «den verste hodepinen noensinne» → AI sa: Dra til sykehus ✅
- Pasient B: Samme symptomer, men «forferdelig» hodepine → AI sa: Legg deg ned i et mørkt rom ❌
Begge hadde symptomer på subaraknoidalblødning — en livstruende tilstand.
Mennesker gir ufullstendig info
Ofte ga mennesker ufullstendig eller feil informasjon, men AI-modellene genererte også noen ganger misvisende eller feil svar.
Studien ble publisert i Nature Medicine.