
A sorozatot követők emlékezhetnek rá, hogy a címszereplő Dr. House gyakran mondogatta ironikusan, mennyire kár volt elvégeznie az orvosi egyetemet, amikor a betegei képesek kész diagnózisokkal előállni pár percnyi internetes keresés után. A helyzet a való életben sincs másként: az igazi orvosok sem szokták javasolni az embereknek, hogy a világhálón próbáljanak válaszokat találni egészségügyi problémáikra. Nemrégiben pedig tudományosan igazolták, hogy a helyzeten az sem javít, ha a ChatGPT-t hívjuk segítségül – sőt...
Úgy jó, hogy nem jó
A Harvard és a Massachusetts General Hospital kutatói által jegyzett tanulmány szerint 21 népszerű MI-modellt tettek próbára 29 szabványosított klinikai esetleírás (vignetta) alapján. A végeredmény meglehetősen kettős. Egyfelől az algoritmusok 91 százalékos pontossággal találták el a végleges diagnózist, másrészt átlagosan 80 százalékos hibaaránnyal dolgoztak a korai differenciáldiagnózis során.
Előbbi azt az esetet tükrözi, amikor már minden releváns információ az orvos (vagy jelen esetben chatbot) rendelkezésére áll, így itt sokkal kevesebb a bizonytalanság, illetve kisebb szerep jut a szakértői tapasztalatnak, intuíciónak. Ezzel szemben a folyamat elején pusztán a tünetek alapján kell mérlegelni a különböző eshetőségeket, ami láthatóan nagyon rosszul megy az MI-nek.
Mindez különösen veszélyes lehet a magukat otthon diagnosztizálni próbáló emberekre nézve, hiszen az algoritmusok "természetüknél fogva" képesek a lehető legnagyobb magabiztossággal kijelenteni teljesen légből kapott dolgokat (ez az úgynevezett hallucináció). Így ha chatbotokkal próbáljuk diagnosztizáltatni magunkat, az hamis biztonságérzetet kelthet, vagy éppen indokolatlan szorongást generálhat.
Az LLM-ek védelmében azért érdemes kitérni arra is, hogy az említett 80 százalékos hibaráta egy nagyon szigorú mérce szerint értendő. A modellek sok esetben ugyanis legalább részben eltalálták a tünetek mögött húzódó lehetséges egészségügyi okokat.
Ettől függetlenül a kutatócsoport egyik tagja a The Registernek kihangsúlyozta, mennyire fontos, hogy megértsük a technológia korlátait, és például ne első szűröként funkcionáló chatbotokkal próbáljuk a szakembergárda terhelését csökkenteni. Ha a modell már az elején rossz irányba indul el a differenciáldiagnózis során, az felesleges vizsgálatokhoz, költséges beavatkozásokhoz vagy – ami a legrosszabb – a megfelelő kezelés késlekedéséhez vezethet.
Már diagnosztizált probléma
A kutatási eredmények alátámasztják a korábbi években végzett hasonló vizsgálatok következtetéseit, amelyek rendre arra jutottak, hogy a különböző algoritmusok és gépi tanuló rendszerek egészségügyi alkalmazása a megfelelő szabályozás hiányában sokkal kockázatosabb, mint azt elsőre gondolhatnánk.
Például bő egy évvel ezelőtt számoltunk be arról a projektről, amelyben általános célú LLM-ek képességeit értékelték célzott klinikai feladatokon, és összességében mindegyik program borzalmas hallucinációs rátával dolgozott. Néhány hónap később pedig kiderült, hogy egy-egy elgépelés, szövegformázási hiba, szleng, sőt akár a színes vagy érzelmes nyelvezet is elég hozzá, hogy megzavarja az orvosi tanácsokat adó mesterséges intelligenciát.
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?