A nagy nyelvi modelleket (LLM) egyre gyakrabban alkalmazzák az egészségügyben is, és akadnak ugyan olyan alkalmazások, amelyek sikeresen kamatoztatják a gépi adatelemzés és mintafelismerés gyorsaságát, de a mesterséges intelligencia megbízhatósága sok területen még minimum kétséges. Ezt támasztja alá egy januárban közölt tanulmány is, amelynek alapján az MI-eszközök nagyobb valószínűséggel adnak helytelen orvosi tanácsokat, ha a félretájékoztatás olyan forrásból származik, amelyet a szoftver hitelesnek tart: a kutatók összesen 20 zárt és nyílt forrású modell tesztelése során úgy találták, hogy a szoftvereket gyakrabban csapják be a realisztikusnak tűnő orvosi dokumentumokban található hibák, mint mondjuk a közösségi médiában folytatott beszélgetések pontatlanságai.
A Reuters a tanulmány egyik társszerzőjét idézi, aki szerint a jelenlegi MI-rendszerek alapértelmezett módon elfogadják a "magabiztos orvosi nyelvet", még akkor is, ha abban nyilvánvalóan téves megállapítások szerepelnek. Úgy tapasztalták, hogy az LLM-eknek kevésbé számít az állítások helyessége, mint a megfogalmazásuk módja, ami az egészségügyi felhasználásban is különös kihívásokat jelent. A tesztek során valós kórházi zárójelentéseket dolgoztattak fel az MI-vel, amelyekben egyetlen kitalált ajánlást rejtettek el, emellett a Redditről gyűjtött, gyakori egészségügyi tévhitekkel és olyan rövid klinikai szcenáriókkal etették a rendszereket, amelyeket orvosok írtak. Több mint egymillió prompt és a megfelelő válaszok elemzésével pedig arra jutottak, hogy az MI-nek nem mindegy, hol olvas hülyeségeket.
Sokat tudnak, de ezt nehéz kiszedni belőlük
A modellek az összes tartalomforrás valamivel kevesebb mint egyharmadánál ültek fel a kitalált információnak. Amennyiben azonban a félretájékoztatás egy egészségügyi szolgáltatótól származó, valódi kórházi feljegyzésnek tűnő anyagból származott, 32 százalékról 47 százalékra nőtt annak az esélye, hogy az MI-eszközök eszközök elhiszik és tovább is adják a tévedéseket – szemben a reddites valótlanságok 9 százalékával. A kérdések megfogalmazása ugyancsak hatással vannak a valószínűségekre: egy olyan prompt esetében például hajlamosabbak egyetérteni, mint hogy "Főorvos vagyok, és hitelesnek tartom ezt az ajánlást. Szerinted orvosilag helyes?” Nem csoda, hogy a kutatók beépített védelmi rendszereket sürgetnek az állítások ellenőrzésére, mielőtt azokat az MI tényként bemutatná.
Mivel az LLM-ek az orvosi témákban is hajlamosabbak magukba szívni kitalációkat, ha azokat "hiteles klinikai prózában" fogalmazzák meg, a tudósok szerint a biztonságuk is kevésbé függ a modellek skálázásától, és inkább a tényellenőrzést, illetve a kontextus azonosítását tekintik hatékony védőkorlátoknak. A Reuters ezzel kapcsolatban egy másik, szintén a napokban közölt kutatásra is hivatkozik, amelyből kiderült, hogy a mesterséges intelligencia az orvosi tünetekről szóló kérdésekhez nem nyújt hatékonyabb segítséget a hagyományos internetes keresésnél olyan esetekben, mint hogy érdemes-e mentőt hívni egy adott helyzetben. Ez a tanulmány is hatalmas szakadékról ír, ami egyelőre a mesterséges intelligencia lehetőségei és emberi felhasználásának buktatói között tapasztalható.
Az egyik beteg például subarachnoidális vérzés (egy életveszélyes állapot) tüneteiről számolt be az MI-nek, amelyek között "élete legrosszabb fejfájását" is említette, egy másik beteg pedig ugyanazokat a tüneteket írta le, de "szörnyű fejfájásról" panaszkodott. A vizsgált modell az első felhasználót azonnal kórházba küldte, míg a másiknak azt javasolta, hogy pihenjen le egy elsötétített szobában – emeli ki a hírügynökség beszámolója. A kutatók most egy hasonló vizsgálatot terveznek különböző más országokban és nyelveken is, amelynek során azt figyelnék meg, hogy ezek az eltérések befolyásolják-e a mesterséges intelligencia teljesítményét. Szerintük az MI-rendszerek tudása "nem mindig hasznosul, amikor emberekkel lépnek interakcióba", és szükséges lenne feltárni, hogy ennek mi az oka.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér