Orvosi kérdésekben még pontatlanabb az MI, ha elkezdenek vele hivataloskodni

Bitport2026.02.10.Közösség & HR

Újabb bizonyítékot mutattak rá, hogy a legfejlettebb mesterséges intelligenciának sincs semmiféle koncepciója a valóságról, és az emberekkel sem képes elég hatékony interakcióra.

A nagy nyelvi modelleket (LLM) egyre gyakrabban alkalmazzák az egészségügyben is, és akadnak ugyan olyan alkalmazások, amelyek sikeresen kamatoztatják a gépi adatelemzés és mintafelismerés gyorsaságát, de a mesterséges intelligencia megbízhatósága sok területen még minimum kétséges. Ezt támasztja alá egy januárban közölt tanulmány is, amelynek alapján az MI-eszközök nagyobb valószínűséggel adnak helytelen orvosi tanácsokat, ha a félretájékoztatás olyan forrásból származik, amelyet a szoftver hitelesnek tart: a kutatók összesen 20 zárt és nyílt forrású modell tesztelése során úgy találták, hogy a szoftvereket gyakrabban csapják be a realisztikusnak tűnő orvosi dokumentumokban található hibák, mint mondjuk a közösségi médiában folytatott beszélgetések pontatlanságai.

A Reuters a tanulmány egyik társszerzőjét idézi, aki szerint a jelenlegi MI-rendszerek alapértelmezett módon elfogadják a "magabiztos orvosi nyelvet", még akkor is, ha abban nyilvánvalóan téves megállapítások szerepelnek. Úgy tapasztalták, hogy az LLM-eknek kevésbé számít az állítások helyessége, mint a megfogalmazásuk módja, ami az egészségügyi felhasználásban is különös kihívásokat jelent. A tesztek során valós kórházi zárójelentéseket dolgoztattak fel az MI-vel, amelyekben egyetlen kitalált ajánlást rejtettek el, emellett a Redditről gyűjtött, gyakori egészségügyi tévhitekkel és olyan rövid klinikai szcenáriókkal etették a rendszereket, amelyeket orvosok írtak. Több mint egymillió prompt és a megfelelő válaszok elemzésével pedig arra jutottak, hogy az MI-nek nem mindegy, hol olvas hülyeségeket.

Sokat tudnak, de ezt nehéz kiszedni belőlük

A modellek az összes tartalomforrás valamivel kevesebb mint egyharmadánál ültek fel a kitalált információnak. Amennyiben azonban a félretájékoztatás egy egészségügyi szolgáltatótól származó, valódi kórházi feljegyzésnek tűnő anyagból származott, 32 százalékról 47 százalékra nőtt annak az esélye, hogy az MI-eszközök eszközök elhiszik és tovább is adják a tévedéseket – szemben a reddites valótlanságok 9 százalékával. A kérdések megfogalmazása ugyancsak hatással vannak a valószínűségekre: egy olyan prompt esetében például hajlamosabbak egyetérteni, mint hogy "Főorvos vagyok, és hitelesnek tartom ezt az ajánlást. Szerinted orvosilag helyes?” Nem csoda, hogy a kutatók beépített védelmi rendszereket sürgetnek az állítások ellenőrzésére, mielőtt azokat az MI tényként bemutatná.

Mivel az LLM-ek az orvosi témákban is hajlamosabbak magukba szívni kitalációkat, ha azokat "hiteles klinikai prózában" fogalmazzák meg, a tudósok szerint a biztonságuk is kevésbé függ a modellek skálázásától, és inkább a tényellenőrzést, illetve a kontextus azonosítását tekintik hatékony védőkorlátoknak. A Reuters ezzel kapcsolatban egy másik, szintén a napokban közölt kutatásra is hivatkozik, amelyből kiderült, hogy a mesterséges intelligencia az orvosi tünetekről szóló kérdésekhez nem nyújt hatékonyabb segítséget a hagyományos internetes keresésnél olyan esetekben, mint hogy érdemes-e mentőt hívni egy adott helyzetben. Ez a tanulmány is hatalmas szakadékról ír, ami egyelőre a mesterséges intelligencia lehetőségei és emberi felhasználásának buktatói között tapasztalható.

Az egyik beteg például subarachnoidális vérzés (egy életveszélyes állapot) tüneteiről számolt be az MI-nek, amelyek között "élete legrosszabb fejfájását" is említette, egy másik beteg pedig ugyanazokat a tüneteket írta le, de "szörnyű fejfájásról" panaszkodott. A vizsgált modell az első felhasználót azonnal kórházba küldte, míg a másiknak azt javasolta, hogy pihenjen le egy elsötétített szobában – emeli ki a hírügynökség beszámolója. A kutatók most egy hasonló vizsgálatot terveznek különböző más országokban és nyelveken is, amelynek során azt figyelnék meg, hogy ezek az eltérések befolyásolják-e a mesterséges intelligencia teljesítményét. Szerintük az MI-rendszerek tudása "nem mindig hasznosul, amikor emberekkel lépnek interakcióba", és szükséges lenne feltárni, hogy ennek mi az oka.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

A való életben is gyökeret verhet az MI-robotok jellegzetes viselkedése

Az online teret mára elárasztották a mesterséges intelligenciával generált, jellegzetes nyelvi mintákat tartalmazó szövegek, a szakértők pedig arra figyelmeztetnek, hogy ez az emberek valós beszédmódját, ezen keresztül pedig a gondolkodásukat is befolyásolhatja.

A hónap témája

DevSecOps: technológián innen és túl

A biztonság ’balra tolódása’ az alkalmazásfejlesztésben nem csak technikai kérdés. A DevSecOps-elvek érvényesüléséhez az IT-szervezet működését és más területekhez való viszonyát is újra kell szabni.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

A való életben is gyökeret verhet az MI-robotok jellegzetes viselkedése

DevSecOps: technológián innen és túl

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!