Bár a nagy nyelvi modellek (LLM-ek) meggyőzően oldják meg a nevükből is következő feladatokat, a matematika és a logika területén minimum megbízhatatlanok, ami egyre több kérdést vet fel a rendszerek bonyolultabbá (és így egyre kiszámíthatatlanabbá) válásával. Nemrég mi is beszámoltunk a német LAION tudósainak tapasztalatairól, akik megmutatták, hogy a legkifinomultabb technológiát is meg lehet fektetni ugyanazokkal az egyszerű logikai feladványokkal: az OpenAI, az Anthropic, a Google, a Meta, a Mosaic vagy a Cohere modelljeiél is elérték a "funkciók és az érvelési képességek drámai összeomlását", rámutatva a szabványosnak tekintett teljesítményértékelő eljárások hiányosságaira is.
Ahogy akkor írtuk, nem csak az emberi szemmel pofonegyszerű feladatok kudarcairól van szó, hanem arról is, hogy az MI gyakran ragaszkodik saját rossz megoldásaihoz, sőt a konfabulációhoz hasonló értelmetlen okoskodással próbálja hihetővé tenni azokat. Ilyesmire adott újabb példát egy fura kísérlet az OpenAI legújabb GPT-modelljéhez tartozó Advanced Voice Mode funkcióval is, amiből kiderült, hogy a GPT-4o hangos módja is könnyen elhasal az óvodás feladatokon. Az X-en közölt videóban a program azt a feladatot kapja, hogy a lehető leggyorsabban, szünetek nélkül számoljon el százig, mint ahogy Superman is tenné, akinek nem kell levegőt vennie.
Superman azért máshogy csinálná
Az LLM hangmodulja már ezt sem képes elsőre értelmezni, de az igazi problémák akkor jönnek, amikor végre felveszi a kívánt ritmust. Az újabb próbálkozás során ugyanis elkezdi kihagyni és összekeverni a számokat, 28-ról 24-re ugrik, hogy aztán 29-ről folytassa, aztán a 70-es magasságban egyszerűen leáll. Arra a kérdésre, hogy mi történt, azt válaszolja, hogy néha Superman is elhasal, majd újra nekilát a számolásnak, ezúttal jobb eredménnyel. Külön érdekes, hogy az LLM egy korábban közölt, ugyancsak szünet nélküli nyelvtörőket tartalmazó feladathoz hasonlóan most is ragaszkodott hozzá, hogy időnként levegőt kell vennie.
A lélegzés megfelelő üteme és a hasonló effektusok egyébként tényleg nagyon meggyőzőek az Advanced Voice Mode korai tesztjeiben, sebességében is visszaadva a valós idejű beszélgetések, az érzelmek vagy a hanghatásokkal támogatott történetmesélés elemeit. Az is nyilvánvaló azonban, hogy a mesterségesintelligencia-rendszerek egyre pontosabb hangolásával sem javul a generatív MI-technológia megbízhatósága, mivel az eddigi meghibásodási módok ugyanúgy tartják magukat. Legfeljebb csak nehezebb lesz első pillantásra felfedezni a hibákat, ami viszont nem jó dinamika a mindinkább összetett rendszerek fejlődésében.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak