Kifogott a ChatGPT hangos módján, amikor el kellett számolnia százig

Bitport2024.08.07.Közösség & HR

A levegővétellel is lehetnek problémái, de ennél nagyobb gond, amikor a 28 után a 24 következik.

Bár a nagy nyelvi modellek (LLM-ek) meggyőzően oldják meg a nevükből is következő feladatokat, a matematika és a logika területén minimum megbízhatatlanok, ami egyre több kérdést vet fel a rendszerek bonyolultabbá (és így egyre kiszámíthatatlanabbá) válásával. Nemrég mi is beszámoltunk a német LAION tudósainak tapasztalatairól, akik megmutatták, hogy a legkifinomultabb technológiát is meg lehet fektetni ugyanazokkal az egyszerű logikai feladványokkal: az OpenAI, az Anthropic, a Google, a Meta, a Mosaic vagy a Cohere modelljeiél is elérték a "funkciók és az érvelési képességek drámai összeomlását", rámutatva a szabványosnak tekintett teljesítményértékelő eljárások hiányosságaira is.

Ahogy akkor írtuk, nem csak az emberi szemmel pofonegyszerű feladatok kudarcairól van szó, hanem arról is, hogy az MI gyakran ragaszkodik saját rossz megoldásaihoz, sőt a konfabulációhoz hasonló értelmetlen okoskodással próbálja hihetővé tenni azokat. Ilyesmire adott újabb példát egy fura kísérlet az OpenAI legújabb GPT-modelljéhez tartozó Advanced Voice Mode funkcióval is, amiből kiderült, hogy a GPT-4o hangos módja is könnyen elhasal az óvodás feladatokon. Az X-en közölt videóban a program azt a feladatot kapja, hogy a lehető leggyorsabban, szünetek nélkül számoljon el százig, mint ahogy Superman is tenné, akinek nem kell levegőt vennie.

Superman azért máshogy csinálná

Az LLM hangmodulja már ezt sem képes elsőre értelmezni, de az igazi problémák akkor jönnek, amikor végre felveszi a kívánt ritmust. Az újabb próbálkozás során ugyanis elkezdi kihagyni és összekeverni a számokat, 28-ról 24-re ugrik, hogy aztán 29-ről folytassa, aztán a 70-es magasságban egyszerűen leáll. Arra a kérdésre, hogy mi történt, azt válaszolja, hogy néha Superman is elhasal, majd újra nekilát a számolásnak, ezúttal jobb eredménnyel. Külön érdekes, hogy az LLM egy korábban közölt, ugyancsak szünet nélküli nyelvtörőket tartalmazó feladathoz hasonlóan most is ragaszkodott hozzá, hogy időnként levegőt kell vennie.

A lélegzés megfelelő üteme és a hasonló effektusok egyébként tényleg nagyon meggyőzőek az Advanced Voice Mode korai tesztjeiben, sebességében is visszaadva a valós idejű beszélgetések, az érzelmek vagy a hanghatásokkal támogatott történetmesélés elemeit. Az is nyilvánvaló azonban, hogy a mesterségesintelligencia-rendszerek egyre pontosabb hangolásával sem javul a generatív MI-technológia megbízhatósága, mivel az eddigi meghibásodási módok ugyanúgy tartják magukat. Legfeljebb csak nehezebb lesz első pillantásra felfedezni a hibákat, ami viszont nem jó dinamika a mindinkább összetett rendszerek fejlődésében.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

Befektetőket riogató zombi unikornisok garázdálkodnak a Szilícium-völgyben

Az unikornis-listákon szereplő cégek egy jelentős része már csak egymilliárd dolláros értékelés alatt tudott tőkét bevonni – már ha tudott.

A hónap témája

Hogyan vezessük be az MI-t szolgáltatásként?

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.

CIO Podcast

CIO Podcast #70: A mobiltelefónia csendes robotosai

CIO Podcast #69: A digitális kultúra hiánya a védelmi technológiákat is gyengíti

MÉG TÖBB CIO PODCAST »

Vendég cikk

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

CIO Klub

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Befektetőket riogató zombi unikornisok garázdálkodnak a Szilícium-völgyben

Hogyan vezessük be az MI-t szolgáltatásként?

CIO Podcast #70: A mobiltelefónia csendes robotosai

Radikális fordulat várható a kormányzati IT-gazdálkodásban

Akadémiai megerősítést kapott: szenior fejlesztő nem vén fejlesztő

PM JAM 2026: a projektmenedzsment elmélete gyakorlattá válik!