Kifogott a ChatGPT hangos módján, amikor el kellett számolnia százig

Bitport2024.08.07.Közösség & HR

A levegővétellel is lehetnek problémái, de ennél nagyobb gond, amikor a 28 után a 24 következik.

Hirdetés

Bár a nagy nyelvi modellek (LLM-ek) meggyőzően oldják meg a nevükből is következő feladatokat, a matematika és a logika területén minimum megbízhatatlanok, ami egyre több kérdést vet fel a rendszerek bonyolultabbá (és így egyre kiszámíthatatlanabbá) válásával. Nemrég mi is beszámoltunk a német LAION tudósainak tapasztalatairól, akik megmutatták, hogy a legkifinomultabb technológiát is meg lehet fektetni ugyanazokkal az egyszerű logikai feladványokkal: az OpenAI, az Anthropic, a Google, a Meta, a Mosaic vagy a Cohere modelljeiél is elérték a "funkciók és az érvelési képességek drámai összeomlását", rámutatva a szabványosnak tekintett teljesítményértékelő eljárások hiányosságaira is.

Ahogy akkor írtuk, nem csak az emberi szemmel pofonegyszerű feladatok kudarcairól van szó, hanem arról is, hogy az MI gyakran ragaszkodik saját rossz megoldásaihoz, sőt a konfabulációhoz hasonló értelmetlen okoskodással próbálja hihetővé tenni azokat. Ilyesmire adott újabb példát egy fura kísérlet az OpenAI legújabb GPT-modelljéhez tartozó Advanced Voice Mode funkcióval is, amiből kiderült, hogy a GPT-4o hangos módja is könnyen elhasal az óvodás feladatokon. Az X-en közölt videóban a program azt a feladatot kapja, hogy a lehető leggyorsabban, szünetek nélkül számoljon el százig, mint ahogy Superman is tenné, akinek nem kell levegőt vennie.

Superman azért máshogy csinálná

Az LLM hangmodulja már ezt sem képes elsőre értelmezni, de az igazi problémák akkor jönnek, amikor végre felveszi a kívánt ritmust. Az újabb próbálkozás során ugyanis elkezdi kihagyni és összekeverni a számokat, 28-ról 24-re ugrik, hogy aztán 29-ről folytassa, aztán a 70-es magasságban egyszerűen leáll. Arra a kérdésre, hogy mi történt, azt válaszolja, hogy néha Superman is elhasal, majd újra nekilát a számolásnak, ezúttal jobb eredménnyel. Külön érdekes, hogy az LLM egy korábban közölt, ugyancsak szünet nélküli nyelvtörőket tartalmazó feladathoz hasonlóan most is ragaszkodott hozzá, hogy időnként levegőt kell vennie.

A lélegzés megfelelő üteme és a hasonló effektusok egyébként tényleg nagyon meggyőzőek az Advanced Voice Mode korai tesztjeiben, sebességében is visszaadva a valós idejű beszélgetések, az érzelmek vagy a hanghatásokkal támogatott történetmesélés elemeit. Az is nyilvánvaló azonban, hogy a mesterségesintelligencia-rendszerek egyre pontosabb hangolásával sem javul a generatív MI-technológia megbízhatósága, mivel az eddigi meghibásodási módok ugyanúgy tartják magukat. Legfeljebb csak nehezebb lesz első pillantásra felfedezni a hibákat, ami viszont nem jó dinamika a mindinkább összetett rendszerek fejlődésében.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

A GTA atyja szerint egyhamar nem fogja a feje tetejére állítani a videójátékipart az MI

A Rockstar Games egykori társalapítója ugyan maga is használja a mesterséges intelligenciát, de úgy látja, a generatív algoritmusok egy csomó területen képtelenek értelmezhetőt alkotni

A hónap témája

Mesterséges intelligencia mint költségzabáló fekete lyuk?

Nyakunkon az árnyék MI, és valamit kezdeni kell vele. Az elszabaduló kiadások kapcsán a mindenkit érdeklő kérdés így hangzik: hasznunkra lehet a mesterséges intelligencia a költségoptimalizálásban is?

a melléklet támogatója a 4iG

Hirdetés

A "jó gazda" szemlélet menti meg az MI-költségvetést

A 4iG IT minden lehetőséget biztosít ügyfeleinek ahhoz, hogy a FinOps eszközeivel teljes körű kontrollt gyakorolhassanak IT-költéseik felett – még akkor is, ha a mesterséges intelligencia miatt új, nehezen becsülhető, dinamikusan változó költségstruktúrákat kell kezelniük.

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

A GTA atyja szerint egyhamar nem fogja a feje tetejére állítani a videójátékipart az MI

Mesterséges intelligencia mint költségzabáló fekete lyuk?

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia