Szabályos lépést is alig tudnak tenni sakkban az MI-modellek

Bitport2024.06.04.Cloud & big data

A mostanság már a közbeszédet is eluraló nagy nyelvi modellek képességeinek korlátjait mutatja, mennyire gyengén szerepeltek egy sakkfeladványokhoz kötődő teszten.

A mesterséges intelligencia kutatása egyre lenyűgözőbb eredményeket, gyakorlatban is használható megoldásokat hoz. A nagy nyelvi modellekhez (LLM) kötődő kétségtelen fejlődés mellett azonban nem árt a technológia határaival, limitációjával is tisztába lenni.

Erre próbált rámutatni Vladimir Prelovac szoftvermérnök GitHubon elérhető projektjével. Az LLM Chess Puzzles segítségével sakkfeladványokkal lehet teszteli a különböző gyártók által kiadott nagy nyelvi modelleket. Ezek lényege, hogy egy adott állásból a lehető legkevesebb lépéssel kell mattot adni a gyengébb helyzetben lévő oldalnak. Ahogy az az alábbi táblázatból látszik, a generatív algoritmusok alig-alig tudtak jó választ adni.

LLM-ek teljesítménye és becsült játékereje az 1000 sakkfeladványból álló teszten (forrás: LLM Chess Puzzles)

A legtöbb megoldás egészen gyalázatosan teljesített. A Google Geminije például teljesen értékelhetetlen volt, mivel az algoritmus semmiféle prompt megadására nem volt hajlandó egy sakklépéssel válaszolni. De a többi modell sem brillírozott: az OpenAI fejlesztéseit kivéve egyik szereplő sem tudott 10 százalék feletti helyes választ adni, sőt az esetek többségében még a sakk legalapvetőbb szabályait sem sikerült betartani. A rangsorolásban negyedik helyen végzett, az iparági benchmarkok alapján kitűnő képességű Claude 3 Opus is majdnem a válaszok felében szabálytalan lépést adott meg.

Prelovac igyekezett a sakktudást megtestesítő Élő-pontra is átszámítani a gépek játékerejét. A fentiek alapján azonban nem meglepetés, hogy az algoritmusok többsége még egy átlagos amatőr játékos szintjét sem tudta megközelíteni. Az összességében kiemelkedően teljesítő, alig néhány héttel ezelőtt debütált GPT-4o a feladatok felét helyesen válaszolta meg, és válaszai alapján már egy erősebb amatőr játékosnak lehetne megfeleltetni. Ennek ellenére még ez a modell is képes volt sok esetben teljesen abszurd, illegális lépéseket megadni. Ilyesmit viszont a szabályokkal csak alapszinten tisztában lévő emberek sem nagyon követnének el.

Hasznosak, de nem okosak

A teszt megalkotója a Registernek nyilatkozva elmondta, hogy az eredmények "kissé kiábrándítóak", de várható volt, hogy ezek a modellek nem boldogulnak a valódi gondolkodást, érvelést, értelmezést igénylő feladatokkal. Tehát attól, hogy bizonyos célfeladatokat sokkal jobban és gyorsabban megoldanak, mint az emberek, még nem válnak általános értelemben intelligensekké.

Mindezt csak alátámasztott Prelovac egy másik kísérlete, amelyben a magyarul 4 a nyerő néven ismert játékkal tesztelte az LLM-eket. A sakknál jóval egyszerűbb játék totális kapitulációra kényszerítette a gépeket. Többszöri finomítás és próbálkozás után itt is a GPT-4o került ki győztesként, ám még ez a modell is csak nagyjából egy négyéves gyerek képességeit tudta produkálni. A szoftvermérnök mindezt annak tudja be, hogy az algoritmusok trenírozására szánt adatkészletekben erről a játékról lényegesen kevesebb információ szerepelt, mint a jóvan népszerűbb sakk esetében.

Nemrégiben számoltunk be róla, hogy a generatív MI a véletlenszámok kiválasztásában sem jeleskedik. Ebben ugyanakkor nem voltak rosszabbak az embereknél, mivel a matematikailag nem megfelelő mintázatok pont azért rajzolódtak ki, mert a modellek válaszai az emberi gondolkodás tökéletlenséget tükrözték.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Megsemmisültek Kínában a külföldi mobilok

Egy helyi kutatócég szerint októberben majdnem feleannyi nem kínai kötődésű okostelefont adtak el a távol-keleti birodalomban, mint egy évvel korábban.

A hónap témája

Újra elmondjuk, másként: az MI veszélyes és veszélyeztetett állat

Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Podcast

"EU-kapcsolatok nélkül nem tudom elképzelni a BME modellváltását"

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Megsemmisültek Kínában a külföldi mobilok

Újra elmondjuk, másként: az MI veszélyes és veszélyeztetett állat

Régen minden jobb volt? A VMware licencelési változásai

"EU-kapcsolatok nélkül nem tudom elképzelni a BME modellváltását"

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2024 konferencia