Az intelligens lények az IBM MI-fejlesztési vezetője, Anthony Annunziata vagy a Meta vezető MI-tudósa, Yann LeCun szerint is négy olyan alapvető képességgel rendelkeznek, ami meghatározza az intelligencia alapvető működését. Az aktuálisan használt MI-technológia, különösen pedig a nagy nyelvi modellek (LLM-ek) viszont még bőven nem érték el ezt a küszöböt. A szintlépés a modellek képzési módjának alapvető átalakítását feltételezné, a nagy techvállalatok azonban inkább a meglévő eszközök képességeit foltozgatják, hogy felülkerekedjenek az egymással folytatott versenyben – olvasható a Business Insider riportjában.
A cikk LeCun egyik megszólalását idézi, amelynek értelmében a viszonylag intelligens állatok és persze az ember is képes a fizikai világ megértése, rendelkezik perzisztens emlékezettel, képes az érvelésre, illetve rendelkezik az összetett cselekvések hierarchikus tervezésének képességével. A nagy nyelvi modellek esetében azonban a dolog úgy működik, hogy már a fizikai világ megértéséhez is egy külön érzékelőrendszert kell betanítani, amit aztán összekapcsolnak az LLM-mel. A memóriát is az RAG-technikával, a modellek növelésével vagy más módszerekkel biztosítják, ezt azonban LeCun egyszerű "hekkelésnek" tarja.
Absztrakciós képesség nélkül maguk alá temetnek a részletek
A tudós alternatívaként olyan modelleket javasol, amelyeket valós helyzetekben tanítanak be, és magasabb szintű kognitív képességekkel rendelkeznek, mint a mintázatok felismerésével dolgozó mesterséges intelligencia. Röviden, a világ végtelen számú, kiszámíthatatlan lehetőség mentén alakul, így az MI képzésének egyetlen módja is az absztrakció lenne, amivel már a Meta is kísérletezik februárban bemutatott V-JEPA modelljén keresztül. Ennek során elvetették azt a megközelítést, hogy válogatás nélkül elemzik a nem releváns részleteket, ami a "világszimuláció" esetében lehetetlen és értelmetlen próbálkozás.
Az absztrakciót a részecskék, atomok, molekulák és anyagok hierarchiájához hasonlította, amiben ha feljebb lépünk egy-egy réteggel, rengeteg információt kell kiküszöbölni az alsóbb szintekről, hiszen lényegtelenné válnak az aktuális feladat szempontjából. A fizikai világ értelmezésére is ezt a megközelítést tartja célszerűnek a gépi intelligencia fejlesztésében, mert ez tenné lehetővé, hogy ha "van valami fogalmad a világ állapotáról a T időpontban, akkor elképzelj egy lehetséges cselekvést, megjósold, hogy annak nyomán hogyan alakul majd ez az állapot", figyelmen kívül hagyva a meg nem jósolható részleteket.
Ahogy korábban írtuk, LeCun már az OpenAI szövegből videókat generáló Sora MI-modellje kapcsán is kifejtette, hogy "a világ gyakorlati jelentőségű modellezése pixelgenerálással" nemcsak gazdaságtalan, hanem szükségszerűen kudarcra ítélt megközelítés. A szöveges kimenetek esetében azért lehet eredményes a módszer, mert a diszkrét halmazok és véges számú szimbólumok kezelhetővé teszik az előrejelzés bizonytalanságát, de a módszer alkalmatlan a világ működésének felfedezésére, mintha egy labda pályájának kiszámításakor a tömeg és a sebesség helyett a gyártása során használt anyagokat elemezgetnénk.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak