Épülnek a magyar nyelvű generatív mesterséges intelligencia modellek. Jelenleg két nagyobb szabású fejlesztés folyik. Az egyik komoly műhely az OTP Bankban működik. A 2021-ben jelentős hírveréssel elindított fejlesztést a bank és a magyar állam közösen finanszírozza, de a munkába hazai egyetemeket is bevontak. Az alapnyelvi modellhez 1,5 milliárd paramétert használtak, és jelenleg zajlik a 30 milliárd paraméterre bővítés. Ez alapvetően üzleti alapú fejlesztés, melynek célja, hogy vállalati és a magán ügyfelek igényeit is kiszolgálja, illetve növelje a bank hatékonyságát.
A Nyelvtudományi Intézet munkatársainak projektje kicsit általánosabb célú. Olyan magyar nyelvű generatív MI-t fejlesztenek – hivatalos nevén Puli-GPT, ami nem is meglepő, miután a leghíresebb magyar műholdat is a híres terelőkutyáról nevezték el –, egy mesterséges intelligencia-alapú szövegszerkesztő és nyelvelemző szoftvert. A Puli-GPT-t 41 milliárd szavas magyar és 62 milliárd szavas angol szövegállományon tanították. A Puli képes megadott szavak alapján összefüggő szövegeket írni, illetve össze tudja foglalni egy cikk vagy egy könyv tartalmát is. Csevegni még nem tud, de ez lesz a következő megvalósuló funkciója, ígérik a kutatók.
Kell-e magyar nyelvű generatív MI?
Látva a fejlesztések pénz- és erőforrásigényét, joggal vetődik fel, hogy szükség van-e önálló magyar nyelvű modellekre? Egy jó ok biztosan van rá: a jelenlegi MI-alkalmazások többsége nem képes magyar nyelvű utasításokat megérteni vagy információkat elemezni, és amelyik igen, ott sok a pontatlanság, áll a Gábor Dénes Egyetem hazai MI-fejlesztésekkel foglalkozó közleményében. Utóbbiban persze olyan mondatok is szerepelnek – talán egy pontatlan, idegen nyelven jobban tudó MI írta –, hogy a "magyar köztudottan az egyik legnehezebb nyelv a világon, amit csak a tízmillió magyar beszél" (nem). Az viszont valóban nyomós érv, hogy a magyar társadalom töredéke beszél jól idegen nyelveket.
Mivel azonban a magyar nem világnyelv (becslések szerint mintegy 17 millióan beszélhetik világszerte), erre fejleszteni MI-t nem igazán kifizetődő. Emiatt, írja az GDE közleménye, azok az MI-alapú alkalmazások, melyek a nagy világnyelveken szinte tökéletesen működnek, magyar nyelvre váltva sokat hibáznak. (Az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.)
A közlemény idézi Dr. Dietz Ferencet, a Mesterséges Intelligencia Koalíció oktatási és tudatosítási munkacsoportjának a vezetőjét, a Gábor Dénes Egyetem elnökét: "A nyelvi modelleken alapuló alkalmazások már megjelentek mind a köznevelésben, mind a felsőoktatásban. Ezek készségszintű, tudatos használata mind az egyén, mind a társadalom számára a jövőképesség, a siker feltétele. Jól működő magyar nyelvi modell, nemcsak szuverenitási, hanem jóléti kérdés is, mivel növeli az MI magyar haszonélvezőinek a körét."
Mélységesen egyetértünk ez elmondottakkal, ezért gyorsan meg is tudakoltuk a PULI GPT-3SX-től (a modell egy nyilvánosan elérhető demó változata):
Hogyan halad a Magyar Nyelvtudományi Intézetben a generatív mesterséges intelligencia fejlesztése?
És íme a válasz:
Mennyire alkalmazható ez a számítógépes nyelvészetben? Miben segítheti a nyelvtudományt a mesterséges intelligencia? Ezekre a kérdésekre kaphat választ az olvasó az első magyar nyelvű, szakmai cikkben bemutatott, a mesterséges intelligencia témakörét széles spektrumban vizsgáló folyóiratban.
A mesterséges intelligencia a nyelvészetben című, első magyar nyelven megjelenő, tudományos folyóirat célja, hogy az elméleti és alkalmazott nyelvészet különböző területein dolgozó kutatók számára teret biztosítson.
Talán mondanunk sem kell: nem találtunk folyóiratot "A mesterséges intelligencia a nyelvészetben".
Ezért módosítottunk a kérdésen:
Hogyan halad a Magyar Nyelvtudományi Intézetben a Puli-GPT fejlesztése?
És a válasz:
Miért pont a Puli nevet kapta a magyar holdjáró? Többek között ezekre a kérdésekre is választ kaptunk az MTA Nyelvtudományi Intézetének puli-kutatócsoportjában. A Puli-projektet az MTA Nyelvtudományi Intézete koordinálja. A kutatás célja egy magyar holdjáró fejlesztése, valamint a holdjáró tesztelése. A Puli névre keresztelt járműnek a tervek szerint a Google Lunar X
Egyelőre itt tartunk.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak