Aki magyar, pulit nevel? Puli Space után Puli GPT

Bitport2024.01.31.Piaci hírek

Fejlesztői szerint egyre jobb a Nyelvtudományi Intézet munkatársai által kifejlesztett magyar nyelvű generatív MI modell, a Puli-GPT.

Épülnek a magyar nyelvű generatív mesterséges intelligencia modellek. Jelenleg két nagyobb szabású fejlesztés folyik. Az egyik komoly műhely az OTP Bankban működik. A 2021-ben jelentős hírveréssel elindított fejlesztést a bank és a magyar állam közösen finanszírozza, de a munkába hazai egyetemeket is bevontak. Az alapnyelvi modellhez 1,5 milliárd paramétert használtak, és jelenleg zajlik a 30 milliárd paraméterre bővítés. Ez alapvetően üzleti alapú fejlesztés, melynek célja, hogy vállalati és a magán ügyfelek igényeit is kiszolgálja, illetve növelje a bank hatékonyságát.

A Nyelvtudományi Intézet munkatársainak projektje kicsit általánosabb célú. Olyan magyar nyelvű generatív MI-t fejlesztenek – hivatalos nevén Puli-GPT, ami nem is meglepő, miután a leghíresebb magyar műholdat is a híres terelőkutyáról nevezték el –, egy mesterséges intelligencia-alapú szövegszerkesztő és nyelvelemző szoftvert. A Puli-GPT-t 41 milliárd szavas magyar és 62 milliárd szavas angol szövegállományon tanították. A Puli képes megadott szavak alapján összefüggő szövegeket írni, illetve össze tudja foglalni egy cikk vagy egy könyv tartalmát is. Csevegni még nem tud, de ez lesz a következő megvalósuló funkciója, ígérik a kutatók.

Kell-e magyar nyelvű generatív MI?

Látva a fejlesztések pénz- és erőforrásigényét, joggal vetődik fel, hogy szükség van-e önálló magyar nyelvű modellekre? Egy jó ok biztosan van rá: a jelenlegi MI-alkalmazások többsége nem képes magyar nyelvű utasításokat megérteni vagy információkat elemezni, és amelyik igen, ott sok a pontatlanság, áll a Gábor Dénes Egyetem hazai MI-fejlesztésekkel foglalkozó közleményében. Utóbbiban persze olyan mondatok is szerepelnek – talán egy pontatlan, idegen nyelven jobban tudó MI írta –, hogy a "magyar köztudottan az egyik legnehezebb nyelv a világon, amit csak a tízmillió magyar beszél" (nem). Az viszont valóban nyomós érv, hogy a magyar társadalom töredéke beszél jól idegen nyelveket.

Mivel azonban a magyar nem világnyelv (becslések szerint mintegy 17 millióan beszélhetik világszerte), erre fejleszteni MI-t nem igazán kifizetődő. Emiatt, írja az GDE közleménye, azok az MI-alapú alkalmazások, melyek a nagy világnyelveken szinte tökéletesen működnek, magyar nyelvre váltva sokat hibáznak. (Az OpenAI kb. 180 milliárd szavas angol és mindössze 120-130 millió szavas magyar szövegállományt használt a ChatGPT tanításához.)

A közlemény idézi Dr. Dietz Ferencet, a Mesterséges Intelligencia Koalíció oktatási és tudatosítási munkacsoportjának a vezetőjét, a Gábor Dénes Egyetem elnökét: "A nyelvi modelleken alapuló alkalmazások már megjelentek mind a köznevelésben, mind a felsőoktatásban. Ezek készségszintű, tudatos használata mind az egyén, mind a társadalom számára a jövőképesség, a siker feltétele. Jól működő magyar nyelvi modell, nemcsak szuverenitási, hanem jóléti kérdés is, mivel növeli az MI magyar haszonélvezőinek a körét."

Mélységesen egyetértünk ez elmondottakkal, ezért gyorsan meg is tudakoltuk a PULI GPT-3SX-től (a modell egy nyilvánosan elérhető demó változata):

Hogyan halad a Magyar Nyelvtudományi Intézetben a generatív mesterséges intelligencia fejlesztése?

És íme a válasz:

Mennyire alkalmazható ez a számítógépes nyelvészetben? Miben segítheti a nyelvtudományt a mesterséges intelligencia? Ezekre a kérdésekre kaphat választ az olvasó az első magyar nyelvű, szakmai cikkben bemutatott, a mesterséges intelligencia témakörét széles spektrumban vizsgáló folyóiratban.
A mesterséges intelligencia a nyelvészetben című, első magyar nyelven megjelenő, tudományos folyóirat célja, hogy az elméleti és alkalmazott nyelvészet különböző területein dolgozó kutatók számára teret biztosítson.

Talán mondanunk sem kell: nem találtunk folyóiratot "A mesterséges intelligencia a nyelvészetben".

Ezért módosítottunk a kérdésen:
Hogyan halad a Magyar Nyelvtudományi Intézetben a Puli-GPT fejlesztése?

És a válasz:
Miért pont a Puli nevet kapta a magyar holdjáró? Többek között ezekre a kérdésekre is választ kaptunk az MTA Nyelvtudományi Intézetének puli-kutatócsoportjában. A Puli-projektet az MTA Nyelvtudományi Intézete koordinálja. A kutatás célja egy magyar holdjáró fejlesztése, valamint a holdjáró tesztelése. A Puli névre keresztelt járműnek a tervek szerint a Google Lunar X

Egyelőre itt tartunk.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Piaci hírek

Hamarosan jóval drágább lesz a digitális életünk

Áremelésre készülnek a szerver- és PC-gyártók, és áremelésre készül a Microsoft is. Mindenkinek megvan a nyomós érve, hogy miért.

A hónap témája

Hogyan lett a riportolásból döntésautomatizálás?

Az üzleti intelligencia sokáig a múltban történtek értékelésről szólt. Napjainkban viszont már inkább az a kérdés, hogy mi történik holnap; különösen akkor, ha módosítjuk a vállalati működés valamelyik paraméterét.

a melléklet támogatója a One Solutions

CIO Podcast

Podcast: Miért kell négy céget nyolc részre vágni, hogy kettőt csináljunk belőlük?

CIO Podcast #66: A DÁP projekt és a piac. A szembesítés félórája

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Hamarosan jóval drágább lesz a digitális életünk

Hogyan lett a riportolásból döntésautomatizálás?

Podcast: Miért kell négy céget nyolc részre vágni, hogy kettőt csináljunk belőlük?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia