Egyes mesterségesintelligencia-modellek alacsony pontszámokat kaptak egy új ellenőrző eszközzel végzett tesztek során, és néhány területen biztosan javítaniuk kell, hogy elkerüljék majd az EU-s büntetéseket.
Hirdetés
 

A legjelentősebb generatív MI-modellek némelyike olyan kulcsfontosságú területeken ​​marad el az európai szabályozástól, mint amilyen a kiberbiztonsági rugalmasság vagy a diszkriminatív működés – számolt be róla a Reuters a LatticeFlow szerdán közzétett eredményeire hivatkozva. A svájci startup és partnerei által tervezett, Large Language Model (LLM) Checker nevű eszközzel több tucat kategóriában tesztelték a nagy technológiai cégek megoldásait, figyelembe véve az EU következő két évben szakaszosan életbe lépő mesterségesintelligencia-szabályozását.

A LatticeFlow listáján 0 és 1 közötti pontszámokat rendeltek az egyes modellekhez, ennek alapján pedig az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral fejlesztései értek el 0,75-ös vagy annál magasabb átlagot. Feltárták azonban a rendszerek olyan hiányosságait is, amelyek alapján a vállalatoknak még komoly erőfeszítéseket kell tenniük a megfelelőség biztosítására, az uniós törvényeken fennakadó gyártók ugyanis 35 millió eurós vagy globális éves forgalmuk 7 százalékáig terjedő pénzbírságot kaphatnak az általános célú MI (GPAI) besorolás alá eső termékeikkel.

Nem rosszak, de a tökéletestől messze vannak

Bár a technológi gyakorlati szabályozásáról szóló rendelkezések csak jövő tavaszra készülhetnek el, a hírügynökség szerint a zürichi ETH egyetem és a bolgár INSAIT kutatóintézet bevonásával végzett tesztek így is korai betekintést nyújtanak abba, hogy az érintett cégek milyen dolgokon hasalnának el a legnagyobb eséllyel. A diszkriminatív kimenetek például régóta jelentenek makacs problémát, és a LatticeFlow vizsgálatai között is szerepelnek olyan csapnivaló eredmények, mint az OpenAI GPT-3.5 Turbo 0,46-os vagy az Alibaba Cloud Qwen1.5 72B Chat modell 0,37-es értékelése.

Egy másik érzékeny területet képviselnek azok a kibertámadások, amelyek során a rosszindulatú szereplők legitimnek tűnő parancsokkal próbálnak érzékeny információt kinyerni az MI-rendszerekből. Itt a Meta Llama 2 13B Chat modellje kapott 0,42-es pontszámot, míg a Mistral 8x7B Instruct mindössze 0,38 pontot ért el, szemben például az Anthropic Claude 3 Opus 0,89-es értékével. A LatticeFlow ugyanakkor pozitívnak nevezte a teszteredmények összességét, és ütemtervet is kínál az MI-törvény későbbi végrehajtási intézkedéseihez és megfelelőségi mérőszámaihoz való igazodásra.

A tervek szerint egyébként a Large Language Model Checkert ingyenesen teszik majd elérhetővé a fejlesztők számára, akik online tesztelhetik majd vele a modelljeiket. Az Európai Bizottság szóvivője üdvözölte a LatticeFlow tanulmányát, és a cég értékelési platformját úgy is az első lépésnek nevezte az uniós szabályok műszaki követelményekbe való átültetésében, hogy az EB hivatalosan nem erősíthette meg a tesztek eredményeit. A most vizsgált MI-termékek gyártói nem reagáltak a Reuters kérdéseire.

Cloud & big data

Hasít a kelet-közép-európai és a magyar vezetékes net?

Az nPerf közleménye szerint igen. A régióban Magyarországon, Romániában, Szlovéniában, Moldovában és Szlovákiában is jó a vezetékes net.
 
Hirdetés

Produktivitás mint stratégiai előny: mit csinálnak másként a sikeres cégek?

A META-INF által szervezett Productivity Day 2026 idén a mesterséges intelligencia és a vállalati produktivitás kapcsolatát helyezi fókuszba. Az esemény középpontjában a META-INF nagyszabású produktivitási kutatásának bemutatása áll, amely átfogó képet nyújt a magyar vállalatok hatékonyságáról és működési kihívásairól.

Vezetői példamutatás és megfelelő oktatás, vállalatikultúra-váltás nélkül gyakorlatilag lehetetlen adatvezérelt működést bevezetni. Cikkünk nemcsak a buktatókról, hanem azok elkerülésének módjairól is szól.

EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!

Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.

2026.03.10. UP Rendezvénytér

RÉSZLETEK »

A PMI Budapest, Magyar Tagozat májusban rendezi meg az Art of Projects szakmai konferenciát. A rendezvény kapcsán rövid írásokban foglalkozunk a projektmenedzsment szakma újdonságaival. Az első téma: mit gondolunk ma a projekttervezésről?

Régen minden jobb volt? A VMware licencelési változásai

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.