Egyes mesterségesintelligencia-modellek alacsony pontszámokat kaptak egy új ellenőrző eszközzel végzett tesztek során, és néhány területen biztosan javítaniuk kell, hogy elkerüljék majd az EU-s büntetéseket.

A legjelentősebb generatív MI-modellek némelyike olyan kulcsfontosságú területeken ​​marad el az európai szabályozástól, mint amilyen a kiberbiztonsági rugalmasság vagy a diszkriminatív működés – számolt be róla a Reuters a LatticeFlow szerdán közzétett eredményeire hivatkozva. A svájci startup és partnerei által tervezett, Large Language Model (LLM) Checker nevű eszközzel több tucat kategóriában tesztelték a nagy technológiai cégek megoldásait, figyelembe véve az EU következő két évben szakaszosan életbe lépő mesterségesintelligencia-szabályozását.

A LatticeFlow listáján 0 és 1 közötti pontszámokat rendeltek az egyes modellekhez, ennek alapján pedig az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral fejlesztései értek el 0,75-ös vagy annál magasabb átlagot. Feltárták azonban a rendszerek olyan hiányosságait is, amelyek alapján a vállalatoknak még komoly erőfeszítéseket kell tenniük a megfelelőség biztosítására, az uniós törvényeken fennakadó gyártók ugyanis 35 millió eurós vagy globális éves forgalmuk 7 százalékáig terjedő pénzbírságot kaphatnak az általános célú MI (GPAI) besorolás alá eső termékeikkel.

Nem rosszak, de a tökéletestől messze vannak

Bár a technológi gyakorlati szabályozásáról szóló rendelkezések csak jövő tavaszra készülhetnek el, a hírügynökség szerint a zürichi ETH egyetem és a bolgár INSAIT kutatóintézet bevonásával végzett tesztek így is korai betekintést nyújtanak abba, hogy az érintett cégek milyen dolgokon hasalnának el a legnagyobb eséllyel. A diszkriminatív kimenetek például régóta jelentenek makacs problémát, és a LatticeFlow vizsgálatai között is szerepelnek olyan csapnivaló eredmények, mint az OpenAI GPT-3.5 Turbo 0,46-os vagy az Alibaba Cloud Qwen1.5 72B Chat modell 0,37-es értékelése.

Egy másik érzékeny területet képviselnek azok a kibertámadások, amelyek során a rosszindulatú szereplők legitimnek tűnő parancsokkal próbálnak érzékeny információt kinyerni az MI-rendszerekből. Itt a Meta Llama 2 13B Chat modellje kapott 0,42-es pontszámot, míg a Mistral 8x7B Instruct mindössze 0,38 pontot ért el, szemben például az Anthropic Claude 3 Opus 0,89-es értékével. A LatticeFlow ugyanakkor pozitívnak nevezte a teszteredmények összességét, és ütemtervet is kínál az MI-törvény későbbi végrehajtási intézkedéseihez és megfelelőségi mérőszámaihoz való igazodásra.

A tervek szerint egyébként a Large Language Model Checkert ingyenesen teszik majd elérhetővé a fejlesztők számára, akik online tesztelhetik majd vele a modelljeiket. Az Európai Bizottság szóvivője üdvözölte a LatticeFlow tanulmányát, és a cég értékelési platformját úgy is az első lépésnek nevezte az uniós szabályok műszaki követelményekbe való átültetésében, hogy az EB hivatalosan nem erősíthette meg a tesztek eredményeit. A most vizsgált MI-termékek gyártói nem reagáltak a Reuters kérdéseire.

Cloud & big data

Kína a "digitális embereket" is tornasorba állítja

Az illetékes szabályozó hatóság legújabb tervezete már stratégiai tudományos problémának minősíti az MI-személyiségek szabályozását, ahol a megfelelő irányítást nem biztosíthatják önmagukban a kialakulóban lévő iparági normák.
 
Az új technológiák alapjaiban írják át az alkalmazásbiztonság szabályait. Most hatványozottan igaz, hogy szárazon kell tartani a puskaport.

a melléklet támogatója a Clico

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.