Egyes mesterségesintelligencia-modellek alacsony pontszámokat kaptak egy új ellenőrző eszközzel végzett tesztek során, és néhány területen biztosan javítaniuk kell, hogy elkerüljék majd az EU-s büntetéseket.

A legjelentősebb generatív MI-modellek némelyike olyan kulcsfontosságú területeken ​​marad el az európai szabályozástól, mint amilyen a kiberbiztonsági rugalmasság vagy a diszkriminatív működés – számolt be róla a Reuters a LatticeFlow szerdán közzétett eredményeire hivatkozva. A svájci startup és partnerei által tervezett, Large Language Model (LLM) Checker nevű eszközzel több tucat kategóriában tesztelték a nagy technológiai cégek megoldásait, figyelembe véve az EU következő két évben szakaszosan életbe lépő mesterségesintelligencia-szabályozását.

A LatticeFlow listáján 0 és 1 közötti pontszámokat rendeltek az egyes modellekhez, ennek alapján pedig az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral fejlesztései értek el 0,75-ös vagy annál magasabb átlagot. Feltárták azonban a rendszerek olyan hiányosságait is, amelyek alapján a vállalatoknak még komoly erőfeszítéseket kell tenniük a megfelelőség biztosítására, az uniós törvényeken fennakadó gyártók ugyanis 35 millió eurós vagy globális éves forgalmuk 7 százalékáig terjedő pénzbírságot kaphatnak az általános célú MI (GPAI) besorolás alá eső termékeikkel.

Nem rosszak, de a tökéletestől messze vannak

Bár a technológi gyakorlati szabályozásáról szóló rendelkezések csak jövő tavaszra készülhetnek el, a hírügynökség szerint a zürichi ETH egyetem és a bolgár INSAIT kutatóintézet bevonásával végzett tesztek így is korai betekintést nyújtanak abba, hogy az érintett cégek milyen dolgokon hasalnának el a legnagyobb eséllyel. A diszkriminatív kimenetek például régóta jelentenek makacs problémát, és a LatticeFlow vizsgálatai között is szerepelnek olyan csapnivaló eredmények, mint az OpenAI GPT-3.5 Turbo 0,46-os vagy az Alibaba Cloud Qwen1.5 72B Chat modell 0,37-es értékelése.

Egy másik érzékeny területet képviselnek azok a kibertámadások, amelyek során a rosszindulatú szereplők legitimnek tűnő parancsokkal próbálnak érzékeny információt kinyerni az MI-rendszerekből. Itt a Meta Llama 2 13B Chat modellje kapott 0,42-es pontszámot, míg a Mistral 8x7B Instruct mindössze 0,38 pontot ért el, szemben például az Anthropic Claude 3 Opus 0,89-es értékével. A LatticeFlow ugyanakkor pozitívnak nevezte a teszteredmények összességét, és ütemtervet is kínál az MI-törvény későbbi végrehajtási intézkedéseihez és megfelelőségi mérőszámaihoz való igazodásra.

A tervek szerint egyébként a Large Language Model Checkert ingyenesen teszik majd elérhetővé a fejlesztők számára, akik online tesztelhetik majd vele a modelljeiket. Az Európai Bizottság szóvivője üdvözölte a LatticeFlow tanulmányát, és a cég értékelési platformját úgy is az első lépésnek nevezte az uniós szabályok műszaki követelményekbe való átültetésében, hogy az EB hivatalosan nem erősíthette meg a tesztek eredményeit. A most vizsgált MI-termékek gyártói nem reagáltak a Reuters kérdéseire.

Cloud & big data

Több mint félszázezer műholddal sűrítené az égboltot Bezos cége

A Blue Origin amerikai hatóságokhoz beadott kérelme szerint akár 51 600 szatellitből is állhat a vállalt tervezett adatközpontos űrflottája.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Hirdetés

HPE Morpheus VM Essentials: a virtualizáció arany középútja

Minden, amire valóban szükség van, ügyfélbarát licenceléssel és HPE támogatással - a virtualizációs feladatok teljes életciklusát végigkíséri az EURO ONE Számítástástechnikai Zrt.

A VMware felvásárlása és licencelési gyakorlatának átalakítása erősen rányomta a bélyegét az adatközponti infrastruktúrára: a korábban kiszámítható alap bizonytalanná és gyakran költségesebbé vált.

a melléklet támogatója az EURO ONE

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.