Egyes mesterségesintelligencia-modellek alacsony pontszámokat kaptak egy új ellenőrző eszközzel végzett tesztek során, és néhány területen biztosan javítaniuk kell, hogy elkerüljék majd az EU-s büntetéseket.

A legjelentősebb generatív MI-modellek némelyike olyan kulcsfontosságú területeken ​​marad el az európai szabályozástól, mint amilyen a kiberbiztonsági rugalmasság vagy a diszkriminatív működés – számolt be róla a Reuters a LatticeFlow szerdán közzétett eredményeire hivatkozva. A svájci startup és partnerei által tervezett, Large Language Model (LLM) Checker nevű eszközzel több tucat kategóriában tesztelték a nagy technológiai cégek megoldásait, figyelembe véve az EU következő két évben szakaszosan életbe lépő mesterségesintelligencia-szabályozását.

A LatticeFlow listáján 0 és 1 közötti pontszámokat rendeltek az egyes modellekhez, ennek alapján pedig az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral fejlesztései értek el 0,75-ös vagy annál magasabb átlagot. Feltárták azonban a rendszerek olyan hiányosságait is, amelyek alapján a vállalatoknak még komoly erőfeszítéseket kell tenniük a megfelelőség biztosítására, az uniós törvényeken fennakadó gyártók ugyanis 35 millió eurós vagy globális éves forgalmuk 7 százalékáig terjedő pénzbírságot kaphatnak az általános célú MI (GPAI) besorolás alá eső termékeikkel.

Nem rosszak, de a tökéletestől messze vannak

Bár a technológi gyakorlati szabályozásáról szóló rendelkezések csak jövő tavaszra készülhetnek el, a hírügynökség szerint a zürichi ETH egyetem és a bolgár INSAIT kutatóintézet bevonásával végzett tesztek így is korai betekintést nyújtanak abba, hogy az érintett cégek milyen dolgokon hasalnának el a legnagyobb eséllyel. A diszkriminatív kimenetek például régóta jelentenek makacs problémát, és a LatticeFlow vizsgálatai között is szerepelnek olyan csapnivaló eredmények, mint az OpenAI GPT-3.5 Turbo 0,46-os vagy az Alibaba Cloud Qwen1.5 72B Chat modell 0,37-es értékelése.

Egy másik érzékeny területet képviselnek azok a kibertámadások, amelyek során a rosszindulatú szereplők legitimnek tűnő parancsokkal próbálnak érzékeny információt kinyerni az MI-rendszerekből. Itt a Meta Llama 2 13B Chat modellje kapott 0,42-es pontszámot, míg a Mistral 8x7B Instruct mindössze 0,38 pontot ért el, szemben például az Anthropic Claude 3 Opus 0,89-es értékével. A LatticeFlow ugyanakkor pozitívnak nevezte a teszteredmények összességét, és ütemtervet is kínál az MI-törvény későbbi végrehajtási intézkedéseihez és megfelelőségi mérőszámaihoz való igazodásra.

A tervek szerint egyébként a Large Language Model Checkert ingyenesen teszik majd elérhetővé a fejlesztők számára, akik online tesztelhetik majd vele a modelljeiket. Az Európai Bizottság szóvivője üdvözölte a LatticeFlow tanulmányát, és a cég értékelési platformját úgy is az első lépésnek nevezte az uniós szabályok műszaki követelményekbe való átültetésében, hogy az EB hivatalosan nem erősíthette meg a tesztek eredményeit. A most vizsgált MI-termékek gyártói nem reagáltak a Reuters kérdéseire.

Cloud & big data

Trump újabb hónapokat adott a TikTok-üzletnek

A hét elején derült ki, hogy körvonalazódik a kínai tulajdonú app amerikai sorsát eldöntő megállapodás, amelynek részleteiről elkezdtek szállingózni a sajtópletykák.
 
Hirdetés

A kifizetett energia
60%-a elvész, de egy audit feltárja, hol folyik el a pénzünk

A Schneider Electric energiahatékonysági szolgáltatása átfogó megoldást kínál, amely támogatja a cégek energiahatékonyság-növelési programjaik megvalósításában, az iparágban vezető megoldások, szolgáltatások és szakértők segítségével.

A vállalati IT-rendszerek egyik legnagyobb kihívása ma már nem a hardver beszerzése vagy a szoftverek integrációja, hanem az üzemeltetés. A modern storage-megoldások válasza erre az automatizáció és a menedzsment egyszerűsítése.

a melléklet támogatója az EURO ONE

Hirdetés

Hatékony adattárolás, biztonságosabb működés: HPE storage az EURO ONE szakértelmével

Az adatmennyiség rohamos növekedése, a kritikus üzleti alkalmazások rendelkezésre állási követelményei és a kiberbiztonsági fenyegetések mind olyan tényezők, amelyek túlmutatnak a hagyományos storage-megoldások képességein.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2025 Bitport.hu Média Kft. Minden jog fenntartva.