A legjelentősebb generatív MI-modellek némelyike olyan kulcsfontosságú területeken marad el az európai szabályozástól, mint amilyen a kiberbiztonsági rugalmasság vagy a diszkriminatív működés – számolt be róla a Reuters a LatticeFlow szerdán közzétett eredményeire hivatkozva. A svájci startup és partnerei által tervezett, Large Language Model (LLM) Checker nevű eszközzel több tucat kategóriában tesztelték a nagy technológiai cégek megoldásait, figyelembe véve az EU következő két évben szakaszosan életbe lépő mesterségesintelligencia-szabályozását.
A LatticeFlow listáján 0 és 1 közötti pontszámokat rendeltek az egyes modellekhez, ennek alapján pedig az Alibaba, az Anthropic, az OpenAI, a Meta és a Mistral fejlesztései értek el 0,75-ös vagy annál magasabb átlagot. Feltárták azonban a rendszerek olyan hiányosságait is, amelyek alapján a vállalatoknak még komoly erőfeszítéseket kell tenniük a megfelelőség biztosítására, az uniós törvényeken fennakadó gyártók ugyanis 35 millió eurós vagy globális éves forgalmuk 7 százalékáig terjedő pénzbírságot kaphatnak az általános célú MI (GPAI) besorolás alá eső termékeikkel.
Nem rosszak, de a tökéletestől messze vannak
Bár a technológi gyakorlati szabályozásáról szóló rendelkezések csak jövő tavaszra készülhetnek el, a hírügynökség szerint a zürichi ETH egyetem és a bolgár INSAIT kutatóintézet bevonásával végzett tesztek így is korai betekintést nyújtanak abba, hogy az érintett cégek milyen dolgokon hasalnának el a legnagyobb eséllyel. A diszkriminatív kimenetek például régóta jelentenek makacs problémát, és a LatticeFlow vizsgálatai között is szerepelnek olyan csapnivaló eredmények, mint az OpenAI GPT-3.5 Turbo 0,46-os vagy az Alibaba Cloud Qwen1.5 72B Chat modell 0,37-es értékelése.
Egy másik érzékeny területet képviselnek azok a kibertámadások, amelyek során a rosszindulatú szereplők legitimnek tűnő parancsokkal próbálnak érzékeny információt kinyerni az MI-rendszerekből. Itt a Meta Llama 2 13B Chat modellje kapott 0,42-es pontszámot, míg a Mistral 8x7B Instruct mindössze 0,38 pontot ért el, szemben például az Anthropic Claude 3 Opus 0,89-es értékével. A LatticeFlow ugyanakkor pozitívnak nevezte a teszteredmények összességét, és ütemtervet is kínál az MI-törvény későbbi végrehajtási intézkedéseihez és megfelelőségi mérőszámaihoz való igazodásra.
A tervek szerint egyébként a Large Language Model Checkert ingyenesen teszik majd elérhetővé a fejlesztők számára, akik online tesztelhetik majd vele a modelljeiket. Az Európai Bizottság szóvivője üdvözölte a LatticeFlow tanulmányát, és a cég értékelési platformját úgy is az első lépésnek nevezte az uniós szabályok műszaki követelményekbe való átültetésében, hogy az EB hivatalosan nem erősíthette meg a tesztek eredményeit. A most vizsgált MI-termékek gyártói nem reagáltak a Reuters kérdéseire.
Az ötlettől az értékteremtésig – egy jól működő adattudományi szervezet alapjai
Miért bukik el annyi adattudományi kezdeményezés már az indulás után? A válasz gyakran nem az algoritmusok összetettségében, hanem az adatok minőségében és kezelésében keresendő. Stabil adatforrások, következetes feature-kezelés és egy jól felépített Feature Store nélkül a gépi tanulás ritkán jut el a valódi üzleti értékteremtésig.
EGY NAPBA SŰRÍTÜNK MINDENT, AMIT MA EGY PROJEKTMENEDZSERNEK TUDNIA KELL!
Ütős esettanulmányok AI-ról, agilitásról, csapattopológiáról. Folyamatos programok három teremben és egy közösségi térben: exkluzív információk, előadások, interaktív workshopok, networking, tapasztalatcsere.
2026.03.10. UP Rendezvénytér
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak