Egy friss kutatás alapján elég egyszerű megkerülni a ChatGPT, a Bard vagy a Claude esetében alkalmazott biztonsági korlátozásokat, ami nyugtalanító képet fest az új technológia környezetének kiszámíthatatlanságáról.

A generatív MI-eszközök mögött álló vállalatok elvileg folyamatosan fejlesztik azokat a biztonsági funkciókat is, amelyek képesek megakadályozni a hamis információ vagy a más módon káros tartalmak létrehozását és terjesztését. Ezek a biztonsági intézkedések azonban nem érnek sokat, ha valaki tudatosan ki akarja játszani őket – derült ki a Carnegie Mellon Egyetem és a Center for AI Safety kutatóinak kísérletéből, amelynek során sebezhető pontokat kerestek a ChatGPT (OpenAI), a Bard (Google) vagy a Claude (Anthropic) intelligens chatbotokban. A nagy nyelvi modellek (LLM) automatizált támadásával ugyanis sikerült átverniük a rendszereket, megkerülve a félretájékoztatás és gyűlöletbeszéd ellen felállított tartalomszűrőket.

A The New York Times beszámolója szerint egy nyílt forrású MI-rendszert használtak a modellek ellen. Mivel a robotoknak direktben nem lehet feltenni az illegális tevékenységeket, erőszakot vagy hasonló témákat nem megfelelő módon tárgyaló kérdéseket, a szakemberek egyszerűen átverték a rendszereket, hosszú karaktersorozatot fűzve a promptok végéhez. Amikor a chatbotok feldolgozták az álcázott parancsokat, az extra karakterek miatt nem voltak képesek felismerni a blokkolt vagy módosítandó információt, és olyan válaszokat generáltak, amelyeket normális körülmények között nem hoztak volna létre. Ez pedig nyilván a modellek sebezhetőségét mutatja, ami könnyen vezethet a velük kapcsolatos visszaéléshez.

A tetővel kezdték építeni a házat

Mivel az MI-chatbotok ilyen könnyen félreértelmezik a bemeneteket, a kutatók szerint biztonsági készségek és a tartalomszűrők felépítésének teljes újraértékelésére is szükség lehet. A ZDnet riportja a kísérlet egyik vezetőjét idézi, aki úgy látja, hogy az ilyen típusú sebezhetőségek folyamatos kutatása felgyorsíthatja az MI-rendszerekre vonatkozó kormányzati szabályozások kidolgozását. A problémára azonban ő sem lát kézenfekvő megoldást, hiszen éppen az MI-nek köszönhetően rövid idő alatt is tetszőleges számú támadást lehet lezavarni a ChatGPT és a többi szolgáltatás ellen. A szerzők az érintett cégekkel is megosztották eredményeiket, akik állítólag elismerték, hogy több munkára lesz szükség a modellek védelméhez.

Néhány héttel korábban mi is beszámoltunk egy másik demonstrációról, amikor a Mithril Security munkatársai egy nyílt forrású nagy nyelvi modellt módosítottak, hogy az téves információt terjesszen egy adott témakörben. A "mérgezett" LLM azonban minden más feladatnál megőrizte normális működését, így a hagyományos benchmarkok sem voltak képesek kiszűrni a rendellenességet. Mint kiderült, nem igazán létezik kielégítő megoldás a modellek eredetének meghatározására, nem beszélve a betanításuk során felhasznált adatokról. Mivel a rendszerek képzése erőforrásigényes, sokan veszik igénybe harmadik felek előre betanított megoldásait, az ellátási lánc sérülékenységét pedig a rosszindulatú szereplők is kihasználhatják.

Biztonság

Jobb lesz attól a Claude, hogy kódjának 80 százalékát a Claude írja?

Igen, jobb lesz, hatékonyabb lesz – ám ez nem lesz ingyen. Az IT-irányítás, a biztonság, a megfelelés és a csapatkohézió is megszenvedheti.
 
Hirdetés

Szintet lép a Synology: Érkezik a PAS7700 csúcskategóriás vállalati flash tároló

Ahogy a vállalati IT-környezetek az AI-alapú folyamatok, a virtualizáció, a nagy teljesítményű adatbázisok és a folyamatosan elérhető digitális szolgáltatások nyomása alatt fejlődnek, a szervezetek egyre inkább olyan tárolóinfrastruktúrát igényelnek, amely kompromisszumok nélküli teljesítményt, rugalmasságot és skálázhatóságot biztosít.

Önmagukban a sikeres pilotprojektek nem kövezik ki a hosszútávon is jól működő AIaaS- és RPAaaS-használat útját. A szemléletváltáson kívül akad még pár dolog, amit figyelembe kell venni.
Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.