A DarkBERT-et nem a felszíni interneten gyűjtött adatkészleteken képzik, és állítólag már sokkal jobban eligazodik az internet sötét oldalán, mint az eddigi megoldások.

Az OpenAI ChatGPT-jét és más nagy nyelvi modelleket (large language model, LLM) is olyan adatkészletek segítségével képzik ki, amelyeket osztályozás nélküli adattömegként porszívóznak fel a publikus internet szegleteiből. Ebből azonban kézefekvő módon kimarad a láthatatlan web (deep web), vagyis a világhálónak az része, amelyet nem indexelnek az általános keresőmotorok. Ennek méretét több százszorosára becsülik ahhoz a felszíni internethez lépest, amelyet a keresők révén a hétköznapi felhasználók is könnyedén elérnek, a láthatatlan webnek pedig arányaiban nem nagy, de fontos részét jelentik a sötét webnek (dark web vagy darknet) nevezett hálózatok.

Ezek elérése speciális szoftvereket vagy engedélyeket igényel, és anonim csatornákat biztosít a kommunikációhoz vagy az illegális üzleti tevékenységekhez. Egy dél-koreai kutatócsoport most éppen ezeknek az online tartományoknak az indexelésére hozott létre egy új MI-modellet, hogy a korábbinál mélyebb betekintést szerezzen a rosszindulatú tevékenységek szinonimájává vált dark weben. Az LLM-ek ilyen irányú alkalmazása első pillantásra ijesztőnek tűnik, de a kutatóképpen azért tanítják a sötét weben a DarkBERT-nek nevezett rendszert, hogy új eszközökkel gazdagítsa a kiberbűnözés elleni küzdelmet, ahol egyébként is felfutóban van a természetes nyelvi feldolgozás.

Állítólag egész jól eligazodik

Az internet ezen részeinek feltérképezése éppen azért nehéz feladat, mert a Google és más keresők nem indexelik, és gyakran eleve csak meghatározott programokon keresztül érhetők el. A DarkBERT-ről nemrég kiadott tanulmány szerint a modell a Tor hálózathoz, a sötét web egyes részeihez is hozzáférést biztosító rendszerhez kötötték, ahol aztán nekilátott egy saját adatbázis felépítésének az onnan összegereblyézett nyers adatokból. Bár ez utóbbi sok információt tartalmaz, feldolgozatlan állapotban ez értelemszerűen nem hasznosítható, az új nyelvi modell pedig a kutatók szerint éppen azzal brillírozik, hogy más megoldásoknál sokkal jobban érti a sötét webet.

Ilyen kísérletekre ugyanis nem ez az első példa: a beszámolókban azt a a RoBERTa-t emlegetik, amelyet a Facebook kutatói még 2019-ben hoztak létre arra, hogy felfedezze a szándékosan elrejtett tartalmat a megjegyzésekkel el nem látott nyelvi példákban is. A DarkBERT alkotói most azt közölték, hogy az általuk fejlesztett osztályozási modell hatékonyabb az ismert (és előzetesen kiképzett) nyelvi modelleknél, ezért értékelésük szerint különféle kiberbiztonsági feladatokra lesz majd használható – ilyen lenne mondjuk a zsarolóprogramokkal kereskedő és bizalmas adatokat szivárogtató webhelyek felderítése, vagy a rendszeresen frissülő sötét webes főrumok megfigyelésére.

Biztonság

Egyre furcsábbak lesznek a CAPTCHA tesztek, ahogy a gépek is okosodnak

Már nagyon jók például például a fényképek címkézésében, de a logikai összefüggéseken könnyen fennakadnak. Igaz, ezzel így lehet némelyik emberi felhasználó is.
 
Hirdetés

Adathelyreállítás pillanatok alatt

A vírus- és végpontvédelmet hatékonyan kiegészítő Zerto, a Hewlett Packard Enterprise Company platformfüggetlen, könnyen használható adatmentési és katasztrófaelhárítási megoldása.

A válasz egyszerű: arról függ, hogy hol, hogyan és milyen szabályozásoknak és üzleti elvárásoknak megfelelően tároljuk az információt. A lényeg azonban a részletekben rejlik.

a melléklet támogatója az EURO ONE Számítástechnikai Zrt.

CIO KUTATÁS

TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?

Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »

Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!

LÁSSUNK NEKI!

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.