A DarkBERT-et nem a felszíni interneten gyűjtött adatkészleteken képzik, és állítólag már sokkal jobban eligazodik az internet sötét oldalán, mint az eddigi megoldások.

Az OpenAI ChatGPT-jét és más nagy nyelvi modelleket (large language model, LLM) is olyan adatkészletek segítségével képzik ki, amelyeket osztályozás nélküli adattömegként porszívóznak fel a publikus internet szegleteiből. Ebből azonban kézefekvő módon kimarad a láthatatlan web (deep web), vagyis a világhálónak az része, amelyet nem indexelnek az általános keresőmotorok. Ennek méretét több százszorosára becsülik ahhoz a felszíni internethez lépest, amelyet a keresők révén a hétköznapi felhasználók is könnyedén elérnek, a láthatatlan webnek pedig arányaiban nem nagy, de fontos részét jelentik a sötét webnek (dark web vagy darknet) nevezett hálózatok.

Ezek elérése speciális szoftvereket vagy engedélyeket igényel, és anonim csatornákat biztosít a kommunikációhoz vagy az illegális üzleti tevékenységekhez. Egy dél-koreai kutatócsoport most éppen ezeknek az online tartományoknak az indexelésére hozott létre egy új MI-modellet, hogy a korábbinál mélyebb betekintést szerezzen a rosszindulatú tevékenységek szinonimájává vált dark weben. Az LLM-ek ilyen irányú alkalmazása első pillantásra ijesztőnek tűnik, de a kutatóképpen azért tanítják a sötét weben a DarkBERT-nek nevezett rendszert, hogy új eszközökkel gazdagítsa a kiberbűnözés elleni küzdelmet, ahol egyébként is felfutóban van a természetes nyelvi feldolgozás.

Állítólag egész jól eligazodik

Az internet ezen részeinek feltérképezése éppen azért nehéz feladat, mert a Google és más keresők nem indexelik, és gyakran eleve csak meghatározott programokon keresztül érhetők el. A DarkBERT-ről nemrég kiadott tanulmány szerint a modell a Tor hálózathoz, a sötét web egyes részeihez is hozzáférést biztosító rendszerhez kötötték, ahol aztán nekilátott egy saját adatbázis felépítésének az onnan összegereblyézett nyers adatokból. Bár ez utóbbi sok információt tartalmaz, feldolgozatlan állapotban ez értelemszerűen nem hasznosítható, az új nyelvi modell pedig a kutatók szerint éppen azzal brillírozik, hogy más megoldásoknál sokkal jobban érti a sötét webet.

Ilyen kísérletekre ugyanis nem ez az első példa: a beszámolókban azt a a RoBERTa-t emlegetik, amelyet a Facebook kutatói még 2019-ben hoztak létre arra, hogy felfedezze a szándékosan elrejtett tartalmat a megjegyzésekkel el nem látott nyelvi példákban is. A DarkBERT alkotói most azt közölték, hogy az általuk fejlesztett osztályozási modell hatékonyabb az ismert (és előzetesen kiképzett) nyelvi modelleknél, ezért értékelésük szerint különféle kiberbiztonsági feladatokra lesz majd használható – ilyen lenne mondjuk a zsarolóprogramokkal kereskedő és bizalmas adatokat szivárogtató webhelyek felderítése, vagy a rendszeresen frissülő sötét webes főrumok megfigyelésére.

Biztonság

Pénzben fürdetik Elon Musk mesterségesintelligencia-cégét is

A jelek szerint a befektetők képtelenek nemet mondani, ha a világ (ebben a pillanatban harmadik) leggazdagabb embere kitalál valamit.
 
Bejelentési kötelezettségük elmulasztása, és a szabályoknak való sorozatos meg nem felelés komoly pénzbírságot vonhat maga után.

a melléklet támogatója a Balasys IT Zrt.

Hirdetés

Biztonságos M2M kommunikáció nagyvállalti környezetben a Balasystól

A megnövekedett támadások miatt az API-k biztonsága erősen szabályozott és folyamatosan auditált terület, amelynek védelme a gépi kommunikáció (M2M) biztonságossá tételén múlik.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.