Az OpenAI ChatGPT-jét és más nagy nyelvi modelleket (large language model, LLM) is olyan adatkészletek segítségével képzik ki, amelyeket osztályozás nélküli adattömegként porszívóznak fel a publikus internet szegleteiből. Ebből azonban kézefekvő módon kimarad a láthatatlan web (deep web), vagyis a világhálónak az része, amelyet nem indexelnek az általános keresőmotorok. Ennek méretét több százszorosára becsülik ahhoz a felszíni internethez lépest, amelyet a keresők révén a hétköznapi felhasználók is könnyedén elérnek, a láthatatlan webnek pedig arányaiban nem nagy, de fontos részét jelentik a sötét webnek (dark web vagy darknet) nevezett hálózatok.
Ezek elérése speciális szoftvereket vagy engedélyeket igényel, és anonim csatornákat biztosít a kommunikációhoz vagy az illegális üzleti tevékenységekhez. Egy dél-koreai kutatócsoport most éppen ezeknek az online tartományoknak az indexelésére hozott létre egy új MI-modellet, hogy a korábbinál mélyebb betekintést szerezzen a rosszindulatú tevékenységek szinonimájává vált dark weben. Az LLM-ek ilyen irányú alkalmazása első pillantásra ijesztőnek tűnik, de a kutatóképpen azért tanítják a sötét weben a DarkBERT-nek nevezett rendszert, hogy új eszközökkel gazdagítsa a kiberbűnözés elleni küzdelmet, ahol egyébként is felfutóban van a természetes nyelvi feldolgozás.
Állítólag egész jól eligazodik
Az internet ezen részeinek feltérképezése éppen azért nehéz feladat, mert a Google és más keresők nem indexelik, és gyakran eleve csak meghatározott programokon keresztül érhetők el. A DarkBERT-ről nemrég kiadott tanulmány szerint a modell a Tor hálózathoz, a sötét web egyes részeihez is hozzáférést biztosító rendszerhez kötötték, ahol aztán nekilátott egy saját adatbázis felépítésének az onnan összegereblyézett nyers adatokból. Bár ez utóbbi sok információt tartalmaz, feldolgozatlan állapotban ez értelemszerűen nem hasznosítható, az új nyelvi modell pedig a kutatók szerint éppen azzal brillírozik, hogy más megoldásoknál sokkal jobban érti a sötét webet.
Ilyen kísérletekre ugyanis nem ez az első példa: a beszámolókban azt a a RoBERTa-t emlegetik, amelyet a Facebook kutatói még 2019-ben hoztak létre arra, hogy felfedezze a szándékosan elrejtett tartalmat a megjegyzésekkel el nem látott nyelvi példákban is. A DarkBERT alkotói most azt közölték, hogy az általuk fejlesztett osztályozási modell hatékonyabb az ismert (és előzetesen kiképzett) nyelvi modelleknél, ezért értékelésük szerint különféle kiberbiztonsági feladatokra lesz majd használható – ilyen lenne mondjuk a zsarolóprogramokkal kereskedő és bizalmas adatokat szivárogtató webhelyek felderítése, vagy a rendszeresen frissülő sötét webes főrumok megfigyelésére.
Exkluzív szakmai nap a felhők fölött: KYOCERA Roadshow a MOL Toronyban
A jövő irodája már nem a jövő – hanem a jelen. A digitális transzformáció új korszakába lépünk, és ebben a KYOCERA nemcsak követi, hanem formálja is az irányt. Most itt a lehetőség, hogy első kézből ismerje meg a legújabb hardveres és szoftveres fejlesztéseket, amelyekkel a KYOCERA új szintre emeli a dokumentumkezelést és az üzleti hatékonyságot.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak