Még mindig nehéz beazonosítani azokat a "gerilla programozókat", akik különféle visszaélésekre, támadásokra használják az internetet. Pedig a legtöbben a félig-meddig nyilvános fórumokon is beszélgetnek egymással, csak épp álnéven. Lebuktatásukhoz egyesek szerint elég azt elemezni, hogyan írnak, mivel a stílus maga az ember.
A hackerek, vírusírók, webes gerillák egy része egyáltalán nem csendes magányban végzi megkérdőjelezhető tevékenységét. Sokféle webes közösség, fórum és egyéb megnyilatkozási lehetőség akad, amelyet kifejezetten ilyen érdekeltségűek használnak, például épp tapasztalataik kicserélésére, ideiglenes szövetségek megalakítására. Ezek a felhasználók úgy gondolják, hogy követhetetlen elérhetőségeik, valódi személyiségüket eltakaró beceneveik miatt egy ilyen fórumról senki sem juthat el valós személyazonosságukig... pedig lehet, hogy tévednek.
Ismerősek a mondataid ■ Nyelvészek módszerei buktathatják le az ismeretlenségbe burkolózó hackereket, írja az üzleti intelligencia és a biztonság kérdéseivel foglalkozó SC Magazine ausztrál kiadása. A cikkben egy német biztonsági konferencián elhangzott
kutatási összefoglalóból idéznek, mely szerint akár a weben anonim módon kommunikálók 80 százaléka is sikeresen azonosítható lingvisztikai megközelítéssel. A megoldás kulcsai az úgynevezett funkciószavak, amelyek használata erősen személyhez köthető és nehezen palástolható.
A funkciószavak tulajdonképpen olyan összekötő elemek, amelyek folyékony szöveggé alakítják mondataink részeit a beszélt és írott köznyelvben. "Az a szerencsétlen cég hiába küldte rám a nyamvadék biztonsági szakembereit, túrót sem találtak rólam a csökött rendszerükben." – ez a példamondat persze jelentősen túlzó módon használ funkciószavakat, de így kell elképzelni a saját stílus meghatározását. A valóságban nem egy mondaton, hanem jó pár mondatnyi folyó szövegben vagy akár egy teljes fórumozó tevékenységben érdemes keresni jellegzetességeket, amelyeket egy idő után akár egy irányított, öntanuló szoftver is képes összekapcsolni egy adott felhasználóval.
A személyazonosság felderítésének második fázisa pedig már az, amikor a begyűjtött jellegzetességeket nyilvános adatbázisokban próbáljuk fellelni: Facebook bejegyzésekben, Twitter üzenetekben, hagyományos fórumokban és egyéb forrásokban. Abban a pillanatban, ahogy valamilyen "normális" környezetben megtaláljuk a hasonló jellegzetességgel beszélő felhasználót – aki természetesen ott már saját nevét felvállalva ír –, nagy valószínűséggel lefülelhető az illető.
Nem egyszerű, de hatásos ■ A módszer természetesen nem pár mondat gyors elemzéséből áll, a viszonylag egyértelmű metodika valóra váltásához kifinomult eszközökre és persze elegendő adatra van szükség. Az analízist a kutatók szerint minimum 5000 szavas mintán kell lefuttatni, mivel egy-két mondat alapján még nagy a hibaszázalék, és sokszor ennyiben nem is szerepel elegendő, az egyénre jellemző funkciószó. Szintén nagy feladat még a nemzetközi beszélgetések elemzése, hiszen itt az általánosan elérhető fordítóeszközök épp a stílusjegyeket irtják ki először a szövegből (sok esetben az értelem egy részével együtt).
Másrészt fontos az is, hogy a nyelvi eszközöket olyan kapcsolódó megoldásokkal kössék össze, amelyek a szövegelemzés elvégzése után tovább is tudnak lépni, kinyerni a lebuktatott felhasználóhoz vezető további adatokat (például IP címet, e-mail címeket). A módszer azonban már kilépett az elméleti fázisból, akadnak már lingvisztikai elemzésre képes céleszközök, például a szövegelemző
Anonymouth vagy a szövegjellemzők alapján öntanuló
JStylo – mindkettőt a philadelphiai Drexel Egyetemen fejlesztik. Ezek használatával már sikerült több esetben valós eredményt elérni, például botnetek üzemetetőit felderíteni vagy hitelkártya-csalások elkövetőit lebuktatni.