Azt már majdnem két éve tudjuk, hogy a nagy nyelvi modellek elterjedésének egyik nem kívánt következménye az lett, hogy az internetet ellepték a silány minőségű gépi fordítások. Nem sokkal később, pedig eljutottunk oda, hogy az elemzések alapján már a világháló több mint felét olyan írásos anyagok adják, amelyeket nagyrészt vagy teljesen a ChatGPT-vel és társaival tákoltatták össze. (A folyamat egyrészt még nehezebbé teszi a felhasználók dolgát a valódi és hamis közötti eligazodásban, másrészt magára az MI-fejlesztésre nézve is nagyon komoly problémát jelent.)
A fentebb említett elemzést ugyanaz a SEO-ban utazó Graphite készítette, mint azt az idén nyári adatokra támaszkodó, frissen publikált tanulmányt, amely szerint elmondható, hogy egyrészt tavaly óta arányok tekintetében kicsit javult a helyzet, ráadásul egyelőre szerencsére még a keresőmotorokban és chatbotokban működő algoritmusok sem vevők "kollégáik" ömlesztett szemetére. A vállalat szakértői a tavalyihoz hasonló módszerrel igyekeztek felderíteni a túlnyomórészt algoritmusok által írt cikkeket, illetve azt, hogy ezek milyen arányban tűnnek fel a keresésekben és a chatbotok által adott válaszokban.
Egyelőre a gép sem kíváncsi rájuk
Az elemzéshez 10 kategóriára bontva közel 31 500 kulcsszóra nézték meg, milyen cikkeket dob fel a Google első két találati oldala. Hasonló módszerrel generáltattak az adott kulcszavakra kihegyezett válaszokat a ChatGPT és ChatGPT Próval, illetve a Perplexity modelljével. A kapott tartalmakat végül MI-felismerő rendszerrel igyekeztek megfelelően kategorizálni.
A lefuttatott tesztek alapján egyértelműnek tűnik, hogy a keresőmotorok és a chatbotok sem étékelik túl magasra az algoritmussal készített tartalmakat. Annak ellenére, hogy az új cikkek nagyjából felét már robotok írják, a Google keresési találatainak élén 86 százalékban emberi kéz által gépelt anyagokat találni. Nagyjából hasonló arányokat mutatott a ChatGPT és a Perplexity tesztje is: mindkét esetben 82 százalékot tettek ki a vélelmezhetően humán eredetű alkotások.
Ez a Graphite szerint azt mutatja, hogy nem feltétlenül kifizetődő MI-generálta tákolmányokkal elárasztani a netet, mert az ilyen tartalmakat nem értékelik sem a jelentős keresőmotorok, sem az MI-assziszensek. Ennek megfelelően a jó kiadói stratégia nem az, ha algoritmusokra cserélik az újságírókat, hanem az, ha gondosan megválasztott részterületeken aknázzák ki a nagy nyelvi modellekben rejlő tényleges és valóban hasznos potenciált.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak