Mint kiderült, nem csak a Google és a Microsoft (no meg az NSA) térképezi fel a-tól z-ig az internetet, hanem egy kis kaliforniai startup is, amely most tudását a hiteles újságírás szolgálatába állítja. Az 2008-ban alapított Diffbot ugyanis partnerségre lépett egy európai újságíró szervezettel, az EJC-vel (European Journalism Centre), hogy olyan technológiai megoldásokkal segítse az adatújságírást, amik megkönnyítik a hamis információk kiszűrését.
Mint a ZDNet írja, az EJC mintegy kilencezer tagja a központ adatújságírásra specializálódott oldalán, a Data Journalismon keresztül férhet ingyenesen hozzá a startup legértékesebb eszközéhez, a Knowledge Graph-hoz.
A mesterséges intelligencia Szent Grálja
A Knowledge Graph lényegében egy tudásbázis, amely az interneten található több mint 10 milliárd entitásra és ezer milliárdot is meghaladó adatmennyiségre épül. Mindezt az információtömeget a Knowledge Graph mesterséges intelligencia segítésével olyan módon teszi lekérdezhetővé, mintha az egész internet egy strukturált adatbázis lenne. A Diffbot alapítója, Michael Tung egy tavalyi interjújában úgy írta le a rendszert, mint az interneten összegyűlt emberi tudás első átfogó térképét. Szerinte sikerült elkészítenie a gépi tanulás Szent Grálját, ami a világ összes tudását (már ami a neten elérhető) egy helyre gyűjti. Mint mondta, ehhez az internet minden oldalát elemezni kell, ami nyilvánvalóan elképzelhetetlen automatizálás és mesterséges intelligencia nélkül.
Az alapító, aki egyébként a Stanfordon, az egyetemi évei alatt kezdett el foglalkozni mélyebben a mesterséges intelligencia kutatásával, a számítógépes látás és a természetes nyelvfeldolgozás kombinációjára építette a rendszerét. Ez biztosítja, hogy a Diffbot webrobotja gyakorlatilag bármilyen felépítésű weboldalt képes elemezni, és az információkat szintetizálni.
A feldolgozás két lépésben történik: az információk begyűjtését robotok végzik – havonta mintegy 130 millió tényadattal gazdagodik a Knowledge Graph tudásbázisa –, és rendszerezik egy strukturált adatbázisban, ami a lekérdezéseket kiszolgálja. Mivel az információk rendszerezéséből kiiktatták az emberi tényezőt, ezért a rendszer mentes az előítéletektől és rendkívül pontos – állítja a cég. A szolgáltatás ismertetője szerint a Knowledge Graph bármilyen egyedi információt képes kinyerni, ha az az interneten megtalálható. A lekérdezésekhez, amiket egy egyszerű webes felületen kell megadni, készítettek egy saját lekérdező nyelvet is, a Diffbot Query Language-et.
Michael Tung, a Grál lovag
Ennek segítségével jól körül lehet írni a keresett információt. Ha például egy szerző cikkeire keres rá valaki, akkor állítólag a Knowledge Graph képes kiadni az adott szerző összes valaha megjelent cikkét bármilyen nyelven. Vagy ha valakinek az életútját szeretnénk megismerni, akkor a rendszer a különböző forrásokat szintetizálva adja meg az illető közel teljes – nyilvánosan elérhető információkból összeállítható – pályaképét/profilját.
Az adatok megjeleníthetők listában, táblázatban, de akár térképes formában is, hogy jobban megmutatkozzanak az összefüggések.
Gyorsítja az újságírók munkáját
Az újságírói munkához a Knowledge Graph kétségtelenül óriási segítség. Az eszközzel gyorsan ellenőrizhetővé válnak az információforrások, és pillanatok alatt feltárhatók a kapcsolatok különböző személyek, helyek, szervezetek között. Ez az információgyűjtés az (adat)újságírás legidőigényesebb része, az újságírók olykor heteket-hónapokat is eltöltenek azzal, hogy adatokat gyűjtsenek, azokat ellenőrizzék és rendszerezzék, hogy láthatóvá váljanak a köztük lévő összefüggések.
Ugyanakkor hiba lenne ezt – Tung szavaival – valamiféle Szent Grálnak tekinteni. Számtalanszor bebizonyosodott, hogy a mesterségesintelligencia-algoritmusok sem mentesek az előítéletektől. Emellett azzal is számolni kell, hogy az MI rosszul is tanítható. Mint azt a közelmúltban az intelligens asszisztensek kockázataival kapcsolatos körkérdésünkre Frész Ferenc, a Cyber Sertvices vezérigazgatója írta, a mesterséges intelligenciával és a gépi tanulással egy nagyon súlyos új támadási faktor lépett be: az adattorzítás. Ennek lényege, hogy olyan – hamis – adatokat visznek be az öntanuló algoritmusokba, melyek eredményeként az rossz-hibás válaszokat ad. Ennek hatása beláthatatlan.
A NIS2-megfelelőség néhány technológiai aspektusa
A legtöbb vállalatnál a megfeleléshez fejleszteni kell a védelmi rendszerek kulcselemeit is.
CIO KUTATÁS
TECHNOLÓGIÁK ÉS/VAGY KOMPETENCIÁK?
Az Ön véleményére is számítunk a Corvinus Egyetem Adatelemzés és Informatika Intézetével közös kutatásunkban »
Kérjük, segítse munkánkat egy 10-15 perces kérdőív megválaszolásával!
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak