A mesterséges intelligenciát fejlesztő vállalatok hagyományosan a publikus online felületekről tömegesen letöltött adatokkal táplálják az MI-modelleket (data scraping), ami önmagában is ellentmondásos dolog, ráadásul a cégek gyakran titkolják a képzési adatok forrásait. A Wired néhány nappal ezelőtt megjelent tudósítása ezt a gyakorlatot szemlélteti egy újabb példán keresztül: a lap a Proof News vizsgálatára hivatkozva azt írja, hogy a legnagyobb MI-cégek sok ezer YouTube-videót használták fel erre a célra, miközben maga a YouTube felhasználási szabályzatában tiltja az anyagok engedély nélküli begyűjtését.
A Proof News egyik kutatásáról mi is beszámoltunk február végén, amikor a vezető MI-modelleket tesztelő szakértők úgy találtákarra jutottak, hogy a robotok válaszai gyakran pontatlanok, félrevezetőek, sőt kifejezetten károsak, ha valaki a választásokkal kapcsolatos információkról érdeklődik náluk. A mostani vizsgálat során pedig az derült ki, hogy több mint 48 ezer YouTube-csatornáról legalább 173 536 videó feliratait szippanthatták fel olyan nehézsúlyú iparági versenyzől, mint az Anthropic, az Nvidia, az Apple vagy a Salesforce – természetesen ebben az esetben is az alkotók engedélye nélkül.
Feloldhatatlannak tűnő ellentétek
A "YouTube Subtitles" néven ismert adatkészletet a cikk alapján még 2020-ban jelent meg, és különféle anyagok leiratait tartalmazza az MIT-től és a Harvard-tól a BBC-n keresztül a MrBeast-hez hasonló youtuberekig. A Proof News több érintett csatornatulajdonossal is felvette a kapcsolatot, akik közül állítólag senkit sem értesített az adatkészletet létrehozó EleutherAI a videókból kiemelt feliratok felhasználásáról. A Wirednek nyilatkozó egyik kutató ehhez képest megerősítette, hogy a "YouTube Subtitles" valódi aranybányát jelent az emberi beszéd MI-alapú replikációjával foglalkozó fejlesztőknek.
Az egyik érintett alkotó azt emlegeti a riportban, hogy a maga részéről időt, pénzt és más erőforrásokat öl a tartalom létrehozásába, és ha ebből mások is hasznot akarnak húzni, akkor mindenképpen beszélni kellene a kompenzációról és az ilyen felhasználások szabályozásáról. A helyzetet persze bonyolítja az az átláthatatlan működés, ahogy az MI-modelleket trenírozzák, a "békés rendezés" kilátásait pedig jól mutatja, amikor például a Microsoft konzumer MI-részlegének vezetője teljesen komolyan előadja, hogy szerinte a publikus weben közzétett anyagok automatikusan szabad felhasználásúvá válnak.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak