Az OpenAI saját keresőrobotot indított az általa fejlesztett mesterségesintelligencia-termékek, például a GPT-4 multimodális nagy nyelvi modell (LLM) pontosságának és biztonságának fejlesztésére. A társaság hivatalos blogján közzétett bejegyzés szerint a GPTBot névre keresztelt web crawler olyan oldalakat keresve fésüli át az internetet, amelyek adatai potenciálisan felhasználhatók a jövőbeli modellek képzésére, ezzel együtt pedig kiszűri azokat a forrásokat, amelyek előfizetéses tartalmat kínálnak, személyek azonosításra alkalmas információt gyűjtenek, vagy amelyek az OpenAI irányelveinek nem megfelelő anyagokat közölnek.
Az OpenAI és más MI-fejlesztők egy ideje már a figyelem középpontjában állnak, ahogy lényegében minden felporszívóznak a világhálóról a generatív mesterséges intelligencia betanítására használható, minőségi adatok után kutatva. Ahogy nemrég írtuk, a szöveges és képes adatokat összehordó technológiák a szakértők szerint lassan kezdenek falakba ütközni, mivel az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, és amiatt is egyre nagyobb a felzúdulás, hogy a jogtulajdonosok vagy a közösségi platformok üzemelztetőinek beleegyezése nélkül gyűjtik és használják a publikusan elérhető alkotásokat.
Kis lépés az emberiségnek
A közlemény alapján a webhelyek üzemeltetői dönthetnek majd úgy, hogy korlátozzák vagy megakadályozzák a GPTBot való hozzáférését akár részlegesen, akár teljes leiratkozással az IP-címen vagy a Robots.txt fájlokon keresztül. A ChatGPT, az OpenAI MI-alapú chatbotjának esetében egyébként csak idén tavasszal vezettek be olyan funkciókat, amelyek révén letilthatók a csevegés előzményei, és a korábbinál jobban szabályozhatóvá válik, hogy a rendszer milyen személyes adatokhoz férhet hozzá. A már feldolgozott információ eltávolítására azonban nincs, és várhatóan nem is lesz mód az meglévő adatkészletekből.
Ez a GPT-3.5-ös és GPT-4-es modellek esetében állítólag a 2021 szeptemberéig begyűjtött online adatokra és szövegekre érvényes, ezzel együtt azonban szaporodnak a figyelmeztetések a generatív MI felhasználását illetően. A személyes alkalmazás mellett elvileg már a webhelyek esetében is be lehet állítani, hogy a GPTBot merre kíváncsiskodhat, de abban senki sem lehet teljesen biztos, hogy később mi történik a bemeneti információval. A gépi tanuló modell sajátosságai miatt pedig előfordul, hogy ezek máshol is visszaköszönnek a kimenetekben, és akár szándékosan is kinyerhetők a megfelelően feltett kérdésekkel, a tanításhoz használt anyagok pedig alkalmassá teszik a rendszereket a plágiummal határos utánzásra.
Rendszerek és emberek: a CIO választásai egy új magyar felmérés tükrében
"Nehéz informatikusnak lenni egy olyan cégben, ahol sok az IT-s" – jegyezte meg egy egészségügyi technológiákat fejlesztő cég informatikai vezetője, amikor megkérdeztük, milyennek látja házon belül az IT és a többi osztály közötti kommunikációt.
Így lehet sok önálló kiberbiztonsági eszközéből egy erősebbet csinálni
A kulcsszó a platform. Ha egy cég jó platformot választ, akkor az egyes eszközök előnyei nem kioltják, hanem erősítik egymást, és még az üzemeltetés is olcsóbb lesz.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak