Az OpenAI saját keresőrobotot indított az általa fejlesztett mesterségesintelligencia-termékek, például a GPT-4 multimodális nagy nyelvi modell (LLM) pontosságának és biztonságának fejlesztésére. A társaság hivatalos blogján közzétett bejegyzés szerint a GPTBot névre keresztelt web crawler olyan oldalakat keresve fésüli át az internetet, amelyek adatai potenciálisan felhasználhatók a jövőbeli modellek képzésére, ezzel együtt pedig kiszűri azokat a forrásokat, amelyek előfizetéses tartalmat kínálnak, személyek azonosításra alkalmas információt gyűjtenek, vagy amelyek az OpenAI irányelveinek nem megfelelő anyagokat közölnek.
Az OpenAI és más MI-fejlesztők egy ideje már a figyelem középpontjában állnak, ahogy lényegében minden felporszívóznak a világhálóról a generatív mesterséges intelligencia betanítására használható, minőségi adatok után kutatva. Ahogy nemrég írtuk, a szöveges és képes adatokat összehordó technológiák a szakértők szerint lassan kezdenek falakba ütközni, mivel az adatgyűjtési gyakorlatokat egyre szigorúbb ellenőrzésnek vetik alá, és amiatt is egyre nagyobb a felzúdulás, hogy a jogtulajdonosok vagy a közösségi platformok üzemelztetőinek beleegyezése nélkül gyűjtik és használják a publikusan elérhető alkotásokat.
Kis lépés az emberiségnek
A közlemény alapján a webhelyek üzemeltetői dönthetnek majd úgy, hogy korlátozzák vagy megakadályozzák a GPTBot való hozzáférését akár részlegesen, akár teljes leiratkozással az IP-címen vagy a Robots.txt fájlokon keresztül. A ChatGPT, az OpenAI MI-alapú chatbotjának esetében egyébként csak idén tavasszal vezettek be olyan funkciókat, amelyek révén letilthatók a csevegés előzményei, és a korábbinál jobban szabályozhatóvá válik, hogy a rendszer milyen személyes adatokhoz férhet hozzá. A már feldolgozott információ eltávolítására azonban nincs, és várhatóan nem is lesz mód az meglévő adatkészletekből.
Ez a GPT-3.5-ös és GPT-4-es modellek esetében állítólag a 2021 szeptemberéig begyűjtött online adatokra és szövegekre érvényes, ezzel együtt azonban szaporodnak a figyelmeztetések a generatív MI felhasználását illetően. A személyes alkalmazás mellett elvileg már a webhelyek esetében is be lehet állítani, hogy a GPTBot merre kíváncsiskodhat, de abban senki sem lehet teljesen biztos, hogy később mi történik a bemeneti információval. A gépi tanuló modell sajátosságai miatt pedig előfordul, hogy ezek máshol is visszaköszönnek a kimenetekben, és akár szándékosan is kinyerhetők a megfelelően feltett kérdésekkel, a tanításhoz használt anyagok pedig alkalmassá teszik a rendszereket a plágiummal határos utánzásra.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak