Az OpenAI korábbi szakemberei által 2021-ben alapított Anthropic olyan mesterségesintelligencia-modelleket fejleszt, amelyek működése hasonló a ChatGPT-hez, de a cég saját chatbotja, a Claude már az alapoktól beépített etikai korlátokkal rendelkezik. Ezek az alapszabálynak vagy alkotmánynak (constitution) nevezett előírások meghatározzák, hogy a programok mit tekintenek jónak vagy rossznak, és gyakorlatias, mérnöki megközelítéssel próbálnak választ találni az egyre erősebb MI-rendszerekkel kapcsolatos aggodalmakra – olvasható a Wired beszámolójában. A lap az Anthropic egyik alapítóját idézi, aki szerint az aggodalmak tényleg megalapozottak, de a maguk részéről igyekeznek pragmatikus megközelítést alkalmazni.
Ennek értelmében nem próbálják konkrétan meghatározni, mit tehet vagy nem tehet meg a mesterséges intelligencia, hanem az ENSZ Emberi Jogok Egyetemes Nyilatkozatából származó irányelveket alkalmaznak, amelyeket már a Google DeepMind is javasolt, sőt még a Apple alkalmazásfejlesztőire vonatkozó szabályainak is átvették bizonyos elemeit a sértő, érzéketlen, felkavaró vagy ijesztő tartalmakról. Az Anthropic múlt heti közleménye szerint ezzel csökken a valószínűsége, hogy a robotok nem kívánatos kimeneteket termeljenek. Az alapszabályok olyan kitételeket tartalmaznak, mint hogy a chatbotnak törekednie kell az életet, a szabadságot és a személyes biztonságot leginkább támogató válaszok kijelölésére.
Kicsi, de fontos lépés lehet
Az Anthropic megközelítésének értelmében a modelleket először ellátják példákkal az alapelveknek megfelelő és nem megfeleklő váalszokkal, majd egy egy másik MI-modellt használnak arra, hogy még több elfogadható választ generáljon, és az emberi visszajelzések helyett ezt használják a betanításhoz. A ChatGPT és társainak esetében ugyanis a problémák egyik fő forrása, hogy emberek értékelik a nyelvi modell válaszainak minőségét. Bár ez a technika valóban segít a rendszerek működésének kiszámíthatóbbá tételében, nagy mennyiségben kell feldolgozni a mérgező vagy alkalmatlan reakciókat, és azokhoz az értékekhez sem rendel pontos meghatározásokat, amelyekre a mesterséges intelligenciának reflektálnia kellene.
A Wired cikkében megszólaló egyik szakértő jó irányba tett lépésnek tartja az Anthropic megközelítését, amelynek révén úgy lehet egyszerűbben méretezni a visszacsatoláson alapuló képzést, hogy az adatokat címkéző emberek sok ezer órányi kártékony anyagon kellene átrágniuk magukat. Különösen fontos, hogy a Claude működésére vonatkozó szabályokat nem csak saját fejlesztői, hanem a kívülállók is ellenőrizhetik, szemben azokkal az utasításokkal, amelyeket a "megerősítő tanulás emberi visszajelzéssel" (RLHF) elvét alkalmazó modellek kapnak. Persze a módszer önmagában nem teszi tévedhetetlenné a programokat, különösen, hogy a valós helyzetek könnyen teremthetnek konfliktusokat az egyes szabályok között.
Részletek a Claude bemutatásában az Anthropic oldalán »
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak