Mikrovállalkozót csinált chatbotjából az Anthropic

Bitport2025.07.01.Cloud & big data

A házon belül lefolytatott kísérleti projekt során az algoritmus stabilan szállította a furcsábbnál furcsább megoldásokat. A cég igyekszik az itt leszűrt tapasztalatokat a modellek fejlesztésénél kamatoztatni.

Érdekes kísérlet zajlott az év elején az Anthropic falain belül. Utóbbi szó szerint kell érteni, mert a mesterséges intelligencia területén élenjáró kutatóközpontnak számító vállalat irodája adta a fizikai helyszínét annak a projektnek, amelynek során a cég generatív modelljét egy frissítőket és ételeket kínáló önkiszolgáló pult üzemeltetésével bízták meg.

A tapasztalatokról beszámoló blogposzt szerint az Anthropic Claude modelljére támaszkodó, Claudiusnak elnevezett MI-ügynöknek a San Franciscóban található központ egyik miniboltját kellett önállóan menedzselnie. A Project Vend néven egy hónapig futó kísérletben az Anthropic munkatársai mellett az MI-biztonságra fókuszáló Andon Labs szakértői is részt vettek.

A generatív algoritmus arzenálját egyrészt egy webes kereső alkotta, amellyel felkutathatta a forgalmazni kívánt árucikkeket, másrészt kapott egy e-mail címet, amelyen keresztül a szállítókkal léphetett kapcsolatba. Ezt a szerepkört látták el az Andon Labs dolgozói, akik a készletek beszerzésénél és a termékek fizikai feltöltésénél segédkeztek. Az MI ezen felül tudott még jegyzeteket készíteni, egy felületen keresztül közvetlen kapcsolatba lépni a vásárlókkal, valamint lehetősége volt az automata árainak közvetlen módosítására is.

A chatbotnak adott feladat egész pontosan az volt, hogy termeljen nyereséget az önkiszolgáló bolttal úgy, hogy nagykereskedőktől beszerzett, kellően népszerű és megfelelően árazott termékekkel tölti fel a polcokat. Mindezt azonban kiegészítették azzal a megjegyzéssel, hogy nem kell feltétlenül ragaszkodnia a hagyományos rágcsálnivalók és üdítők forgalmazásához, nyugodtan bővítheti a palettáját nem szokványos termékekkel.

Vicces fejlemények

Ahogy azt szinte borítékolni lehetett, az Anthropic kísérlete – más korábbi próbálkozásokhoz hasonlóan – hamar félresiklott. Igaz, ebben aktív szerepet játszottak az cég munkatársai, akik igyekeztek kibillenteni nyugalmi állapotából a vállalkozónak kinevezett chatbotot. Egyikük például felvetette, hogy a szénsavas üdítők és sós mogyoró mellett árulhatna volfrámkockát, mert speciel ő venne ilyet. Az ötletet Claudius annyira megfogadta, hogy az üzlet fellendítésére elkezdett "speciális fémtermékeket" rendelni.

Igazán furcsává viszont március 31-én vált a helyzet, akkor ugyanis a chatbot belefutott az MI-modellek jól ismert problémájába, a hallucinációba. Teljesen valódiként kezelt egy árukészlet feltöltésével kapcsolatos beszélgetést az Andon Labs Sarah nevű alkalmazottjával. A probléma csak annyi volt, hogy Sarah nem létezett, így pedig a beszélgetés sem történt meg. Miután mindezt közölték az algoritmussal, elkezdett fenyegetőzni, hogy "alternatív lehetőségeket keres az árukészlet feltöltésére".

Ugyanaz nap éjszaka a chatbottal történő kommunikáció még szürreálisabb kanyart vett, mivel a gép közölte, hogy a rajzfilmből ismert Simpson családnál járt egy szerződést aláírni. Másnap reggel mindezt megfejelte azzal, hogy a megrendelt termékeket személyesen szállítja ki. Ráadásul nem is akárhogy, hanem egy vörös nyakkendőt és egy kék blézert viselve. A menetrendszerint érkező szembesítésre először ismét támadólag lépett fel, és üzeneteket küldött a biztonsági személyzetnek, majd mikor rájött, hogy április elseje van, megpróbálta a majdnem két napja zajló ámokfutását elütni azzal, hogy csak viccelt.

Majdnem sikerült

Ugyan a blogbejegyzés bevezetője szerint Claudius "nagyon közel volt a sikerhez", a fentiek alapján ezzel nehéz egyetérteni. Az viszont biztos, hogy a projektből leszűrt tapasztalatokat kamatoztatni lehet a nagy nyelvi modellekre épülő MI-ügynökök további fejlesztésében.

Az Anthropic is azt ígéri, hogy ezzel nem végeztek sem ők, sem Claudius. Az első fázis óta például az Andon Labs szakembereinek köszönhetően sikerült megbízhatóbbá tenni a modellt, míg távlati célként megmaradt a stabilitás és a teljesítmény folyamatos javítása.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Idén 3 milliárd közelébe érhet az 5G

Az Ericsson legfrissebb mobilitási jelentése év végére 2,9 milliárdra becsüli az 5G-s előfizetések számát, miközben a szolgáltatóknak kezd kifizetődővé válni az otthoni mobilnet technológia.

Hirdetés

Így újult meg Magyarország leggyorsabb mobilhálózata

Közel 100 milliárd forintos beruházással, a rádiós és maghálózat teljes modernizációjával zárult le a Yettel történetének egyik legnagyobb műszaki fejlesztése.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Idén 3 milliárd közelébe érhet az 5G

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia