Csütörtökön közzétett blogbejegyzésében az Anthropic elsimerte és egyben meg is magyarázta, miért érezhették a felhasználók a közelmúltban azt, hogy a cég által fejlesztett Claude nagy nyelvi modell a korábban megszokottnál kicsit gyengébb teljesítményt nyújt.
Az időközben lefolytatott belső vizsgálat alapján az ügyfélpanaszoknak volt igazságalapjuk: március és április folyamán három olyan egymással nem összefüggő változtatást is eszközöltek, amelyektől a szolgáltatások nem előre mentek, hanem hátra. A romlást a Claude Code, a Claude Agent SDK és a Claude Cowork felhasználói érzékelhették, ugyanakkor az Anthropic szerint a Claude API-ja zavartalanul működött.
Három a mesterséges igazság
Az első hiba egy stratégia döntésből született még március 4-én született. Ekkor a cégnél tudatosan lejjebb tekerték Claude Code alapértelmezett gondolkodási intenzitását (reasoning effort), amivel a modell válaszadási sebességét (latency) igyekeztek javítani. Ez azonban túlságosan sokat rontott a válaszok minőségén, így felhasználói visszajelzések alapján pár napon belül, április 7-én visszaállították az eredeti, magasabb szintet.
Március végén érkezett a következő csapás, amit abból lehetett észrevenni, hogy a chatbot elkezdte elveszteni a (téma)fonalat és rendszeresen ismételte magát. Mint kiderült, ezt gyorsítótárazási (caching) hiba okozta, amit egy nem teljesen a tervek szerint működő frissítés okozott. Memóriaoptimalizáció ürügyén az egy óránál régebbi munkameneteknél akarták kitisztítani az algoritmus gondolatmenetét, ám egy hiba miatt ezt minden lépésnél megtette a modell.
A harmadik problémát egy április közepén életbe léptetett rendszerszintű módosítás okozta, amely szigorú korlátokat szabott a válaszok hosszának. Ezzel a mérnökök célja a modellek fecsegésének (verbosity) visszafogása volt, ám a tömörségre kényszere annyival rontotta a bonyolult kódolási feladatok megoldási hatékonyságát, hogy ezt a változtatást is vissza kellett vonni néhány nap múlva.
Szánják és bánják
Az Anthropic a hibák feltárásával párhuzamosan elnézést kért az ügyfelektől. A cég ígéretett tett arra is, hogy a hasonló esetek elkerülése érdkeében felülvizsgálják a most sorozatban csődött mondó belső tesztelési folyamataikat és automatizált értékelési rendszerüket. A kelleténél butább modellekkel való csevegések kárpótlásaként pedig minden érintett felhasználónál alaphelyzetbe állították a fiókhoz tartozó használati limiteket.
A hibakeresés nem egyenlő az alkalmazásbiztonsággal
Építsünk olyan AppSec környezetet, amely csökkenti az alkalmazásfejlesztés kockázatait, de nem válik a gyors leszállítás akadályává!
CIO kutatás
Merre tart a vállalati IT és annak irányítója?
Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.
Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!
Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.
Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?