Egy amerikai cég elkészítette az első valóban használható eszközt, amivel mérni lehet az MI-modellek teljesítményét különböző használati eseteknél. A monitoring amúgy nem idegen a New York-i székhelyű Datadogtól: eddig FinOps szemléletű dashboardokat fejlesztett felhőszolgáltatásokhoz, melyeken nemcsak a költségeket ellenőrizhetik az IT-vezetők, hanem még a fejlesztőknek is rengeteg támpontot ad például a szerverek kihasználtságáról, az adatok áramlásáról vagy a különböző szolgáltatások biztonsági kockázatairól.
A mesterséges intelligencia most már mindenütt megjelent: a Windowsban, az Office-termékekben, a Google Workspace-ben, a Pixel telefonokban, a Facebookon, a LinkedInen és így tovább, és ebben a Datadog meglátott egy új piaci rést. Hogyan lehet eldönteni, hogy melyik MI-modell jó, és melyik nem alkalmas bizonyos használati esetekre? Az augusztusban bemutatott és a fejlesztő cég néhány ügyfelénél bétában futtatott LLM Observability (vagy LLM Obs), ahogy neve is mutatja, egyelőre a nagy nyelvi modellekre (LLM, large language model) koncentrál.
A mérőeszköz a használt modell és a felhasználókkal interakcióba lépő chatbot közé ékelődik, és alapvetően a modell működését monitorozza. Méri a teljesítményét (pl. válaszidő), a minőségét (felhasználói visszajelzésekre támaszkodva), de még a futtatás költségeire vonatkozóan is ad információkat az alapján, hogy az LLM-szolgáltatók mekkora díjat számítanak fel válaszonként. A rendszer naplózza a felhasználói interakciókat, így azt is, amikor annyira elégedetlenek, hogy egy párbeszéd kellős közepén egyszerűen kilövik a chatbotot.
Az adatok alapján gyorsan azonosíthatók az LLM-mel kapcsolatos problémák (kiugró modellköltség, teljesítménycsökkenés, hallucináció stb.). De a Datadog tovább is megy ennél: mérőeszközével összehasonlíthatók adott használati esetekre a különböző MI-modellek akár költségoptimalizálási céllal is.
Visszamentek a forráshoz
A fejlesztésekhez a cégnek sikerült megfelelő embert is találnia: Junaid Ahmed korábban 15 évet húzott le a Microsoftnál, utána pedig két évet az Apple-nél, és az utóbbi években mindenkét cégnél a mesterséges intelligencia és a gépi tanulás alkalmazásokba történő integrálásán dolgozott. Az LLM Obs fejlesztésénél az a meggyőződése vezette, hogy az LLM-ek épp olyan általánosan elterjedt eszközök lesznek, mint mondjuk ma a táblázatkezelők vagy a szövegszerkesztők, ám azoknál specifikusabbak.
Ha a felhasználók (alapvetően vállalatok) el akarnak igazodni a kínálatban, kellenek olyan mérőeszközök, melyek alapján a vállalatok el tudják dönteni, hogy az általuk használt modellek mennyire működnek abban a környezetben, amelyben az adott vállalat használná, nyilatkozta a közelmúltban Junaid Ahmed.
Az LLM Obs elemzései eredményeit egy grafikusan felületen jeleníti meg, amelyen azonnal látható, hogy melyik modell melyik felhasználási esetnél teljesít a legjobban. Azt egyébként Ahmed is elismerte, hogy a projekt még gyerekcipőben jár. "A mesterséges intelligenciák tesztelése jelenleg nem jelent számunkra valódi bevételi forrást. De a jövőben nagy üzleti területté válhat." A legjobb esetben a Datadogéhoz hasonló programok segíthetnek az algoritmusoknak abban, hogy értelmesebb válaszokat adjanak.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak