Ez lesz az új csodafegyver: mérőeszköz MI-modellekhez

Bitport2023.10.12.Cloud & big data

Egy amerikai cég felfedezte az MI-modellek teremtette piaci rést. Olyan szolgáltatást kínál, amivel használati esetekhez lehet modellt választani.

Egy amerikai cég elkészítette az első valóban használható eszközt, amivel mérni lehet az MI-modellek teljesítményét különböző használati eseteknél. A monitoring amúgy nem idegen a New York-i székhelyű Datadogtól: eddig FinOps szemléletű dashboardokat fejlesztett felhőszolgáltatásokhoz, melyeken nemcsak a költségeket ellenőrizhetik az IT-vezetők, hanem még a fejlesztőknek is rengeteg támpontot ad például a szerverek kihasználtságáról, az adatok áramlásáról vagy a különböző szolgáltatások biztonsági kockázatairól.

A mesterséges intelligencia most már mindenütt megjelent: a Windowsban, az Office-termékekben, a Google Workspace-ben, a Pixel telefonokban, a Facebookon, a LinkedInen és így tovább, és ebben a Datadog meglátott egy új piaci rést. Hogyan lehet eldönteni, hogy melyik MI-modell jó, és melyik nem alkalmas bizonyos használati esetekre? Az augusztusban bemutatott és a fejlesztő cég néhány ügyfelénél bétában futtatott LLM Observability (vagy LLM Obs), ahogy neve is mutatja, egyelőre a nagy nyelvi modellekre (LLM, large language model) koncentrál.

A mérőeszköz a használt modell és a felhasználókkal interakcióba lépő chatbot közé ékelődik, és alapvetően a modell működését monitorozza. Méri a teljesítményét (pl. válaszidő), a minőségét (felhasználói visszajelzésekre támaszkodva), de még a futtatás költségeire vonatkozóan is ad információkat az alapján, hogy az LLM-szolgáltatók mekkora díjat számítanak fel válaszonként. A rendszer naplózza a felhasználói interakciókat, így azt is, amikor annyira elégedetlenek, hogy egy párbeszéd kellős közepén egyszerűen kilövik a chatbotot.

Az adatok alapján gyorsan azonosíthatók az LLM-mel kapcsolatos problémák (kiugró modellköltség, teljesítménycsökkenés, hallucináció stb.). De a Datadog tovább is megy ennél: mérőeszközével összehasonlíthatók adott használati esetekre a különböző MI-modellek akár költségoptimalizálási céllal is.

Visszamentek a forráshoz

A fejlesztésekhez a cégnek sikerült megfelelő embert is találnia: Junaid Ahmed korábban 15 évet húzott le a Microsoftnál, utána pedig két évet az Apple-nél, és az utóbbi években mindenkét cégnél a mesterséges intelligencia és a gépi tanulás alkalmazásokba történő integrálásán dolgozott. Az LLM Obs fejlesztésénél az a meggyőződése vezette, hogy az LLM-ek épp olyan általánosan elterjedt eszközök lesznek, mint mondjuk ma a táblázatkezelők vagy a szövegszerkesztők, ám azoknál specifikusabbak.

Ha a felhasználók (alapvetően vállalatok) el akarnak igazodni a kínálatban, kellenek olyan mérőeszközök, melyek alapján a vállalatok el tudják dönteni, hogy az általuk használt modellek mennyire működnek abban a környezetben, amelyben az adott vállalat használná, nyilatkozta a közelmúltban Junaid Ahmed.

Az LLM Obs elemzései eredményeit egy grafikusan felületen jeleníti meg, amelyen azonnal látható, hogy melyik modell melyik felhasználási esetnél teljesít a legjobban. Azt egyébként Ahmed is elismerte, hogy a projekt még gyerekcipőben jár. "A mesterséges intelligenciák tesztelése jelenleg nem jelent számunkra valódi bevételi forrást. De a jövőben nagy üzleti területté válhat." A legjobb esetben a Datadogéhoz hasonló programok segíthetnek az algoritmusoknak abban, hogy értelmesebb válaszokat adjanak.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Elkeseredett hírességek próbálják visszafogni az MI-fejlesztők versenyét

Több ezer befolyásos személyiség csatlakozott ahhoz a kezdeményezéshez, ami kötelezően leállítaná az emberfeletti szuperintelligencia felépítésére irányuló munkát, a tiltás feloldását pedig tudományos konszenzushoz és a közvélemény támogatásához kötné.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

CIO Podcast #63: A stressz, a felső vezetők és két perc néma csend

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Elkeseredett hírességek próbálják visszafogni az MI-fejlesztők versenyét

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia