Az LLM-hájp a magyar cégeket sem kerüli el

Bitport2023.12.08.Cloud & big data

Nem csak az OTP Bank nagyívű programja létezik a magyar LLM-szcénában. A Hiflylabs MI-alapú robotasszisztensének bétás változatát ősszel kezdték el használni vállalatok.

Kommunikáció saját belső tudástárunkkal nyelvi megkötések nélkül – ezzel a hangzatos ígérettel harangozták be a magyar Hiflylabs generatív MI-alapú fejlesztését, a RoboDocot. Ez a megoldás is annak az elvárásnak igyekszik megfelelni, ami üzleti környezetben alapvető: legyen megbízhatóbb és biztonságosabb, mint az általános generatív MI-k. Ehhez azonban a modellt a vállalat belső adatain kell tanítani (ez a koncepciója pl. a MosaicML-nek, melyet nyáron vásárolt fel a Databricks, de az SAP is ilyen jellegű MI-alkalmazásokban gondolkodik).

Mint a legtöbb virtuális asszisztens, a RoboDoc is szabadszöveges instrukciókkal utasítható. A feltett kérdésekre a felhasználó cég teljes tudástára alapján ad választ, működése ugyanis a céges adatbázisok és tudásbázis (üzleti adatok, statisztikák, dokumentumok, képi és hanganyagok) feldolgozására, értelmezésére és elemzésére épül. A Hiflylabs szerint ügyfeleik főleg pénzügyi, kutatási, szoftverfejlesztői (kódírás, kódoptimalizálás) vagy vállalatirányítási (pl. folyamatoptimalizálás) területen alkalmazhatják, de felkészíthető akár ügyfélszolgálati felhasználásra is. Speciális terep az egészségügy, ahol a betegkartonok és a különböző vizsgálati eredmények feldolgozásával segíti az adminisztrációt és a gyógyító tevékenységet.

Külső LLM-ek adják az alapot

Mint Horváth Imolától, a Hiflylabs fejlett analitika csapatának vezetőjétől megtudtuk, a RoboDocba olyan külső, többnyelvű LLM-eket (large language model) integráltak, melyek magyar nyelven is képesek magas szinten kommunikálni. "Ezek a modellek az elmúlt egy évben a nyelvi megértés magas szintjét érték el, és ez a magyar nyelvre is érvényes" – mondta a szakember.

Az LLM-eket fejlesztési projektektől függően API-hívással vagy letölthető open source csomag formájában integrálják. Utóbbi módszert biztonságosabbnak ítélik, mert a megrendelő belső tudásbázisa, dokumentumai, adatai házon belül maradnak. A folyamat első lépése a belső tudásbázis előfeldolgozása, melynek során az adatokat az LLM számára fogyasztható formátumra alakítják. A szabadszöveges instrukciók megadásánál így tudja beazonosítani a releváns tartalmakat, hogy ne kelljen mindent "megnéznie" vagy "elolvasnia", hanem a leszűrt tartalmak alapján generáljon válaszokat a kérdésekre.

Maga a fejlesztési folyamat egyébként sok szempontból eltér a hagyományos BI-fejlesztésektől. "A modell tanításához részletesebb granuláltságú, frekvenciájú és jobb minőségű adatra van szükség, mint egy BI-megoldásnál. Utóbbiak fókusza a múlt és a jelen, céljuk pedig egy átfogó kép, helyzetjelentés biztosítása. Az MI-alapú rendszerek jövő- és újdonságorientáltak, vagyis az a céljuk, hogy előrejelzéseket készítsenek a keresletre és az árra vonatkozólag, vagy javaslatokat tegyenek az ügyfeleknek újabb videók, cikkek megnézésére és termékek fogyasztására" – sorolta a különbségeket a szakember.

Ami az üzemeltetést illeti, a rendszernek alapvetően nincsenek extrém követelményei az infrastruktúrával szemben. Az LLM futtatható felhős vagy on-prem környezetben is. A belső tudásbázis feldolgozása során készül egy indexált vektoradatbázis, ez szolgál inputként a modellnek a beérkező szabadszöveges kérdések megválaszolásához. Emellett kell egy chatfelület, ahol a felhasználók kérdezhetnek. A komponenseket (belső tudásbázis, vektor adatbázis, LLM és chatfelület) egy integrált környezetbe, az ún. LLMOps-ba ágyazva kapcsolják össze és üzemeltetik.

"Ugyanakkor a legjobb teljesítménnyel bíró LLM-ek még igen nagyok (70+ milliárd paraméter), és sok számítási kapacitást igényelnek (145 gigabájt RAM), az open source modellekhez erős lokális szerverek vagy felhős virtuális gépek kellenek" – hívta fel a figyelmet Horváth Imola. Mint mondta, fontos fejlesztési cél, hogy csökkentsék az ilyen algoritmusok számításikapacitás-igényét.

Az adatvédelem kulcskérdés

Egészségügyi területen kiemelten fontos kérdés az adatbiztonság. Ez a RoboDoc esetében több tényezőn múlik. Egyrészt szükség van arra, hogy az intézményeknek legyen olyan fejlett vagy éppen épülő IT-infrastruktúrája, ami lehetőséget biztosít az on-premise és open source megoldások fejlesztésére. Horváth Imola szerint ez kiváltható olyan IT-szolgáltatók magyarországi adatközpontjával is, amely megfelel a szabályozási előírásoknak.

Ami Hiflylabs oldalát illeti, a betegek szenzitív adatait anonimizáció után használják a tanítás során, és a fejlesztési folyamatba is szigorú biztonsági elemeket építettek.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Hamarosan robotaxik tudhatják le az Uber-fuvarokat

A fuvarozó cég a tervek szerint az elektromos autókat gyártó Lucid és az önvezető rendszereket fejlesztő Nuro segítségével érné el azt, aminek önálló megvalósításáról még 2020-ban tett le.

A hónap témája

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

A kompromittált rendszerek, a dark weben felbukkanó ügyféladatok vagy a zsarolóvírus-kampányok következményei már a vezérigazgatói és pénzügyi igazgatói irodában csapódnak le – jogi, reputációs és üzleti szinten is. Lehet és kell is védekezni ellene.

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Hamarosan robotaxik tudhatják le az Uber-fuvarokat

Hogyan értesüljön az elsők között a vezetőség is a fenyegetésekről?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia