Kommunikáció saját belső tudástárunkkal nyelvi megkötések nélkül – ezzel a hangzatos ígérettel harangozták be a magyar Hiflylabs generatív MI-alapú fejlesztését, a RoboDocot. Ez a megoldás is annak az elvárásnak igyekszik megfelelni, ami üzleti környezetben alapvető: legyen megbízhatóbb és biztonságosabb, mint az általános generatív MI-k. Ehhez azonban a modellt a vállalat belső adatain kell tanítani (ez a koncepciója pl. a MosaicML-nek, melyet nyáron vásárolt fel a Databricks, de az SAP is ilyen jellegű MI-alkalmazásokban gondolkodik).
Mint a legtöbb virtuális asszisztens, a RoboDoc is szabadszöveges instrukciókkal utasítható. A feltett kérdésekre a felhasználó cég teljes tudástára alapján ad választ, működése ugyanis a céges adatbázisok és tudásbázis (üzleti adatok, statisztikák, dokumentumok, képi és hanganyagok) feldolgozására, értelmezésére és elemzésére épül. A Hiflylabs szerint ügyfeleik főleg pénzügyi, kutatási, szoftverfejlesztői (kódírás, kódoptimalizálás) vagy vállalatirányítási (pl. folyamatoptimalizálás) területen alkalmazhatják, de felkészíthető akár ügyfélszolgálati felhasználásra is. Speciális terep az egészségügy, ahol a betegkartonok és a különböző vizsgálati eredmények feldolgozásával segíti az adminisztrációt és a gyógyító tevékenységet.
Külső LLM-ek adják az alapot
Mint Horváth Imolától, a Hiflylabs fejlett analitika csapatának vezetőjétől megtudtuk, a RoboDocba olyan külső, többnyelvű LLM-eket (large language model) integráltak, melyek magyar nyelven is képesek magas szinten kommunikálni. "Ezek a modellek az elmúlt egy évben a nyelvi megértés magas szintjét érték el, és ez a magyar nyelvre is érvényes" – mondta a szakember.
Az LLM-eket fejlesztési projektektől függően API-hívással vagy letölthető open source csomag formájában integrálják. Utóbbi módszert biztonságosabbnak ítélik, mert a megrendelő belső tudásbázisa, dokumentumai, adatai házon belül maradnak. A folyamat első lépése a belső tudásbázis előfeldolgozása, melynek során az adatokat az LLM számára fogyasztható formátumra alakítják. A szabadszöveges instrukciók megadásánál így tudja beazonosítani a releváns tartalmakat, hogy ne kelljen mindent "megnéznie" vagy "elolvasnia", hanem a leszűrt tartalmak alapján generáljon válaszokat a kérdésekre.
Maga a fejlesztési folyamat egyébként sok szempontból eltér a hagyományos BI-fejlesztésektől. "A modell tanításához részletesebb granuláltságú, frekvenciájú és jobb minőségű adatra van szükség, mint egy BI-megoldásnál. Utóbbiak fókusza a múlt és a jelen, céljuk pedig egy átfogó kép, helyzetjelentés biztosítása. Az MI-alapú rendszerek jövő- és újdonságorientáltak, vagyis az a céljuk, hogy előrejelzéseket készítsenek a keresletre és az árra vonatkozólag, vagy javaslatokat tegyenek az ügyfeleknek újabb videók, cikkek megnézésére és termékek fogyasztására" – sorolta a különbségeket a szakember.
Ami az üzemeltetést illeti, a rendszernek alapvetően nincsenek extrém követelményei az infrastruktúrával szemben. Az LLM futtatható felhős vagy on-prem környezetben is. A belső tudásbázis feldolgozása során készül egy indexált vektoradatbázis, ez szolgál inputként a modellnek a beérkező szabadszöveges kérdések megválaszolásához. Emellett kell egy chatfelület, ahol a felhasználók kérdezhetnek. A komponenseket (belső tudásbázis, vektor adatbázis, LLM és chatfelület) egy integrált környezetbe, az ún. LLMOps-ba ágyazva kapcsolják össze és üzemeltetik.
"Ugyanakkor a legjobb teljesítménnyel bíró LLM-ek még igen nagyok (70+ milliárd paraméter), és sok számítási kapacitást igényelnek (145 gigabájt RAM), az open source modellekhez erős lokális szerverek vagy felhős virtuális gépek kellenek" – hívta fel a figyelmet Horváth Imola. Mint mondta, fontos fejlesztési cél, hogy csökkentsék az ilyen algoritmusok számításikapacitás-igényét.
Az adatvédelem kulcskérdés
Egészségügyi területen kiemelten fontos kérdés az adatbiztonság. Ez a RoboDoc esetében több tényezőn múlik. Egyrészt szükség van arra, hogy az intézményeknek legyen olyan fejlett vagy éppen épülő IT-infrastruktúrája, ami lehetőséget biztosít az on-premise és open source megoldások fejlesztésére. Horváth Imola szerint ez kiváltható olyan IT-szolgáltatók magyarországi adatközpontjával is, amely megfelel a szabályozási előírásoknak.
Ami Hiflylabs oldalát illeti, a betegek szenzitív adatait anonimizáció után használják a tanítás során, és a fejlesztési folyamatba is szigorú biztonsági elemeket építettek.
Digitalizáció a mindennapokban: hogyan lesz a stratégiai célból napi működés?
A digitális transzformáció sok vállalatnál már nem cél, hanem elvárás – mégis gyakran megreked a tervezőasztalon. A vezetői szinten megfogalmazott ambiciózus tervek nehezen fordulnak át napi működéssé, ha hiányzik a technológiai rugalmasság vagy a belső kohézió.
CIO KUTATÁS
AZ IRÁNYÍTÁS VISSZASZERZÉSE
Valóban egyre nagyobb lehet az IT és az IT-vezető súlya a vállalatokon belül? A nemzetközi mérések szerint igen, de mi a helyzet Magyarországon?
Segítsen megtalálni a választ! Töltse ki a Budapesti Corvinus Egyetem és a Bitport anonim kutatását, és kérje meg erre üzleti oldalon dolgozó vezetőtársait is!
Az eredményeket május 8-9-én ismertetjük a 16. CIO Hungary konferencián.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak