Fittyet hánynak a találati listákra az MI-alapú keresők

Bitport2025.10.30.Közösség & HR

Egy friss kutatás szerint a generatív keresőmotorok nagyon gyakran idéznek olyan forrásokat, amelyek ugyanarra a kérdésre meg sem jelennének az első százban a Google találatai között.

Hirdetés

A bochumi Ruhr-Universität és a Max Planck Institute for Software Systems (MPI-SWS) kutatói nemrég közölt tanulmányukban a hagyományos webes keresési eredményeket hasonlították össze a mesterséges intelligenciára épülő alkalmazások kimeneteivel, ennek alapján pedig arra jutottak, hogy a generatív MI-eszközök gyakran támaszkodnak a kevésbé népszerű vagy nem megszokott forrásokra. Ez a tradicionális keresőmotorok és a nagy nyelvi modelleken (LLM) alapuló rendszerek növekvő eltérésére utal az online információk gyűjtésében és megjelenítésében: az új típusú webes keresés lényegében egyetlen, összefüggő szöveget ad válaszként, ami az eddigi webes kereséseknél szélesebb körben fedi le a forrásokat, miközben változó mértékben támaszkodik a modellek paramétereiben meghatározott belső, illetve az internetről szerzett külső tudásra.

Ahogy a kutatók írják, a generatív keresőmotoroknak nincs egységes koncepciójuk, ami növeli a diverzitást és a véletlenek előfordulását, de azt is szükségessé teszi, hogy újraértelmezzük az online keresés értékelési kritériumait. Igaz, hogy mára az oldalak indexelése és rangsorolása is meglehetősen áttekinthetetlen módon zajlik, de mégis rendezett hivatkozási listákat eredményez az MI tömör összefoglalásaihoz képest, amelyek a változatos forrásokból származó információk szintetizálásával jönnek létre. A kutatók megpróbálták számszerűsíteni, hogy ez az eltolódás milyen hatással van magukra a weboldalakra, amelyek a szóban forgó információt biztosítják: a Google keresőjének és az MI-nek is feltették ugyanazokat a kérdéseket, majd az MI válaszaiban hivatkozott domaineket összevetették a Google találati oldal listájának első 10, illetve első 100 linkjével.

A Google MI-alapú áttekintés (AI Overviews), a Gemini-2.5 Flash és a GPT-4o két változatának vizsgálata során kiderült, hogy a mesterséges intelligencia által generált válaszok következetesen a leglátogatottabb kategóriákon kívüli webhelyekre épülnek: még a Google saját mesterségesintelligencia-alapú áttekintései is olyan forrásokból dolgoznak, amelyeknek több mint fele kívül esik a kereső első 10 organikus találatán, 40 százaléka pedig az első 100 találat között sem szerepel. A Gemini keresési eredményei hasonló mintázatot mutattak, a széles körben látogatott weboldalak küszöbértéke alá eső "átlagos" forrásokkal, és a GPT-4o (illetve annak webes megfelelője) sem merített túl sűrűn a kiemelt oldalakról, bár ebben az is benne van, hogy főleg intézményi domainekre, vállalati oldalakra és enciklopédiákra hivatkozik a közösségi média vagy a fórumok helyett.

Nem rosszabb, de máshogy kellene értékelni

Fontos megjegyezni, hogy a tanulmány szerint ez egyáltalán nem jelenti, hogy a mesterséges intelligencia keresési eredményei gyengébbek lennének, de midenképpen eltérő megközelítést mutat az információkeresésben. Kimutatták ugyanis, hogy az MI-alapú keresések hasonló számban fedtek le különböző fogalmakat, mint a hagyományos Google-kereső találati listáinak első 10 linkje. Érdemi különbség azonban, hogy az MI-vel generált összefoglalók és tömörítések az árnyalatokat is kiradírozzák az információból: ez könnyen észrevehető, ha például olyan nevekre keresünk rá, amelyeket több, a keresés szempontjából releváns személy is visel. A standard kereső ebben a tekintetben szélesebb kontextuális lefedettséget biztosít, miközben az MI hajlamos egyetlen értelmezésbe sűríteni a dolgokat, kihagyva az összegzésből a keresések egyik-másik alternatív eredményét.

Ugyancsak érdekes, hogy a generatív rendszerek külső hivatkozások nélkül is kiadnak összefoglalókat az adott modellek belső tudásbázisára támaszkodva. Ez hasznos lehet a jól bejáratott témáknál, de sokkal kevésbé megbízható, ha mondjuk friss hírekről van szó. A kutatás kitér az MI-rendszerek reagálóképességére az LLM-ek parametrikus tudásában nem szereplő tartalmakat és az időbeli stabilitást illetően, ami azt jellemzi, ahogy különböző időpontokban változnak ugyanazoknak a lekérdezéseknek az eredményei. A visszakereséssel dolgozó rendszerek ebben megbízhatóbbnak bizonyultak az elsősorban saját ismereteikre támaszkodó modelleknél, ami még egy érv amellett, hogy az új keresők teljesítményének értékeléséhez új referenciákra van szükség, figyelembe véve a források sokféleségét, a fogalmi lefedettséget és az összefoglalók koherenciáját is.

Tovább a Characterizing Web Search in The Age of Generative AI című kutatásra... »

...vagy egy jóval tömörebb beszámolóra a TechSpot oldalán »

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Közösség & HR

Amerikában törvénnyel választanák le a kiskorú felhasználókat az MI-chatbotokról

A kétpárti javaslatot jegyző szenátorok morális kötelességnek és kormányzati érdeknek nevezték, hogy világos szabályokkal vegyék elejét az ellenőrizetlenül működő alkalmazások további károkozásának.

Hirdetés

Az end-to-end védelmeké a jövő

A kódbiztonság integrálásával új fejlődési szakaszukba léptek a felhős védelmi platformok. Werner Obringot, a Clico Hungary cloud security architektjét kérdeztük a miértekről és hogyanokról.

A hónap témája

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

A biztonsági megoldásszállítók érthető módon egy irányba mozdulnak, hiszen ugyanazoknak a támadásoknak az ellenszerét keresik. Megoldási javaslataikban sokszor csak árnyalatnyiak a különbségek, ami egyszerre könnyíti és nehezíti a választást.

a melléklet támogatója a Clico Hungary

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Amerikában törvénnyel választanák le a kiskorú felhasználókat az MI-chatbotokról

A CNAPP-oknál is a legnehezebb kérdés: melyiket válasszuk

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia