Itt egy újabb kutatás, amely szerint a legfejlettebb modellek mégsem annyira lenyűgözőek, mint amilyennek a gyártók megpróbálják beállítani őket.

A német LAION, egy non-profit MI-kutató szervezet tudósai június elején tették közzé tapasztalataikat azzal kapcsolatban, hogy még a legkifinomultabbnak mondott nagy nyelvi modelleket (LLM) is gyakran meg lehet fektetni ugyanazokkal az egyszerű logikai feladványokkal. Cikkükben az Alice Csodaországban (Alice in Wonderland) alapján AIW-problémának nevezik azt a kérdést, hogy ha Alice-nek N számú fiútestvére és M számú lánytestvére van, akkor hány lánytestvére van Alice fiútestvér(ei)nek? A dolog nem tűnik annyira bonyolultnak, hogy kicsorbuljanak rajta az állítólag a szuperintelligencia (AGI) előszobáját képviselő modellek, amelyek azonban a jelek szerint mégis elhasalnak a primitív feladatokon.

A teszteltek során elővették az OpenAI GPT-3, GPT-4 és GPT-4o modelljét, az Anthropic Claude 3 Opust, a Google Gemini és Meta Llama modelljét, valamint a Mistral, a Mosaic és a Cohere fejlesztéseit is. A kutatók ennek során a probléma különböző változatait használták, felcserélve például az értékeket, vagy változtatva a nyelvezeten és követelményein, de nem nyúltak a probléma megoldásához szükséges alapvető érvelési folyamathoz. Mint kiderült, egyedül az új GPT-4o nyújtott elégséges teljesítményt, de az AIW+ kísérletek során, de ahogy némileg megvariálták a promptokat, már ott is látványos lefagyásokat tapasztaltak, amelyek messze túlmutattak a helytelen eredményeken.

Alice a saját húga, és annyi nővére van, mint az öccsének

Amikor ugyanis arra utasították a mesterséges intelligenciát, hogy indokolja a megoldását, mindegyik modell elkezdett értelmetlen magyarázatokat gyártani, sőt amikor szembesítették őket a pontatlanságokkal, méltatlankodni kezdtek, és annál is jobban ragaszkodtak a hülyeséghez. A tanulány szerint ez az általános minta "a legkorszerűbb modellek funkcióinak és érvelési képességeinek drámai összeomlása": nem csak az egyszerűen megfogalmazott, emberek által könnyen megoldható feladatok kudarcáról van szó, hanem arról is, hogy az MI túlzottan bízik saját rossz megoldásaiban, ráadásul a konfabulációhoz hasonló, "értelmetlen okoskodással" próbálják igazolni és hihetővé tenni azokat.

A kutatás számtalan példát mutat ezekre a zavarodott gondolatmenetekre, amelyek már az AIW legegyszerűbb változatánál is érdekes beszélgetéseket eredményeznek. Ahogy a tanulmányt bemutató Futurism cikke kiemeli, nagyon érdekes lenne az ilyen kísérletek összevetése az MI-modellek hatékonyságának mérésére használt iparági benchmarkokkal. A kutatók szerint ugyanis a most tesztelt modellek magas pontszámokat értek el a különböző szabványosított eljárások során, amelyek elvileg a mesterséges intelligencia érvelési képességeit is vizsgálják. Megfigyeléseik azonban megerősítik azokat az aggályokat, amelyek szerint ideje lenne a nyelvi modellek értékelésére szolgáló folyamatok felülvizsgálatának.

Közösség & HR

Kína MI-figyelmeztetésekkel pecsételné tele az internetet

A javaslat szintjén tartó hatósági anyag jól látható logó, figyelmezető szöveg vagy hang, valamint pontos metaadatok elhelyezését írja elő minden olyan tartalomnál, amely mesterséges intelligenciával készült.
 
A teljes életciklust lefedő rendszerek képesek megszüntetni azt a káoszt, ami a szervezetek zöménél még mindig akadályozza az információáramlást.

a melléklet támogatója a GLOBAL-UNION Kft., a Kyocera márka kizárólagos magyar disztribútora

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.