Itt egy újabb kutatás, amely szerint a legfejlettebb modellek mégsem annyira lenyűgözőek, mint amilyennek a gyártók megpróbálják beállítani őket.

A német LAION, egy non-profit MI-kutató szervezet tudósai június elején tették közzé tapasztalataikat azzal kapcsolatban, hogy még a legkifinomultabbnak mondott nagy nyelvi modelleket (LLM) is gyakran meg lehet fektetni ugyanazokkal az egyszerű logikai feladványokkal. Cikkükben az Alice Csodaországban (Alice in Wonderland) alapján AIW-problémának nevezik azt a kérdést, hogy ha Alice-nek N számú fiútestvére és M számú lánytestvére van, akkor hány lánytestvére van Alice fiútestvér(ei)nek? A dolog nem tűnik annyira bonyolultnak, hogy kicsorbuljanak rajta az állítólag a szuperintelligencia (AGI) előszobáját képviselő modellek, amelyek azonban a jelek szerint mégis elhasalnak a primitív feladatokon.

A teszteltek során elővették az OpenAI GPT-3, GPT-4 és GPT-4o modelljét, az Anthropic Claude 3 Opust, a Google Gemini és Meta Llama modelljét, valamint a Mistral, a Mosaic és a Cohere fejlesztéseit is. A kutatók ennek során a probléma különböző változatait használták, felcserélve például az értékeket, vagy változtatva a nyelvezeten és követelményein, de nem nyúltak a probléma megoldásához szükséges alapvető érvelési folyamathoz. Mint kiderült, egyedül az új GPT-4o nyújtott elégséges teljesítményt, de az AIW+ kísérletek során, de ahogy némileg megvariálták a promptokat, már ott is látványos lefagyásokat tapasztaltak, amelyek messze túlmutattak a helytelen eredményeken.

Alice a saját húga, és annyi nővére van, mint az öccsének

Amikor ugyanis arra utasították a mesterséges intelligenciát, hogy indokolja a megoldását, mindegyik modell elkezdett értelmetlen magyarázatokat gyártani, sőt amikor szembesítették őket a pontatlanságokkal, méltatlankodni kezdtek, és annál is jobban ragaszkodtak a hülyeséghez. A tanulány szerint ez az általános minta "a legkorszerűbb modellek funkcióinak és érvelési képességeinek drámai összeomlása": nem csak az egyszerűen megfogalmazott, emberek által könnyen megoldható feladatok kudarcáról van szó, hanem arról is, hogy az MI túlzottan bízik saját rossz megoldásaiban, ráadásul a konfabulációhoz hasonló, "értelmetlen okoskodással" próbálják igazolni és hihetővé tenni azokat.

A kutatás számtalan példát mutat ezekre a zavarodott gondolatmenetekre, amelyek már az AIW legegyszerűbb változatánál is érdekes beszélgetéseket eredményeznek. Ahogy a tanulmányt bemutató Futurism cikke kiemeli, nagyon érdekes lenne az ilyen kísérletek összevetése az MI-modellek hatékonyságának mérésére használt iparági benchmarkokkal. A kutatók szerint ugyanis a most tesztelt modellek magas pontszámokat értek el a különböző szabványosított eljárások során, amelyek elvileg a mesterséges intelligencia érvelési képességeit is vizsgálják. Megfigyeléseik azonban megerősítik azokat az aggályokat, amelyek szerint ideje lenne a nyelvi modellek értékelésére szolgáló folyamatok felülvizsgálatának.

Közösség & HR

Linus Torvalds eligazította a generatív mesterséges intelligenciát

Már nagyon hiányzott a megfelelő iránymutatás a linuxos közösségnek.
 
Hirdetés

Rendszerek és emberek: a CIO választásai egy új magyar felmérés tükrében

"Nehéz informatikusnak lenni egy olyan cégben, ahol sok az IT-s" – jegyezte meg egy egészségügyi technológiákat fejlesztő cég informatikai vezetője, amikor megkérdeztük, milyennek látja házon belül az IT és a többi osztály közötti kommunikációt.

Ezt már akkor sokan állították, amikor a Watson vagy a DeepMind még legfeljebb érdekes játék volt, mert jó volt kvízben, sakkban vagy góban.

a melléklet támogatója a Clico Hungary

Hirdetés

Így lehet sok önálló kiberbiztonsági eszközéből egy erősebbet csinálni

A kulcsszó a platform. Ha egy cég jó platformot választ, akkor az egyes eszközök előnyei nem kioltják, hanem erősítik egymást, és még az üzemeltetés is olcsóbb lesz.

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2024 Bitport.hu Média Kft. Minden jog fenntartva.