A résztvevők harmada elbukott a világ legnagyobb Turing-tesztjén

Bitport2023.06.01.Cloud & big data

Az AI21 Labs gigantikus kísérletében másfél millióan vettek részt. Az önkéntesek tetemes része nem tudott különbséget tenni gép és ember között.

Hirdetés

Érdekes eredményeket hozott az az egy hónapja folyó kísérlet, amelyet egy nagy nyelvi modelleket fejlesztő cég, az AI21 Labs végzett.

A Human or Not? (Ember vagy sem?) elnevezésű projekt keretében a vállalkozó kedvűeket a dedikált honlapon keresztül összepárosították egy csevegőpartnerrel, majd kétpercnyi szöveges kommunikációt követően meg kellett tippelni, hogy a partner egy húsvér ember, vagy egy algoritmus volt. A kísérlet során az algoritmusokat olyan vezető nagy nyelvi modellek képviselték, mint a ChatGPT-vel berobbant OpenAI GPT-4 algoritmusa, továbbá az AI21 Labs saját fejlesztésű bajnoka, a Jurassic-2.

A kezdeményezés meglehetősen népszerűnek bizonyult, hiszen a cég tájékoztatása szerint az április közepi indulás óta több mint 10 millió beszélgetés zajlott a platformon, összesen több mint másfél millió résztvevővel a világ minden tájáról.

Érdekes módon a projekt legalább annyira bizonyult szociológiai, mint technológiai kísérletnek. Általános tendencia volt például, hogy a kellően udvarias csevegőpartnert robotnak bélyegezték (ami meglehetősen rossz képet fest az interneten uralkodó közbeszéd állapotáról). Egyesek jól felismerhető módszerekkel igyekeztek kiugratni a nyulat a bokorból (például aktuális témákról kérdeztek), mások a szlengszavak használatából, elütésekből, helyesírási hibákból próbáltak rájönni a helyes megoldásra. Taktikájuk azonban nem feltétlenül jött be, mivel a modelleket valós adatokkal is felvértezték, valamint az emberi tökéletlenség utánzására is felkészítették.

Ami a számszerű eredményeket illeti, az első 2 millió párbeszéd alapján a résztvevők átlagosan 68 százalékos pontosságot tudtak felmutatni, azaz nagyjából harmaduk eltévedt a gép-ember útvesztőben. Az emberi beszélgetőtársakat egyébként jobban ítélték meg (73 százalékos pontosság), amikor azonban algoritmus volt "a vonal másik végén", akkor csak 60 százalékban sikerült ezt kideríteni a rövid eszmecsere alapján. Ez utóbbi arány pedig már nem sokkal jobb, mint a pénzfeldobáson alapuló döntés várható eredménye.

Azért még nem jött el a Terminátor kora

Bármennyire is meghökkentőnek tűnnek a fenti eredmények, nem érdemes ezekből levonni azt a következtetést, hogy az algoritmusok már ott tartanak, hogy gond nélkül képesek lennének beolvadni az emberi kommunikációba. Már csak azért sem, mivel ahogy az Eugene Goostman elnevezésű chatbot sok évvel ezelőtti, hangos szalagcímekkel kísért performansza sem követte szigorúan Alan Turing matematikus híres, még az 1950-es években felállított kísérleti modelljét, úgy a mostani projekt is csak egyfajta lebutított változatnak tekinthető.

Arról nem is beszélve, hogy magát az eredeti Turing-tesztet is sok kritika érte. Tudósok garmadája ásta már alá a koncepciót, és mutatta ki, hogy az ilyen kísérletek egyáltalán nem alkalmasak arra, hogy a gépi intelligencia "emberivé" válásának zsinórmértékei legyenek.

Ettől függetlenül arra mindenképpen jó volt ez a grandiózus kísérlet, hogy rámutasson arra, mennyire halvány már a határvonal, amelyet az emberi megérzés képes felrajzolni egy ilyen helyzetben. Ráadásul ez a vonal az algoritmusok fejlődésével egyre csak halványabbá válik.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Egyre fenyegetőbb kockázat a nagy márkák számára az MI-lejáratás

A generatív algoritmusoknak köszönhetően sosem volt könnyebb kipécézni és szakmányban gyártott hamis tartalmakkal lejáratni egy brandet. Mindezt a potenciális áldozatok is kezdik felismerni.

Hirdetés

A "jó gazda" szemlélet menti meg az MI-költségvetést

A 4iG IT minden lehetőséget biztosít ügyfeleinek ahhoz, hogy a FinOps eszközeivel teljes körű kontrollt gyakorolhassanak IT-költéseik felett – még akkor is, ha a mesterséges intelligencia miatt új, nehezen becsülhető, dinamikusan változó költségstruktúrákat kell kezelniük.

A hónap témája

Így lesznek CAPEX és OPEX jó barátok, avagy a hibrid IT-költségmenedzsment

Hogyan lehet összehangolni a CAPEX és OPEX költségeket a FinOps módszerekkel?

a melléklet támogatója a 4iG

CIO Podcast

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

CIO Podcast #64: Ami megfelelőségi audit, az IT is?

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Egyre fenyegetőbb kockázat a nagy márkák számára az MI-lejáratás

Így lesznek CAPEX és OPEX jó barátok, avagy a hibrid IT-költségmenedzsment

CIO Podcast #65: Digitális közigazgatásból üzlet. A DÁP projekt jövője

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Budapest 2025 konferencia