A politikai közvélemény-kutatások pontossága amúgy is állandó téma, de a kutatók esetenként már mesterséges intelligenciát is alkalmaznak a valódi válaszadók helyett, ami újabb kérdéseket vet fel a műfajjal kapcsolatban. A szintetikus minták alkalmazása nyilván csökkentheti a munka idejét és költségeit is, de a Verasight nemrég közölt tanulmánya alapján a mesterséges intelligencia teljesen alkalmatlan a feladatra. Ahogy a kommentárok is megjegyzik, ez várhatóan senkit sem akadályoz majd meg az MI-alapú megoldások erőltetésében, de így is érdekes, hogy az 1500 virtuális és 1500 emberi válaszadó összehasonlításakor milyen pusztító pontatlanságokat tártak fel a nagy nyelvi modellek (LLM-ek) rovására.
A kísérletben at OpenAI hat modelljét (GPT-4.1, GPT-4.1 nano, GPT-4.1 mini, GPT-4o, GPT-4o mini, o4-mini) használták a különböző demográfiai csoportok modellezésére, arra utasítva a modelleket, hogy adott korú, bőrszínű, lakóhelyű, keresetű és beállítottságú embereket megszemélyesítve válaszoljanak a kérdésekre. A teljesítményük pedig nem volt túlságosan meggyőző: a leggyengébben teljesítő modell alapból is 23 százalékponttal tért el az emberekkel végzett felmérések eredményeitől, de még a legjobban teljesítő modellek is egyre távolabb kerültek a valóságtól, ha az volt a feladatuk, hogy a teljes lakosság körében kevésbé reprezentált csoportok képviselőiként mondjanak véleményt valamiről.
Minden klafa, kivéve az eredményeket
Mint kiderült, az MI alkalmazása bizonyos feladatok esetében így is praktikus lehet, de a minták túlzott polarizációja miatt olyan kérdésekben sincs semmi haszna, amelyek nem illeszkednek pontosan a pártálláshoz. Vagyis a kutatók szerint egyszerűen az a helyzet, hogy a szintetikus mintavétel elméleti előnyei (értsd: olcsósága) sem ellensúlyozzák az ilyen mértékű pontatlanságot. Az LLM-ek a téves következtetések mellett következetesen alábecsülik a bizonytalanságot, és különösen félrevezetőek lehetnek, ha valaki a demográfiai és más változók közötti kapcsolatokat próbálja feltérképezni. Mindehhez pedig még nem is számították hozzá az adatok begyűjtésére szolgáló rendszerek kiépítését vagy az MI környezeti költségeit.
Ahogy a Futurism beszámolója kiemeli, az MI-alapú közvélemény-kutatás megbízhatatlansága egyáltalán nem hajánál fogva előrángatott probléma, mivel már javában alakul az erre épülő iparág. A lap az Aaru nevű MI-startup tavaly novemberi nyilatkoztát idézi, amely szerint helytelenül jósolták meg ugyan Kamala Harris győzelmét az amerikai elnökválasztáson, ebben a helyzetben az 53-47-es arány nem tér el lényegesen a 48-52-es aránytól. A cég társalapítója úgy látta, hogy statisztikailag a hibahatáron belül maradtak, a módszereik pedig jobbak a hagyományos kutatásokban alkalmazott eljárásoknál. A Verasight cikke ennek az ellenkezőjét sugallja, de a kockázatot természetesen a felmérések megrendelőinek kell mérlegelniük.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak