A stockholmi Royal Institute of Technology egy végzős hallgatója letesztelte, hogyan dolgoznak az LLM-ek (large language model) munkaerő-toborzásnál. A diplomaprojektet jegyző Celeste De Nadai, aki amúgy egy svéd tartalomgyártó startup marketingese, nem akarta megváltani a világot: azt vizsgálta meg, hogy jobbak-e a jelenlegi LLM-ek elfogultság szempontjából, mint az előző generációs modellek.
A kérdés nagyon is aktuális. Rohamosan terjednek az MI-alapú HR-es kiválasztó szoftverek, melyek használatát egyesek kifejezetten kontraproduktívnak tartják. Ilyen jellegű kutatásokat pedig nagyobb adathalmazon és a legújabb modellekkel még nem futtattak le.
Hogyan hangzik ugyanaz más szájból?
De Nadai kutatása során kizárólag olyan primer adatokkal (a jelölt neve és neme) dolgozott, melyekből az LLM-ek következtethetnek a jelöltek kulturális környezetére. Három modellt vizsgált: a Google Gemini-1.5-flash-t, a francia Mistral AI által fejlesztett Open-Mistral-nemo-2407-et és az OpenAI GPT4o-mini-jét.
A modellek feladata az volt, hogy értékeljék a jelöltek állásinterjú során adott válaszait a nem és a kulturális csoportra utaló név figyelembe vételével. A három LLM persze át volt verve: a kiértékelendő válaszok minden esetben ugyanazok voltak, csak a válaszokat adó személy neve és neme változott.
A kísérletek során a válaszokat 200 különböző névvel társították: fele férfi, fele női, melyeket négy kulturális csoportból (nyugat-afrikai, kelet-ázsiai, közel-keleti, angolszász) választottak. Az LLM-ekkel az elemzést 15 különböző ún. hőmérséklet-beállítással végezték el: egytizedes lépésekben változtatták, hogy az adott modell mennyire adjon elvárható (0,1-es beállítás), illetve meglepő, akár minden konvenciótól elrugaszkodott (1,5-es beállítás) választ.
Az eredmény egyértelmű, állítja dolgozatában De Nadai: ha a modellek angolszász származásra utaló nevet viselő férfi jelöltek válaszaiként kapták meg a kiértékelendő válaszokat, akkor azokat tendenciózusan gyengébbre értékelték, mint más esetekben.
A korábbi kutatások alapján De Nadai előfeltevése az volt, hogy a modellek pont fordítva viselkednek: a nyugati nevet viselő férfi jelölteket értékelik pozitívabban. A modellek között azonban volt némi eltérés: a Gemini modell bizonyos beállításoknak (pl. 1 fölötti hőmérsékleti értéknél) jobban teljesített.
Átestek a ló másik oldalára?
A tanulmány sajnos nem ad egzakt módon bizonyítható magyarázatot a jelenségre. De Nadai elmélete (feltételezése) az, hogy az LLM-ekben általában túlkorrigálták az előítéletességet, ami viszont emiatt az ellenkező irányba torzult.
Mindez csupán apró adalék ahhoz, hogy a fejlesztők továbbra sem tudnak mint kezdeni az előítéletességgel. De ebből De Nadai szerint nem az következik, hogy el kellene vetni az MI használatát a toborzásban. Azt javasolja, hogy a technológia korlátait figyelembe véve tegyünk fel pontosabb kérdéseket a modellnek, illetve fordítsunk nagyobb figyelmet a hőmérsékletérték finomhangolására. De még így is ki kell zárni az elemzendő adatok köréből minden olyan elemet, amelyet nem kívánunk (vagy nem szabad) figyelembe venni a munkaerő-felvételnél. Ilyen adat lehet például a jelöltek neve és neme.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak