Találékonyan fordít a mesterséges intelligencia

Bitport2016.11.28.Cloud & big data

A Google Translate mögött munkába álló új algoritmus olyat is lefordít, amit meg sem tanítottak neki.

Alig két hónapja cserélte le a Google a fordítási feladatokért felelős rendszerét. A korábbi, leginkább a szótárak szintjén elboldoguló algoritmust egy modern, öntanulásra képes verzió váltotta fel. A cég szakemberei maguk is meglepődve tapasztalták, mikre képes a mesterséges intelligencia.

Felfedezetlen terepen

Hagyományosan a szótárprogramok alapját egy meglehetősen egyszerű felállás adja: a különböző nyelvek szavait, szókapcsolatait, gyakori szófordulatait egymáshoz rendelik. A megoldás természetesen meg sem közelíti az emberi fordítók teljesítményét, de nagyon alapvető mondatoknál nagyjából elfogadható eredményt hoz.

A Google Translate-tel sem volt érdemes eddig bekezdéseket fordíttatni, de szeptemberben alapos turbózáson esett át a szolgáltatás, amikor a vállalat mélytanulásra alkalmas algoritmusa vette át a feladatokat. Az emberi idegrendszer működését másoló rendszer azonnal megmutatta erényeit, hiszen például mandarin nyelven az elődjénél sokkal pontosabb szövegeket produkált.

Azt is tudja, amire meg se tanították

A Google szolgáltatása jelenleg 103 nyelven működik, ami azt jelenti, hogy a direkt fordításra kijelölt nyelvpárok számossága bőven meghaladja az ötezret. Ha ez utóbbit felszorozzuk a megtanulandó szavak, szókapcsolatok, példák millióival (mert valamiből az öntanuló rendszernek is ki kell indulnia), irdatlanul nagy adatmennyiséget kapunk. Viszont a mérnökök felfedezték, hogy nem feltétlenül szükséges minden egyes lehetséges nyelvi párt beadagolni a gépnek, hiszen az feltalálja magát, és egészen elfogadható eredményt ad akkor is, ha csak áttételes ismeretei vannak egy adott nyelvpárról.

A rendszert külön megtanították az angol-japán és az angol-koreai fordításra, majd kipróbálták, mire megy, ha arra kérik, fordítson japánról koreaira. Még a fejlesztők is megdöbbentek, hogy mennyire jó minőségű lett a fordítás a gép által sosem tanult felállásban. A mesterségesen működő neurális háló bonyolultságára jellemző, hogy még magik a kutatók sem tudják teljes bizonyossággal megmondani, hogy is működhet mindez úgy, ahogy tapasztalták.

Így "gondolkodik" a mesterséges intelligencia
_{(a kép kattintásra nagyítható)}

Némi nyomra azért bukkantak. Felállítottak egy 3D-s grafikont, ami kis túlzással a gép "gondolkodását" rajzolja ki a különböző fordítási feladatok és a három nyelv viszonylatában. Kiderült, hogy az algoritmus a hasonló kifejezéseket, mondatokat ugyanazon a területen csoportosítja, legyen szó bármelyik nyelvről is. Ebből az következik, hogy a szavak gépies átírása helyett a program képes a jelentésük alapján elhelyezni bizonyos szókapcsolatokat, bár erre explicite nem tanították meg.

Erre a trükkre vezethető vissza az a másik kísérlet eredménye is, ahol a gépnek 12 nyelvpárt tanítottak meg, de csak annyi adattal, amennyi normál esetben egyetlen nyelvpár elsajátításához szükséges. A gép viszont ebből a leszűkített alapból is majdnem olyan jó minőségű fordításokat produkált, mint a 12-szer akkora tudásanyagra építve.

Ennyi nem elég? Iratkozzon fel hírlevelünkre!

Cloud & big data

Visszavonták az USA-ban a koreai csipgyártók különleges kínai engedélyét

A lépés komoly gondot jelenthet a Samsungnak és az SK Hynixnek, de tényleges jövőbeli kimenetele vélhetőleg szorosan összefügg a Donald Trump által indított vámtarifa-háború alakulásával.

A hónap témája

Mikor és hogyan érdemes lecserélni az elavult storage-ot?

A vállalati adattárolás az IT-infrastruktúra egyik legkritikusabb eleme. Mégis, sok szervezet halogatja a régi rendszerek cseréjét, pedig komoly kockázatokat jelenthet az elavult technológia. Honnan tudjuk, hogy elérkezett a váltás ideje, és hogyan kerülhetők el a leggyakoribb hibák migráció közben?

a melléklet támogatója az EURO ONE

CIO Podcast

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

CIO Podcast #59: A megoldásszállítók is készülnek a NIS2-re

MÉG TÖBB CIO PODCAST »

Vendég cikk

Régen minden jobb volt? A VMware licencelési változásai

Amióta a VMware a Broadcom tulajdonába került, sebesen követik egymást a szoftvercégnél a stratégiai jelentőségű változások. Mi vár az ügyfelekre? Vincze-Berecz Tibor szoftverlicenc-szakértő (IPR-Insights) írása.

Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak

CIO Klub

Az IT-projektmenedzsment új varázsszava: proof of concept

Különösen az early adopter vállalatoknak lehet hasznos. De különbözik ez bármiben az amúgy is megkerülhetetlen tervezéstől és pilottól?

Sok hazai cégnek kell szorosra zárni a kiberkaput

Visszavonták az USA-ban a koreai csipgyártók különleges kínai engedélyét

Mikor és hogyan érdemes lecserélni az elavult storage-ot?

CIO Podcast #60: Megoldottuk a projektmenedzsment összes problémáját

Régen minden jobb volt? A VMware licencelési változásai

Az IT-projektmenedzsment új varázsszava: proof of concept

CIO Hungary 2025 konferencia