Neumann Jánost előszeretettel és teljes joggal emlegetjük a modern számítástechnika atyjaként. Ez azonban nem jelenti azt, hogy más országok tudósai ne járultak volna hozzá igen komolyan ahhoz, hogy az informatika ma ott tartson, ahol. Az egyik ilyen múlt századi koponya Claude Shannon, aki az 1940-es évek legvégén publikálta korszakalkotó tanulmányát. A kommunikáció matematikai elmélete című anyagban foglaltak tették lehetővé, hogy az információ fogalmából egy mérhető fizikai mennyiség legyen.
Kiszámított entrópia
Az amerikai híradástechnikai mérnök és matematikus kiszámíthatóvá tette, hogy pontosan mi az a legkisebb adattömeg, amellyel egy üzenet sérülésmentesen eljuttatható két fél között. Ez a bitekben (praktikusan eldöntendő kérdésekben) mérhető mennyiség pedig nagyban függ az adott üzenethez köthető bizonytalanságtól.
Tegyük fel, egy olyan trükkös érmét dobunk fel kétszer, amelynek mindkét oldalán fej van. Az eredmény közléséhez pontosan 0 bitre van szükségünk, amennyiben a fogadó fél is tiszában van azzal, hogy nem tisztán játszunk, hiszen csak fej-fej lehet az eredmény. Egy rendes pénzérme esetében azonban már négyféle kimenetele lehet a feldobásoknak, amit két bitnek megfelelő adattal tudunk kommunikálni (00, 01, 10 vagy 11).
Általánosságban elmondható, hogy minél kevesebbet tudunk arról, hogy mit fog mondani az üzenet, annál több információra van szükség a továbbításához. Shannon megalkotta a képletet is, amely kiszámítja az üzenet közléséhez szükséges minimális bitszámot. Ezt a küszöbértéket nevezte el a tudomány később Shannon-entrópiának. Az amerikai matematikus azt is bebizonyította, hogy ha a küldő a minimálisnál kevesebb bitet használ, az üzenet elkerülhetetlenül torzulni fog.
Az entrópia a fizikában a rendezetlenség fokmérője, amit Shannon az üzenetek véletlenszerűségének mérésére használt fel. Egy szigorú mintát követő üzenetnek értelemszerűen alacsony az entrópiája. Egy teljesen kiszámíthatatlan közlésnek pedig magas.
Egy újabb példa: két meteorológiai állomás (legyen mondjuk Budapest és Dubai) szeretné egymással megosztani a jövő hétre vonatkozó előrejelzését egy szeptemberi időszakban. Dubai esetében sokkal biztosabb azt tippelni, hogy egész héten sütött a nap, miközben nálunk általában már változékonyabbra fordul az idő.
Hány igen-vagy-nem kérdésre lenne szükség az egyes hétnapos előrejelzések továbbításához? Dubai időjárásának "kitalálásához" elegendő lehet egyetlen kérdés is (Az előrejelzés mind a hét napja napos?). Ha a válasz igen (és erre jó esély van), akkor nincs több dolgunk, egy bitből átment az üzenet. Budapest esetében azonban valószínűleg az a legcélravezetőbb, ha napi bontásban érdeklődünk a napsütéssel kapcsolatban.
Ha az angol ábécé betűiből kell egy véletlenszerűen kiválasztott betűt közölni, ahhoz átlagosan 4,7 kérdésre van szükség. A jó stratégia itt a betűrend szerinti felezés, azaz azt kérdezni elsőre, hogy az ábécé első feléből való-e a betű. Egy írott szöveg esetében ugyanakkor ez a minimális kérdésszám lecsökken, mivel a nyelv meghatározott szabályok, általánosan felismerhető minták alapján épül fel, amit a fogadó fél felhasználhat a dekódolási folyamat rövidítésére. Shannon számításai alapján az angol nyelv entrópiája betűnként 2,62 bit (vagy 2,62 igen-nem kérdés), ami jóval kevesebb, mint az előbb említett 4,7 bit, amelyre akkor lenne szükség, ha minden betű véletlenszerűen jelenne meg.
Boldogan csomagolunk
A Shannon-entrópia öröksége számos manapság is alkalmazott környezetben fellelhető. Elég csak az információtömörítés technológiáját említeni. A lefektetett matematikai elmélet teszi lehetővé, hogy egy mozifilm termetes nyersanyagát kezelhető méretű állományba lehet csomagolni anélkül, hogy akár egyetlen információmorzsa is elveszne. A képet alkotó pixelek színei ugyanúgy statisztikai mintázattal rendelkeznek, mint ahogy a nyelvben használt szavak és azokat alkotó betűk. Ezt kihasználva valószínűségi modelleket lehet alkotni a képpontok színének egyik képkockáról a másikra történő változásával (vagy éppen változatlanságával) kapcsolatban. A mintákhoz súlyokat rendelve kiszámítható a veszteségmentes tömörítés határa. Amennyiben egy csomagolási eljárás ehhez közeli értéket ad, az azt jelenti, hogy a mérnökök jól dolgoztak, és már nem sok tere van az esetleges fejlődésnek.
A cikk a tudományos témákat feldolgozó Quanta Magazine anyaga alapján készült.
Nyílt forráskód: valóban ingyenes, de használatának szigorú szabályai vannak