A General Indexben 107 millió tudományos szakcikkből 355 milliárd szó, kifejezés, mondatrészlet alapján kereshető az adatbázis. A kiadók még szétcincálhatják.

Elindult az adatok szabad elérését hirdető Carl Malamud (a fenti fotón) újabb nagy dobása: a világ legnagyobb ingyenesen használható online tudományos katalógusa. A General Indexet az a Malamud által alapított Public.Resource nonprofit szervezet jegyzi, melynek egyik legnagyobb projektje az Egyesült Államok jogi forrásainak közzététele. Magának az indexnek az Internet Archive ad helyet.

107 millió cikk, 355 milliárd elem

Az adatkészlet, amely az indexált cikkszövegekből több mint 355 milliárd szót és mondatrészletet, valamint a cikkek azonosításához szükséges adattáblákat is tartalmaz, október 7-étől érhető el. Malamud a tudósvilág egy sor jelesének támogatását nyerte meg projektjéhez élükön Vinton G. Cerffel.

Mint a Nature-ön olvasható, a kezdeményezésnek azért óriási a jelentősége a tudományos világban, mert a kutatók akkor is képet alkothatnak egy adott tudományos publikációról, ha annak forráshoz nincs hozzáférésük (pl. nincs előfizetésük az adott folyóiratra, archívumra stb.).

Malamud kezdeményezésének gyakorlati jelentőségét egy a Cambridge-i Egyetemen dolgozó számítógépes biológus világította meg. Gitanjali Yadav arról beszélt, hogy számára óriási segítség, hogy feltérképezze, hol mi jelent meg abban a témában, amivel ő foglalkozik. (Yadav a növények által kibocsátott illékony szerves vegyületekkel foglalkozik, és mint mondta, a kutatásaihoz szükséges információk jelentős része megvan különböző publikációkban, Malamud indexével pedig most ezeket be is tudja gyűjteni.)

Részlegesen "Csináld magad" projekt

Joggal merülhet fel a kérdés: mennyiben más a General Index, mint a Google Scholar, amely a kiadók beleegyezésével indexeli a fizetős szakirodalmi szövegeket. Malamudnak erre az a válasza, hogy ott a felhasználóknak csak bizonyos típusú szöveges lekérdezésekre van lehetőségük, az automatizált keresést is korlátozza a szolgáltatás. Ezek miatt nem alkalmas speciálisabb kereséseket igénylő számítógépes elemzések elvégzésére.

Maga a General Index egy olyan projektből nőtt ki, ami úgy tette volna lehetővé a szövegbányászatot tudományos publikációkban, hogy közben magához a szöveghez nem fértek volna hozzá a tudósok. A hónap elején elindított szolgáltatás ennél még egyszerűbb: nincs például saját webes keresőoldala. Ha valaki használni szeretné, a letöltött adatokhoz saját elemző/kereső programot kell készítenie. Ugyanakkor Malamud azt reméli, hogy az indexet használók nyílt forráskódú keresőprogramokat készítenek, melyeket megosztanak a tudományos közösséggel.

Ez a részleges "csináld magad" megoldás nem olyan egyszerű, tekintve, hogy az index tömörítve is közel 5 terabájt, kibontva pedig 38 terabájt lesz a tárhelyigénye. A készlet részei azok az adattáblák, melyek a feldolgozott cikkekben található közel 20 milliárd kulcsszót, valamint a cikkek címét, szerzőit és cikkazonosító DOI-számát (Digital Object Identifier) tartalmazzák.

Egy fontos kérdés: jogszerű?

Malamud szerint a General Index nem sérti a szerzői jogokat, ugyanis legfeljebb öt szó hosszúságú mondatfoszlányokat tartalmaz a cikkekből. Ugyanakkor persze egyáltalán nincs garancia arra, hogy a kiadóknak is tetszik majd ez a forma, azaz meg is támadhatják ezt a gyakorlatot, mondta egy jogi szakértő a Nature-nek.

A Washington Egyetemen dolgozó jogász kutató, Michael Carroll például nem látja akadályát a General Index globális terjesztésének, bár arra is figyelmeztet, hogy a szerzői jog szabályozása országonként eltérő lehet. Carroll szerint az viszont kérdés, hogy az index alapjául szolgáló cikkek lemásolásával és feldolgozásával nem sértette-e Malamud a kiadók feltételeit. (Azt egyébként Malamud is elismerte, hogy az index létrehozásához meg kellett szereznie a feldolgozott 107 millió cikk másolatát. Azt azonban nem árulta el, hogyan jutott azokhoz.)

A Nature hat kiadótól kért véleményt: de csupán saját kiadója, a Springer Nature volt hajlandó kommentálni a General Indexet. Ők is csak annyit mondtak, hogy támogatják a nyílt kutatási kezdeményezéseket, ám fontos a jogszerűség.

Cloud & big data

Hasznos trükköt tanult a Gemini

A Google generatív MI-asszisztense mostantól a felhasználói kívánalmak alapján egy sor népszerű fájlformátumban is képes prezentálni válaszát már magában a beszélgetési ablakban.
 

CIO kutatás

Merre tart a vállalati IT és annak irányítója?

Hiánypótló nagykép a hazai nagyvállalati informatikáról és az IT-vezetőkről: skillek, felelősségek, feladatkörök a múltban, a jelenben és a jövőben.

Töltse ki Ön is, hogy tisztábban lássa, hogyan építse vállalata IT-ját és saját karrierjét!

Az eredményeket május 8-án ismertetjük a 17. CIO Hungary konferencián.

LÁSSUNK NEKI!

Egy kormányrendelet alapjaiban formálják át 2026-tól az állami intézmények és vállalatok szoftvergazdálkodási gyakorlatát.

Projektek O-gyűrűje. Mit tanulhat egy projektvezető a Challenger tragédiájából?

A Corvinus Egyetem és a Complexity Science Hub kutatói megmérték: a Python kódok közel harmadát ma már mesterséges intelligencia írja, és ebből a szenior fejlesztők profitálnak.

Rengeteg ország áll át helyi MI-platformra

Ön sem informatikus, de munkája során az információtechnológia is gyakran befolyásolja döntéseit? Ön is informatikus, de pénzügyi és gazdasági szempontból kell igazolnia a projektek hasznosságát? Mi közérthető módon, üzleti szemmel dolgozzuk fel az infokommunikációs híreket, trendeket, megoldásokat. A Bitport tizennegyedik éve közvetít sikeresen az informatikai piac és a technológiát hasznosító döntéshozók között.
© 2010-2026 Bitport.hu Média Kft. Minden jog fenntartva.