A nyílt tudomány nyitott kapui: ismerd meg az OpenAlexet

Olvasási idő: 6 perc

Bevezetés

Vitán felül áll, hogy a kutatói munka egy rendkívül erőforrás-igényes tevékenység. A témaválasztás, a problémafelvetés, a módszertan-kiválasztás, a szakirodalom-keresés és -feldolgozás, az adatgyűjtés és -elemzés, az eredmények publikálása, valamint az adminisztratív terhek összessége mind-mind alapos tervezést és számtalan munkaórát igénylő feladatot jelentenek a kutatók számára.
A kutatóknak mindeközben meg kell felelniük szakmai és etikai normáknak, pályázatkiírói elvárásoknak, valamint a jelenleg uralkodó tudománykommunikációs trendeknek is, hogy a láthatóság és az impakt maximalizálására való törekvéseket ne is említsük.
Nyilvánvalóan szükség van tehát olyan eszközökre, infrastruktúrákra, melyek a kutatókra nehezedő elvárásokból fakadó „presszió-cunamit” csökkenteni tudják.

Mi fán terem az OpenAlex?

Az OpenAlex egy olyan nyílt forráskódú platform, mely tudományos kutatások adatait gyűjti össze és teszi elérhetővé, tehát a bevezetőben felsorolt tevékenységek közül számos esetben tud támaszunk lenni. A platform célja az, hogy a tudományos kutatások átláthatóbbak és hozzáférhetőbbek legyenek a kutatók, a finanszírozók és a nagyközönség számára is. Ennélfogva az OpenAlex tökéletesen illeszkedik az Open Science mozgalom keretei közé, annak célrendszerével teljesen kompatibilis: az adatai felhasználhatók a tudományos kutatások nyomon követésére, a kutatási trendek azonosítására és a kutatási eredmények mérésére.

Az OpenAlex története

2022 januárjában indult útjára a platform, a Microsoft Academic Graph (MAG) utódjaként, annak 209 millió tudományos publikációt és 213 millió szerzőt tartalmazó adatbázisát örökölte, nevét pedig híres alexandriai könyvtártól kölcsönözte. Kezdetben REST API-n keresztül volt megszólítható az adatbázis, de ennek ellenére is, egy év elteltével, már 1 millió regisztrált felhasználóval rendelkezett. A webes interfész nemrégiben készült el és közvetlenül az API-ra épül, így ez a leggyorsabb és legegyszerűbb módja az OpenAlex használatának. Az adatbázis adatai CC0 licenc alatt állnak, így szabadon felhasználhatók és terjeszthetők. A rendelkezésre álló adatok mennyiségéről pedig árulkodjék az alábbi friss statisztika:

1. ábra – OpenAlex statisztikai adatok 2024 decemberében. Forrás: https://openalex.org/stats

Az adatok forrása

Az OpenAlex rengeteg adathoz biztosít tehát ingyenes hozzáférést. De honnan is származik ez a sok információ? Megbízhatónak tekinthetők-e ezek a források? Az OpenAlex több projekt adatait gyűjti össze és szabványosítja, ezek közül a két legfontosabb adatforrás a MAG és a Crossref. További kulcsfontosságú forrásként említhetőek a következők:

  • ORCID,
  • ROR (Research Organization Registry),
  • DOAJ (Directory of Open Access Journals),
  • Unpaywall,
  • PubMed és PubMed Central,
  • The ISSN International Centre,
  • Internet Archive,
  • Web crawling (adatgyűjtő botok),
  • Tudományterületi és intézményi repozitóriumok (az arXivtól a Zenodoig…).

Jelen pillanatban (2024. december) 260.810 darab adatforrást indexel az adatbázis.

2. ábra – Az adatok begyűjtésének és közzétételének útja az OpenAlexben. Forrás: https://help.openalex.org/hc/en-us/articles/24397285563671-About-the-data

Az adatok hitelessége

A felsorolt forrásokról általában kijelenthető, hogy ellenőrzött és megbízható forrásként számontartott adatbázisok. Kivételt talán a webcrawlerek által gyűjtött adatok jelentenek, hiszen az így szerzett adatok hitelesítése és ellenőrzése nehézkesebb, mint ismert adatbázisból származó társaiké. Az OpenAlex manuálisan és automatikusan is ellenőrzi az adatok minőségét, eltávolítja az adatbázisból a hibás vagy hiányos adatokat, illetve folyamatosan bővíti az adatállományát új forrásokból származó adatokkal.

Nyitott a versenyre is?

Az adatbázis adatállománya „fiatalnak” tekinthető, ezért azt nem könnyű összehasonlítani más szolgáltatók adatbázisaival. Az OpenAlex nyers számok tekintetében nem marad el az előfizetésért igénybe vehető versenytársaitól, önbevallása alapján a fontosabb piaci szereplőkéhez hasonló lefedettséggel rendelkezik. Nagy előnye, hogy számos adatforrást integrálva állítja elő saját adatbázisát, feltérképezi a szürke irodalmat és preprint anyagokat is. Mindezek mellett kínál elemzési funkciókat, melyek segítségével trendeket tárhatunk fel, összehasonlíthatunk kutatókat és intézményeket és akár finanszírozási forrásokat is.

3. ábra – Az indexelt dokumentumok száma (millió darab) adatbázisonként. Az adatok lekérdezésének ideje: WoS 2024. augusztus; Scopus: 2024. december; Dimensions: 2024. december; OpenAlex: 2024. december.

A rögzítésre került hivatkozások mennyiségét és minőségét tekintve sincs szégyenkezni valója az adatbázisnak. Természetesen előfordulhatnak átfedések a „rivális adatbázisok” által indexált hivatkozási adatok és az OpenAlex által rögzített adatok között, továbbá az is lehetséges, hogy egyes szolgáltatások (elsősorban Google Scholar) bővebb idézettségi listát tárnak fel egy-egy publikáció kapcsán. Az OpenAlex által jelzett hivatkozási számadatokban viszont megbízhatunk annyira, mint a WoS vagy a Scopus által biztosított számadatokban!

4. ábra – Az egyes adatbázisokban indexelt dokumentumokra érkezett hivatkozások összesített számadatai. Az adatok lekérdezésének ideje: OpenCitations:*; Dimensions: 2024. december; WoS: 2024. augusztus; Scopus: 2024. július; OpenAlex: 2024. december.
* Az OpenCitations honlapjáról származó adat, időpont megjelölés nélkül

Mi tehát a legnagyobb versenyelőnye az OpenAlex-nek?

Az ingyenes hozzáférhetőség és a források nyelvi diverzitása. A Scopus esetében 20% a nem angol nyelvű indexált tartalmak aránya 2023-ban, az OpenAlex esetében ez az arány nagyjából 30% körül mozgott. 2024 decemberében az OpenAlexben angol nyelvű dokumentumok száma ~187.500.000, a teljes adatkészlet pedig ~261.900.000 rekordból áll.

Az adatbázis felülete

Az adatbázis weboldalán (https://openalex.org) egy kifejezetten minimalista, de elegáns GUI-val találkozhatunk.

5. ábra – Az OpenAlex kereső felülete

Az elénk táruló keresőmezőbe belekattintva számos entitásra kereshetünk rá:

  • Works (tudományos cikkek, könyvek, adatkészletek, disszertációk…)
  • Authors (a „Work”-ök szerzői)
  • Sources (a „Work”-öket magukba foglaló folyóiratok és repozitóriumok)
  • Institutions (olyan szervezetek, melyekhez az „Author”-ok affiliálják magukat)
  • Topics (az egyes „Work”-ökhöz rendelt témakörök)
  • Publishers (a „Work”-öket megjelentető kiadók és egyéb szervezetek)
  • Funders (a kutatásokat finanszírozó szervezetek)
  • GEO (az OpenAlexben tárolt adatok egyik fontos szűrési opcióját jelenti a földrajzi/regionális csoportosítás lehetősége)
  • Concepts (korábban a „Topics” helyett alkalmazott, tovább már nem karbantartott fogalmak összessége)

A keresőkérdés begépelése során természetesen automatikusan kapunk javaslatokat az imént felsorolt kategóriák mentén:

6. ábra – A keresőmező és javaslatok: a keresés alapértelmezetten több entitáshalmazban is keres

A keresés lefuttatását követően van lehetőségünk a kapott eredmények és kimutatások megtekintésére és rendezésére. A keresőkérdésünket itt tudjuk módosítani és szűrni: 44 féle szűrő közül válogathatunk, a „Stats” szekcióban pedig több mint 30 feltétel mentén tudunk statisztikákat kérni, illetve a megjelenő kimutatásokat az egyes szeletelő mezők értékeire kattintva tovább tudjuk szűrni.

7. ábra – Találati lista a statisztikákkal és további keresőkifejezés hozzáadásának lehetőségével

A találati halmazt txt (WoS), ris (EndNote) és csv (táblázatba importálható) formátumban tudjuk lementeni, a statisztikai szekcióban lévő adatokat szintén csv formátumban tudjuk saját eszközünkre menteni, és később egyedi diagramokat hozhatunk létre belőlük.

Lehetőségünk van hivatkozottsági adatok megtekintésére is:

8. ábra – Egy szerző publikációs listája, cited by count értékek szerint csökkenő sorrendezésben

Illetve ezeket az adatokat részletesebben is meg tudjuk vizsgálni:

9. ábra – Egy publikáció részletes adatai

Végül pedig természetesen módunkban áll részletes listát kérni az adott publikációt idéző közleményekről. Ezen listát pedig továbbra is kedvünk szerint szűrhetjük.

10. ábra – Egy kiválasztott publikációt idéző közlemények listája

A legtöbb esetben elmondható, hogy a szolgáltatás webes interfésze elegendő információt tud szolgáltatni a felhasználók számára. Az OpenAlex a webes felhasználói felület és az API hívás mellett lehetőséget biztosít arra is, hogy pillanatképeket töltsünk le az adatbázis teljes állományáról JSON Lines formátumban. Ezek a pillanatfelvételek általában havonta frissülnek.

11. ábra – Az egyes adatbázisokban indexelt, a PTE-hez affiliált publikációk száma, valamint a szóban forgó publikációkra érkező hivatkozások összesített száma 2024 decemberében. Források: InCites (WoS), Scopus, OpenAlex

Tényleg ingyenes?

Az OpenAlexet az OurResearch nevű nonprofit szervezet készítette és gondozza, olyan évtizedes tapasztalattal a hátuk mögött, mely ingyenesen elérhető eszközök fenntartható módon történő szolgáltatásából fakad (lásd Unpaywall). A cél (ingyenesség, fenntarthatóság) eléréséhez a Freemium üzleti modellt alkalmazzák.

Ezen a ponton természetesen hajlamosak lehetünk szemöldökünket borzolni, hiszen a szoftverpiacon (számítógépes, telefonos alkalmazások, játékok, webszolgáltatások stb.) és a streaming piacon jó ideje jelen lévő modell kapcsán legtöbbünknek biztosan van már negatív tapasztalata vagy frusztrációja. Ettől függetlenül kijelenthető, hogy a szolgáltatás API-ja, website-ja és a közzétett adatok ingyenesen elérhetőek bárki számára, jelentős versenyhátrányt nem szenved el az a fél, aki továbbra is ingyenesen szeretné használni az adatbázis nyújtotta lehetőségeket.

A fenntarthatósághoz viszont jelen pillanatban elengedhetetlen, hogy (jelenleg) két darab értéknövelt szolgáltatást is kínáljon az OurResearch:

  1. Fizetős konzultációs szolgáltatások:
    • Affiliációs és szerzői kurátori szolgáltatások
    • Egyedi kutatási osztályozási szolgáltatások
    • Egyértelműsítő szolgáltatások (szerzői nevek összefésülése)
    • Egyedi bibliometriai elemzések és kimutatások
  2. A szolgáltatásra vonatkozó paraméterek limitálása: gyakoribb frissítések, magasabb API lekérdezés szám/nap, felhasználók támogatása és képzése, tréningek tartása.
(2024. december) Ingyenes Prémium Intézményi
Adatok frissítésének gyakoriság Havonta, nagyobb kötegben frissülő állomány Óránként Óránként
API limit 100.000 db/nap, maximum 10 db/másodperc Igény szerint Igény szerint
Támogatás Kapacitás szerint (a fizető ügyfelek elsőbbséget élveznek) Prioritást élvez (5 felhasználóig) Prioritást élvez (minden felhasználó)
Egyéb extra szolgáltatások Képzések, tanácsadói szolgáltatások, javaslatok

Csatlakozzunk!?

Az OpenAlex adatait számos szoftverben egyszerűen elő tudjuk hívni és fel tudjuk használni. Több könyvtár is rendelkezésre áll a Python programozási nyelvhez (OpenAlex, PyAlex, Scholarly), melyek segítségével adatokat hívhatunk le API-ból és elemezhetjük azokat. Statisztikai elemzések és vizualizációk készítéséhez kiváló segítséget nyújtanak az R programnyelvvel kompatibilis openalexR és bibliometrix csomagok. Interaktív webes alkalmazások és vizualizációk készítéséhez nyújt segítséget az openalex-js javascript könyvtár. A VOSviewerrel pedig viszonylag könnyen végezhetjük el a tudományos tájkép klaszterelemzését OpenAlex API-n keresztül meghívott adatok alapján. Mindezek mellett számos olyan alkalmazást is bevethetünk munkánk során, melyek megelégszenek az adatbázis export formátumainak egyikében elmentett adatkészletekkel (táblázatkezelők, üzleti intelligencia platformok, adatelemző AI tool-ok).

12. ábra – OpenAlex adatok elemzése RStudioban, Bibliometrix és biblioshiny segítségével (Institute= University of Pécs + publication year= 2020-2024)

Sikertörténet – Vive la France

A Sorbonne Egyetem nyílt tudományhoz való elkötelezettsége új mérföldkőhöz ér: talán az egyik legjelentősebb momentum az OpenAlex életében, hogy a Sorbonne Egyetem 2024-ben megszünteti a Web of Science publikációs adatbázisra és a Clarivate bibliometriai eszközökre való előfizetését. Az egyetem évek óta elkötelezett a nyílt tudomány előmozdítása mellett, ezért partnerségi megállapodást ír alá az OpenAlex-el, ezzel a publikációs adatbázisát, valamint a bibliometriai elemzéseit is nyílt forráskódú alapokra helyezi. Mi több, a francia Felsőoktatási és Kutatási Minisztérium elkötelezte magát az OpenAlex-szel való szoros együttműködés mellett: törekedni fognak az OpenAlex általános adatainak javítására, de különösen a francia kutatással kapcsolatos adatok gazdagítására.

Zárszó

Ha szeretne többet megtudni az OpenAlex-ről, látogassa meg a https://openalex.org weboldalt és tegye próbára a szolgáltatás képességeit, vagy olvasson bele a projekt dokumentációjába, csatlakozzon a levelezőlistára, kövesse az OpenAlex X profilját!

 

_______________________________

Források:

Hozzászólások letiltva.

PTE Egyetemi Könyvtár és Tudásközpont | 2023

Fel ↑