Bevezetés
Vitán felül áll, hogy a kutatói munka egy rendkívül erőforrás-igényes tevékenység. A témaválasztás, a problémafelvetés, a módszertan-kiválasztás, a szakirodalom-keresés és -feldolgozás, az adatgyűjtés és -elemzés, az eredmények publikálása, valamint az adminisztratív terhek összessége mind-mind alapos tervezést és számtalan munkaórát igénylő feladatot jelentenek a kutatók számára.
A kutatóknak mindeközben meg kell felelniük szakmai és etikai normáknak, pályázatkiírói elvárásoknak, valamint a jelenleg uralkodó tudománykommunikációs trendeknek is, hogy a láthatóság és az impakt maximalizálására való törekvéseket ne is említsük.
Nyilvánvalóan szükség van tehát olyan eszközökre, infrastruktúrákra, melyek a kutatókra nehezedő elvárásokból fakadó „presszió-cunamit” csökkenteni tudják.
Mi fán terem az OpenAlex?
Az OpenAlex egy olyan nyílt forráskódú platform, mely tudományos kutatások adatait gyűjti össze és teszi elérhetővé, tehát a bevezetőben felsorolt tevékenységek közül számos esetben tud támaszunk lenni. A platform célja az, hogy a tudományos kutatások átláthatóbbak és hozzáférhetőbbek legyenek a kutatók, a finanszírozók és a nagyközönség számára is. Ennélfogva az OpenAlex tökéletesen illeszkedik az Open Science mozgalom keretei közé, annak célrendszerével teljesen kompatibilis: az adatai felhasználhatók a tudományos kutatások nyomon követésére, a kutatási trendek azonosítására és a kutatási eredmények mérésére.
Az OpenAlex története
2022 januárjában indult útjára a platform, a Microsoft Academic Graph (MAG) utódjaként, annak 209 millió tudományos publikációt és 213 millió szerzőt tartalmazó adatbázisát örökölte, nevét pedig híres alexandriai könyvtártól kölcsönözte. Kezdetben REST API-n keresztül volt megszólítható az adatbázis, de ennek ellenére is, egy év elteltével, már 1 millió regisztrált felhasználóval rendelkezett. A webes interfész nemrégiben készült el és közvetlenül az API-ra épül, így ez a leggyorsabb és legegyszerűbb módja az OpenAlex használatának. Az adatbázis adatai CC0 licenc alatt állnak, így szabadon felhasználhatók és terjeszthetők. A rendelkezésre álló adatok mennyiségéről pedig árulkodjék az alábbi friss statisztika:

Az adatok forrása
Az OpenAlex rengeteg adathoz biztosít tehát ingyenes hozzáférést. De honnan is származik ez a sok információ? Megbízhatónak tekinthetők-e ezek a források? Az OpenAlex több projekt adatait gyűjti össze és szabványosítja, ezek közül a két legfontosabb adatforrás a MAG és a Crossref. További kulcsfontosságú forrásként említhetőek a következők:
- ORCID,
- ROR (Research Organization Registry),
- DOAJ (Directory of Open Access Journals),
- Unpaywall,
- PubMed és PubMed Central,
- The ISSN International Centre,
- Internet Archive,
- Web crawling (adatgyűjtő botok),
- Tudományterületi és intézményi repozitóriumok (az arXivtól a Zenodoig…).
Jelen pillanatban (2024. december) 260.810 darab adatforrást indexel az adatbázis.

Az adatok hitelessége
A felsorolt forrásokról általában kijelenthető, hogy ellenőrzött és megbízható forrásként számontartott adatbázisok. Kivételt talán a webcrawlerek által gyűjtött adatok jelentenek, hiszen az így szerzett adatok hitelesítése és ellenőrzése nehézkesebb, mint ismert adatbázisból származó társaiké. Az OpenAlex manuálisan és automatikusan is ellenőrzi az adatok minőségét, eltávolítja az adatbázisból a hibás vagy hiányos adatokat, illetve folyamatosan bővíti az adatállományát új forrásokból származó adatokkal.
Nyitott a versenyre is?
Az adatbázis adatállománya „fiatalnak” tekinthető, ezért azt nem könnyű összehasonlítani más szolgáltatók adatbázisaival. Az OpenAlex nyers számok tekintetében nem marad el az előfizetésért igénybe vehető versenytársaitól, önbevallása alapján a fontosabb piaci szereplőkéhez hasonló lefedettséggel rendelkezik. Nagy előnye, hogy számos adatforrást integrálva állítja elő saját adatbázisát, feltérképezi a szürke irodalmat és preprint anyagokat is. Mindezek mellett kínál elemzési funkciókat, melyek segítségével trendeket tárhatunk fel, összehasonlíthatunk kutatókat és intézményeket és akár finanszírozási forrásokat is.

A rögzítésre került hivatkozások mennyiségét és minőségét tekintve sincs szégyenkezni valója az adatbázisnak. Természetesen előfordulhatnak átfedések a „rivális adatbázisok” által indexált hivatkozási adatok és az OpenAlex által rögzített adatok között, továbbá az is lehetséges, hogy egyes szolgáltatások (elsősorban Google Scholar) bővebb idézettségi listát tárnak fel egy-egy publikáció kapcsán. Az OpenAlex által jelzett hivatkozási számadatokban viszont megbízhatunk annyira, mint a WoS vagy a Scopus által biztosított számadatokban!

* Az OpenCitations honlapjáról származó adat, időpont megjelölés nélkül
Mi tehát a legnagyobb versenyelőnye az OpenAlex-nek?
Az ingyenes hozzáférhetőség és a források nyelvi diverzitása. A Scopus esetében 20% a nem angol nyelvű indexált tartalmak aránya 2023-ban, az OpenAlex esetében ez az arány nagyjából 30% körül mozgott. 2024 decemberében az OpenAlexben angol nyelvű dokumentumok száma ~187.500.000, a teljes adatkészlet pedig ~261.900.000 rekordból áll.
Az adatbázis felülete
Az adatbázis weboldalán (https://openalex.org) egy kifejezetten minimalista, de elegáns GUI-val találkozhatunk.

Az elénk táruló keresőmezőbe belekattintva számos entitásra kereshetünk rá:
- Works (tudományos cikkek, könyvek, adatkészletek, disszertációk…)
- Authors (a „Work”-ök szerzői)
- Sources (a „Work”-öket magukba foglaló folyóiratok és repozitóriumok)
- Institutions (olyan szervezetek, melyekhez az „Author”-ok affiliálják magukat)
- Topics (az egyes „Work”-ökhöz rendelt témakörök)
- Publishers (a „Work”-öket megjelentető kiadók és egyéb szervezetek)
- Funders (a kutatásokat finanszírozó szervezetek)
- GEO (az OpenAlexben tárolt adatok egyik fontos szűrési opcióját jelenti a földrajzi/regionális csoportosítás lehetősége)
- Concepts (korábban a „Topics” helyett alkalmazott, tovább már nem karbantartott fogalmak összessége)
A keresőkérdés begépelése során természetesen automatikusan kapunk javaslatokat az imént felsorolt kategóriák mentén:

A keresés lefuttatását követően van lehetőségünk a kapott eredmények és kimutatások megtekintésére és rendezésére. A keresőkérdésünket itt tudjuk módosítani és szűrni: 44 féle szűrő közül válogathatunk, a „Stats” szekcióban pedig több mint 30 feltétel mentén tudunk statisztikákat kérni, illetve a megjelenő kimutatásokat az egyes szeletelő mezők értékeire kattintva tovább tudjuk szűrni.

A találati halmazt txt (WoS), ris (EndNote) és csv (táblázatba importálható) formátumban tudjuk lementeni, a statisztikai szekcióban lévő adatokat szintén csv formátumban tudjuk saját eszközünkre menteni, és később egyedi diagramokat hozhatunk létre belőlük.
Lehetőségünk van hivatkozottsági adatok megtekintésére is:

Illetve ezeket az adatokat részletesebben is meg tudjuk vizsgálni:

Végül pedig természetesen módunkban áll részletes listát kérni az adott publikációt idéző közleményekről. Ezen listát pedig továbbra is kedvünk szerint szűrhetjük.

A legtöbb esetben elmondható, hogy a szolgáltatás webes interfésze elegendő információt tud szolgáltatni a felhasználók számára. Az OpenAlex a webes felhasználói felület és az API hívás mellett lehetőséget biztosít arra is, hogy pillanatképeket töltsünk le az adatbázis teljes állományáról JSON Lines formátumban. Ezek a pillanatfelvételek általában havonta frissülnek.

Tényleg ingyenes?
Az OpenAlexet az OurResearch nevű nonprofit szervezet készítette és gondozza, olyan évtizedes tapasztalattal a hátuk mögött, mely ingyenesen elérhető eszközök fenntartható módon történő szolgáltatásából fakad (lásd Unpaywall). A cél (ingyenesség, fenntarthatóság) eléréséhez a Freemium üzleti modellt alkalmazzák.
Ezen a ponton természetesen hajlamosak lehetünk szemöldökünket borzolni, hiszen a szoftverpiacon (számítógépes, telefonos alkalmazások, játékok, webszolgáltatások stb.) és a streaming piacon jó ideje jelen lévő modell kapcsán legtöbbünknek biztosan van már negatív tapasztalata vagy frusztrációja. Ettől függetlenül kijelenthető, hogy a szolgáltatás API-ja, website-ja és a közzétett adatok ingyenesen elérhetőek bárki számára, jelentős versenyhátrányt nem szenved el az a fél, aki továbbra is ingyenesen szeretné használni az adatbázis nyújtotta lehetőségeket.
A fenntarthatósághoz viszont jelen pillanatban elengedhetetlen, hogy (jelenleg) két darab értéknövelt szolgáltatást is kínáljon az OurResearch:
- Fizetős konzultációs szolgáltatások:
- Affiliációs és szerzői kurátori szolgáltatások
- Egyedi kutatási osztályozási szolgáltatások
- Egyértelműsítő szolgáltatások (szerzői nevek összefésülése)
- Egyedi bibliometriai elemzések és kimutatások
- A szolgáltatásra vonatkozó paraméterek limitálása: gyakoribb frissítések, magasabb API lekérdezés szám/nap, felhasználók támogatása és képzése, tréningek tartása.
(2024. december) | Ingyenes | Prémium | Intézményi |
Adatok frissítésének gyakoriság | Havonta, nagyobb kötegben frissülő állomány | Óránként | Óránként |
API limit | 100.000 db/nap, maximum 10 db/másodperc | Igény szerint | Igény szerint |
Támogatás | Kapacitás szerint (a fizető ügyfelek elsőbbséget élveznek) | Prioritást élvez (5 felhasználóig) | Prioritást élvez (minden felhasználó) |
Egyéb extra szolgáltatások | – | – | Képzések, tanácsadói szolgáltatások, javaslatok |
Csatlakozzunk!?
Az OpenAlex adatait számos szoftverben egyszerűen elő tudjuk hívni és fel tudjuk használni. Több könyvtár is rendelkezésre áll a Python programozási nyelvhez (OpenAlex, PyAlex, Scholarly), melyek segítségével adatokat hívhatunk le API-ból és elemezhetjük azokat. Statisztikai elemzések és vizualizációk készítéséhez kiváló segítséget nyújtanak az R programnyelvvel kompatibilis openalexR és bibliometrix csomagok. Interaktív webes alkalmazások és vizualizációk készítéséhez nyújt segítséget az openalex-js javascript könyvtár. A VOSviewerrel pedig viszonylag könnyen végezhetjük el a tudományos tájkép klaszterelemzését OpenAlex API-n keresztül meghívott adatok alapján. Mindezek mellett számos olyan alkalmazást is bevethetünk munkánk során, melyek megelégszenek az adatbázis export formátumainak egyikében elmentett adatkészletekkel (táblázatkezelők, üzleti intelligencia platformok, adatelemző AI tool-ok).

Sikertörténet – Vive la France
A Sorbonne Egyetem nyílt tudományhoz való elkötelezettsége új mérföldkőhöz ér: talán az egyik legjelentősebb momentum az OpenAlex életében, hogy a Sorbonne Egyetem 2024-ben megszünteti a Web of Science publikációs adatbázisra és a Clarivate bibliometriai eszközökre való előfizetését. Az egyetem évek óta elkötelezett a nyílt tudomány előmozdítása mellett, ezért partnerségi megállapodást ír alá az OpenAlex-el, ezzel a publikációs adatbázisát, valamint a bibliometriai elemzéseit is nyílt forráskódú alapokra helyezi. Mi több, a francia Felsőoktatási és Kutatási Minisztérium elkötelezte magát az OpenAlex-szel való szoros együttműködés mellett: törekedni fognak az OpenAlex általános adatainak javítására, de különösen a francia kutatással kapcsolatos adatok gazdagítására.
Zárszó
Ha szeretne többet megtudni az OpenAlex-ről, látogassa meg a https://openalex.org weboldalt és tegye próbára a szolgáltatás képességeit, vagy olvasson bele a projekt dokumentációjába, csatlakozzon a levelezőlistára, kövesse az OpenAlex X profilját!
_______________________________
Források:
- https://api.openalex.org
- https://api.openalex.org/authors
- https://api.openalex.org/works
- OpenAlex technical documentation/Sources
- OpenAlex technical documentation/FAQ
- CC0 1.0 Universal
- Scopus Content Coverage Guide
- Resources for Librarians and Administrators
- OpenAlex Current Stats
- Reference Coverage Analysis of OpenAlex compared to Web of Science and Scopus
- OurResearch blog
- Ouvrir la science
- OpenCitations
- OpenAlex
- Citation Databases/Scopus