Utoljára frissítve: 2023. 06. 23.
2017. október 13-án (pénteken) 10 órától került sor az Országos Széchényi Könyvtár (OSZK) 6. emeleti dísztermében a „404 Not Found – Ki őrzi meg az internetet?” című workshop-szerű szakmai napra. A rendezvény öt előadásának témája a webarchiválás volt. Szó esett a technikai feltételekről, a lehetőségekről és a webarchiválás külföldi gyakorlatáról, valamint a közgyűjteményi feladatokról a webes és egyéni internetes tartalmak archiválása kapcsán.
A szervező és levezető elnök, Drótos László köszöntője után, Lendvay Miklós, az OSZK informatikai igazgatója „A Web mint a kulturális gyűjtőkör része” című bevezető előadásában [.pptx] bemutatta, hogy mennyi fajta és különböző típusú adat található az internet világában. Külön kitért arra is, hogy ebben a sokszínű világban az OSZK-n belül mennyiféle adat keletkezik. Az előadó rámutatott arra, hogy a tudományos publikációk manapság az interneten fellelhető digitalizált, vagy eleve digitálisan keletkezett adatokból, információkból „táplálkoznak”. Lendvay Miklós kifejtette, hogy az internet ma már nem kimondottan a klasszikus értelemben vett tartalomszolgáltatásról szól, hanem inkább a social media-ról. Mivel a nagy létszámú, fiatal generáció főleg csak az „üzengetésre”, és „magamutogató” megosztásra használja az online alkalmazásokat, ezért a személyes adatok nagyon nagy veszélyben vannak, hiszen a social media „mindent tud rólunk”. Az előadó ismertette, hogy az USA és az Európi Unió a webbiztonsággal kapcsolatosan teljesen eltérő gyakorlatot alkalmaz. Az előadó érintőlegesen arra is kitért, hogy 2018 májusától nagy valószínűséggel megszigorodik hazánkban a törvényi szabályozás arra vonatkozóan, hogy a könyvtárakban hogyan tárolhatjuk majd az olvasók személyes adatait. Mivel a közintézményi szférában csak alapvető személyi adatok lesznek tárolhatóak, ráadásul csakis abban az esetben, ha azt önkéntesen szolgáltatja be a „célszemély”, ezért előreláthatóan nagyon megnehezedik majd a kapcsolattartás lehetősége is, és a könyvtárak működése is.
Lendvai Miklós: A Web mint a kulturális gyűjtőkör része
Lendvay Miklós kitért a szemantikus web szükségességére is, szorgalmazva azt, hogy a könyvtáraknak elsődleges szerepe lesz abban, hogy a szolgáltatott webes információk a lehető leghatékonyabban juthassanak el a felhasználókhoz, amihez az adatok sokrétű kapcsolata szükséges. Ehhez elengedhetetlen a közös tárgyszótárak használata. Az előadó elmondta, hogy jelenleg a világban 616 közös tárgyszótár létezik, amelyeket a magyar nyelv sajátosságai miatt csak nagyon nehezen lehetne változtatás nélkül átvenni, használni. Ráadásul a szótárak szakmai sokszínűsége miatt nagyon nehéz lenne a választás is. Az előadás végén az előadó elmondta, hogy az OSZK tervei szerint 2018-tól áttérnek az RDA-típusú katalogizálásra, valamint folyamatban van a jelenleg használatos integrált könyvtári katalógus-platform cseréje is. {1} Lendvay Miklós végül szót ejtett az Országos Könyvtári Platform{2} szükségességéről is, majd beszélt a „Webaratás pilot projekt”-ről{3}, ugyanis az OSZK 2017 áprilisától az OKR projekt keretében elkezdett kísérletezni a webarchiválás technológiájával, az internetes források hosszú távú megőrzésének érdekében. Kiderült, hogy a pilot projekt 2018 végéig tart, és az informatikai hátterét a KIFÜ biztosítja.
Kees Teszelszky: The harvest of the Dutch digital fields: the landscape of webarchiving in The Netherlands
A második előadás keretében Kees Teszelszky{4}, a Holland Nemzeti Könyvtár{5} webarchiválással foglalkozó magyar származású munkatársa a 2007 óta működő holland és az idén indult belga projektről adott áttekintést a „The harvest of the Dutch digital fields: the landscape of webarchiving in The Netherlands” című előadásban [.ppt].
Az előadó arról beszélt, hogy hogyan néz ki a webarchiválás Hollandiában, mi a könyvtár szerepe, és milyen hibák merültek fel a munka során. Elmondta, hogy az USA után, 1986-tól beszélhetünk a „holland digitális táj” kialakulásáról, amely a legrégibb a világon, a Cern és Stanford után pedig Hollandia büszkélkedhet a harmadik legrégibb honlappal (1992). {6} Az előadó elmondta, hogy 1995-ig 10 ezer holland honlapot regisztráltak az országban, majd 2007-től digitális listákban{7}, tematikusan kezdték gyűjteni a honlap címeket, de akkor még nem kezdődött el a tartalom archiválása. Jelenleg 13 ezer honlap teljes archiválása történt meg.
Az előadó elmondta, hogy a hollandok sok belgiumi domain-t használnak{8}, ugyanis Belgium északi részében több flamand nyelvű honlap található, amelyek a holland felhasználókat szolgálják ki. A Belgium déli részében regisztrált belga domain-ek száma csak töredéke az északon regisztrált domain-eknek. A szomszédos Luxemburg pedig főleg az .eu kiterjesztésű domain-eket preferálja. Kees elmondta, hogy Hollandia a holland és a fríz nyelv miatti tudathasadásos állapotban van, ezért is nagyon nehéz a webarchiválás, ráadásul Hollandiában nincsen kötelespéldány törvény, így a beszolgáltatás önkéntes alapon történik, ezért a jobb megfogalmazás az, hogy „nem történik”.
Mivel a Holland Nemzeti Könyvtár 1974 előtt csak a kutatókat kiszolgáló könyvtárként üzemelt, így sok európai országgal szemben hátrányban van. Jelenleg két ember foglalkozik a tudományos terület webarchiválásával{9}, ami évente 1000 honlappal gyarapodik. {10} A nemzeti kulturális gyűjtést a levéltárak végzik, de csak papíralapon. Míg Belgiumban különböző kutatócsoportok döntenek az archiválandó dolgokról, addig Hollandiában a Nemzeti Könyvtár hatásköre ez. A könyvtár csak a megszűnő honlapokat figyeli és a két specialista ezeket archiválja{11} időszakosan (főleg a tulajdonosok, szolgáltatók értesítései alapján). Az archivált webtartalmakat gyűjteményekbe szervezik. {12} A webarchiválás három területe felosztásra került az országban, külön folyik a (1) kép/hang/videó, a (2) holland politikai dokumentumok és a (3) holland régiók gyűjteményének szervezése. Mivel semmilyen átjárhatóság sincs a különböző gyűjtemények között, ezért nagyon nehéz a tájékozódás.
Jelenleg „webrégészet” folyik az országban, aminek keretében különböző listákat készítenek a szolgáltatóktól nyert adatok alapján arról, hogy mi van jelenleg és mi volt online valaha. A listákból csak alapadatokat tudnak kinyerni: „mikor volt aktív az oldal”, „hányan látogatták” stb. {13}
Az előadó rámutatott arra, hogy a holland webarchiválás legnagyobb problémája, hogy a szolgáltatók és a domain-regisztrátorok csak régi elérhetőségi adatokkal tudnak szolgálni, ezért a honlaptulajdonosokat szinte képtelenség felderíteni, elérni. Mivel a törvény nem engedi meg, hogy engedély nélkül archiváljanak tartalmakat, ezért csak az önkéntes web-adományok jöhetnek szóba. A tartalomszolgáltatók pedig nem érdekeltek abban, hogy átadják az élő, vagy megszűnt honlapjaik tartalmát, így csak címlistákkal tudnak dolgozni a könyvtárban.
Kees Teszelszky elmondta, hogy a gyakorlatban elsőként a honlap linkstruktúráját mentik le{14}, majd ezután kérik meg az engedélyeket a tartalom mentésére is. Amennyiben nem tudják beszerezni a szükséges engedélyeket, akkor csak a linkstruktúra marad meg az archívumban.
Peternák Miklós: Médiamúzeum Magyarországon: 404 és akiknek nem kell – A ’Magyar Tartalom’ húsz éves jubileuma alkalmából
Peternák Miklós a C3 kulturális és Kommunikációs Központ igazgatója a „404 és akiknek nem kell – Médiamúzeum Magyarországon: A ’Magyar Tartalom’ húsz éves jubileuma alkalmából” című előadásában [.pptx] az online tartalmak megőrzésének fontosságáról beszélt, elsősorban múzeumi-művészeti kontextusban. Az előadó elmondta, hogy a Youtube oldalaira percenként 400 órányi film kerül fel és az interneten napi 1 billió órányi nézői tartalomfogyasztás generálódik a különböző online filmmegosztók jóvoltából. Az előadó konkrét net-művészeti alkotásokat{15} mutatott be, illetve elmondta, hogy az idők folyamán a böngészőváltások és fájlformátum-kihalások miatt mennyire nehézzé vált a tartalom aktívan tartása, megújítása. Az előadó konkrét példákon keresztül rámutatott arra, hogy a régebben keletkezett net-művészeti termékek a migrálás dacára, mennyire sérülékenyek és egyre kevesebb funkció marad meg belőlük, míg végül teljességgel elvesznek. {16} Peternák Miklós bemutatta A Net Art kultúra térképét is{17}, közben elmondta, hogy sok netművész mára már belefáradt a honlapjainak megújításába, modernizálásába, ami az új alkotások létrehozása elől veszi el az idejüket, ráadásul a weblaptartalmak megsemmisülése miatt sokan idővel ki is vonultak az internetről és más művészeti ágban munkálkodnak ma már.
Kampis György: A MIA pilot rövid bemutatása (2013-2016)
Kampis György, az ELTE Tudománytörténet és Tudományfilozófia Tanszékének egyetemi tanára „A MIA pilot rövid bemutatása (2013-2016)” című előadásában [.pptx] a tanszéken – főként tudománymetriai célból lefolytatott – Magyar Internet Archívum webaratási pilot projektjét mutatta be. Az előadásból kiderült, hogy a PetaByte Nonprofit Kutatási Kft. 2013-tól kezdődően a MIA nemzeti archívum kialakításának feltételeit egy pilot projekt keretében vizsgálta, ennek érdekében felvették a kapcsolatot a MIA eredeti kezdeményezőivel és az akkori NIIF-fel, számos fejlesztést és előkísérletet végeztek és különböző egyeztetéseket folytattak. Műszaki oldalon a Heritrix crawler sorozatos módosításával, továbbfejlesztésével próbálkoztak. A tesztbe a NIIF HBONE akkori 500 résztvevőjét vonták be, önkényesen és longitudinálisan gyűjtve és elemezve az adatokat. Ezen felül különböző hír site-ok archiválását is végezték. A pilot néhány év alatt 16-17 TB adatot produkált, nagyobb tárolóhely hiányában a gyűjtést (és ezért a fejlesztést) idővel nagyrészt leállították 2015/16-ban.
Kampis György az előadásában a folyamatos financiális problémákról beszélt és arról, hogy megfelelő pályázatok híján magánpénzből kezdték és finanszírozták a projektet. Beszélt a felmerülő jogi és műszaki problémákról. A felvetett, főbb jogi kérdések: „Milyen jogon lehet archiválni?” (önkényesen); „Megosztható-e az archívált tartalom?” (nem); „Van-e garancia a tartalmat illetően?” (nincs). A műszaki problémák: a harvesztelés során, sok a „szemétfájl”; az adattisztítás lassú kézimunka; nehézkes a CMS kezelés; a letöltött tartalmak időbélyegei a letöltéskor megváltoznak; sok az elárvult link, mert a letöltéskor némely komplett honlap szétesik; böngésző verzióváltásos problémák lépnek fel.
A pilot projekt keretében magyar domain-ekre (.hu) koncentráltak, vagy a külföldi oldalakra, amelyek magyar tartalmat szolgáltattak. Archiváláskor ciklikusan a teljes domain tartalmat töltötték le a lehető legmélyebb linkstruktúráig. {18} A letöltéskor az alábbi kiterjesztésű fájlokat kizárták: .iso; .gz; .jar; .mp3; .ogg; .ppt; .rar; .wav; .xls; .zip. A videók letöltését engedélyezték (Youtube, Vimeo stb.), mert az akadémiai szférában egyre több az oktatást segítő, tudományos előadás- vagy egyéb videófelvétel. Az archiváláshoz egy T710-es szervert (Dell T710 server, 2×4 core Xeon E5520, 48GB RAM, 2TB HDD, Dell PowerEdge R720) használtak.
Az egyetemek és főiskolák lementett anyaga 53GB, ebből a különböző szöveges formátumok (html, doc, docx, rtf, pdf, ps): 36GB. Az MTA kutatóintézetei anyagának teljes másolata 33GB, ebből a szöveg 5GB. Átlagos méret: 974 MB per domain. Átlagos szövegméret: 474 MB per domain. A kinyert adatok alapján különböző szógyakoriságú mutatókat, grafikonokat és szófelhőket készítettek, amelyek csak kutatási céllal és engedéllyel hozzáférhetőek. Tartalmi elemzésekkel a napi, heti, havi hírtrendeket tudták kimutatni. {19} Mivel elfogyott idővel az anyagi keret, így a projekt a hír szájtok napi aratását kivéve lezárásra került. Az előadó konklúziójából az derült ki, hogy törvényi háttértámogatásra, anyagi keretre, előírt formátumú beszolgáltatásra lenne szükség.
Drótos László – Németh Márton: Kísérleti webaratás projekt az OSZK-ban
Utolsóként Drótos László témafelelős és Németh Márton webkönyvtáros, az OSZK munkatársaiként „Kísérleti webaratás projekt az OSZK-ban” címmel [.ppt] az OKR program keretében zajló webarchiválási pilot projekt első fél évének tapasztalatairól és eredményeiről számoltak be. Elsőként több diában bemutatták az OSZK egykori (1998-2003) felületeit, amelyeket az Internet Archive{20} segítségével rekonstruáltak.
Az előadók vázolták a feladatokat, miszerint fontos lenne egy leendő, üzemszerűen működő, fenntartható magyar internet archívum műszaki, emberi, szervezeti és jogi feltételeinek megteremtése; az internetes tartalmak mentéséhez szükséges tudás elterjesztése a hazai közgyűjteményekben; helyi archívumok indításának ösztönzése, valamint fontos lenne bekapcsolódni a webarchívumok közötti nemzetközi együttműködésbe.
Bemutatásra kerültek az eddigi munkafázisok, elkészültek a tervezési fázissal: koncepciót, ütemtervet alakítottak ki, meghatározták a forrásigényt és a munkamegbeszéléseken megállapodtak az alapvető gyűjtőkörben. A munkában informatikus, webkönyvtáros, webadminisztrátor, témafelelős és rendszergazda vett részt. A KIFÜ biztosított egy aratószervert (20 TB), az OSZK beállított egy teszt- és adminisztrátori szervert és a MEK-es tanulószervert is erre használták. Szoftverként a Heritrix, az Open Wayback és a Web Curator Tool került kiválasztásra, valamint további teszteket hajtottak végre más szoftverekkel is. {21} Formátumként a WARC tárolóformátumot használták és CDX indexfájlokkal dolgoztak. Nagyobb méretű terhelési teszteket hajtottak végre különböző válogatási szempontok alapján (könyvtárak, múzeumok, levéltárak, egyetemek, e-periodikák, az OSZK saját felületei stb.)
Hozzászólások a workshopon elhangzottakhoz
Az előadók bemutattak több könyvtári oldalon végrehajtott tesztmentést „jól sikerült” és „rosszul sikerült” Heritix mentéssel, bemutatták a Nemzeti Könyvtár facebook-os oldalának mentését Webrecorderrel, valamint a mentések ellenőrzésének táblázatos eredményeit.
Az előadók az előadás zárásaként a további tervekről és megvalósítandó feladatokról beszéltek.
A két időrészre osztott előadások között kérdéseket lehetett feltenni az előadóknak, illetve a szünetben a terem hátsó végében elhelyezett büféasztal körül személyes beszélgetésre is sort keríthettek a megjelentek.
Ambrus Attila József
PTE Egyetemi Könyvtár és Tudásközpont
Digitális Tartalomszolgáltatási Osztály
• A beszámolóban közölt URL-ek letöltési ideje: 2017. október 16.
- 2017. január 17-én zajlott le a „FOLIO – The Future of Libraries is Open” nyílt forráskódú integrált könyvtári platform bemutatója. URL: http://www.oszk.hu/rendezvenyek/integralt-konyvtari-rendszerek-bemutatója {↑}
- Monok István, az MTA Könyvtár és Információs Központ főigazgatója kezdeményezésére 2016. november 8-án a nemzeti könyvtár, több egyetemi könyvtár és szakkönyvtár vezetője megállapodott abban, hogy a magyar könyvtáraknak szükséges áttérniük egy hatékony együttműködést biztosító, új generációs, innovatív technológián alapuló közös könyvtári platformra, mely figyelembe veszi a magyar könyvtári igényeket annak érdekében, hogy könyvtáraink felhasználóit minél gyorsabban és pontosabban tudjuk információval ellátni. URL: http://konyvtar.mta.hu/index.php?name=v_1_5_szandeknyilatkozat {↑}
- Lásd bővebben: http://mekosztaly.oszk.hu/mia/ {↑}
- https://twitter.com/keesone (@keesone) {↑}
- Koninklijke Bibliothek – Nationale bibliotheek van Nederland URL: https://www.kb.nl/ {↑}
- Website of Nikhef, 1992, 3th website in the world: https://nic.nikhef.nl/~a03/www/default/NikhefGuide.html {↑}
- 2007-ben már 2 millió weblapról (.nl) tudnak, ami 2017-re már meghaladta az 5,7 milliót. {↑}
- Domain eloszlás Belgiumban: 1,57 millió .be; 7,4 ezer .brussels, valamint 6,6 ezer .vaanderen {↑}
- Nagy Britanniában 8 ember, 8 órában végez webarchiválást, éves szintű, teljes archiválással. Svájcban sincs kötelespéldány törvény, így ott is csak önkéntes felajánlásra archiválnak honlapokat. Luxemburgban a webarchiválást 10 ember végzi. {↑}
- Jelenleg több, mint 300 linktartományból 30 Terrabyte-nyi adatot tárolnak. {↑}
- A gyűjtéshez használt programok: Heritix 1.14.1 URL: https://github.com/internetarchive/heritrix3, Web Curator Tool URL: http://webcurator.sourceforge.net/ {↑}
- Főbb gyűjtemények: 1. világháború; Premier League Football; Holland Mikulás; 500 év reformáció; Holland Plane Crash Flight MH17 (17 July 2014); Kolostori gyűjtemények; Frisian-language websites {↑}
- Érdekesség, hogy a fellelt honlapok 90%-a felnőtt tartalmat szolgáltatott, és csak rövid életű volt a neten! {↑}
- Az IssueCrawler megmutatja, hogy egy weboldalról milyen más oldalakra mutatnak linkek és ebből egy hálózati ábrát rajzol. Többféle elemzési módszer közül választhatunk, de az IssueCrawler az eredményt egy ábrán fogja megjeleníteni, körökkel, csomópontokkal vagy egy térképen. Egy nagyobb weboldal esetén akár órákat is igénybe vehet a vizsgálat. URL: https://www.issuecrawler.net/ {↑}
- URL: http://www.c3.hu/collection/ {↑}
- Az oldweb.today oldalon elérhető böngésző emuláció segítségével egy ideig még megnyithatóak maradnak a netes művészeti oldalak, de az oldalak „amortizációja” nem áll meg. URL: http://oldweb.today/ {↑}
- URL: http://map.jodi.org/ {↑}
- A hírszájtok letöltéshez a WGET nevű ingyenes programot használták. URL: https://www.gnu.org/software/wget/. Kapcsolódó honlap: http://petabyte-research.org/ {↑}
- URL: http://web.petabyte-research.org/wordcloud/ {↑}
- URL: https://archive.org/web/ {↑}
- HTTrack, WAIL, Webrecorder.io, Webrecorder Player, WARCreate, GrabThemAll {↑}