Međunarodna radionica o povezanim podacima u arhivima 


14. rujna 2021.

Radionica Linked Archives održana je online 13. rujna 2021. u sklopu 25. međunarodne konferencije Theory and Practice of Digital Libraries. Potaknuta je mogućnostima i izazovima koji proizlaze iz susreta arhivske prakse s novim tehnologijama poput povezanih podataka ili velikih podataka. Cilj je radionice, riječima organizatora, promicati dijalog između tehnološki orijentiranih zajednica (programera, proizvođača softvera itd.), istraživača s područja digitalne humanistike te stručnjaka iz arhiva i drugih baštinskih ustanova.

Radionica je bila podijeljena u četiri tematske cjeline. Prva cjelina, „Infrastrukture povezanih podataka“, usmjerila se na razvoj i primjenu IT alata, poput softvera za obradu prirodnog jezika (NLP) ili analitiku i vizualizaciju podataka u digitalnim arhivima. Tehnike obrade prirodnog jezika posebice su aktualne ne samo u računalnom procesuiranju digitaliziranoga arhivskog gradiva, već i obavijesnih pomagala, s obzirom da ona često sadržavaju veće količine nestrukturiranog teksta.

U sklopu ove tematske cjeline uvodno je izlaganje održala dr. Maria Poveda s Politehničkog sveučilišta u Madridu, osvrnuvši se na objavljivanje ontologija u skladu s tzv. FAIR načelima za objavljivanje podataka (Findable, Accessible, Interoperable, Reusable). Među izlaganjima spomenimo i predstavljanje open source konvertera koji je u suradnji s tvrtkom za semantičke tehnologije razvio  Nacionalni arhiv Francuske, a koji EAC-CPF i EAD zapise pretvara u RDF trojke usklađene s ontologijom RiC-O. Spomenut ćemo i prezentaciju talijanskog projekta ARTchives, koji prikuplja, obrađuje i prezentira podatke iz osobnih arhiva povjesničara umjetnosti, spajajući crowdsourcing, alate obrade prirodnog jezika i izvorno katalogiziranje u sustavu utemeljenom na povezanim podacima.  

U drugoj tematskoj cjelini, „Perspektive i gledišta“, izdvajamo iskustva Povijesnog arhiva Njemačkoga nacionalnog muzeja u Nürnbergu, koji je u razvoju vlastitoga semantičkog informacijskog sustava primijenio podatkovni model matične ustanove, tj. CIDOC CRM. Archives Portal Europe predstavio je pak rad na alatu za automatizirano indeksiranje arhivskih dokumenata, potaknut činjenicom da arhivsko gradivo koje stiže u agregatore rijetko sadržava strukturirane predmetne podatke. U razvoju alata kombinira se obrada prirodnog jezika, odnosno automatsko prepoznavanje entiteta, s poveznicama na međunarodne rječnike poput VIAF-a i Wikibase, koji su dostupni u formatima povezanih podataka.

U tematskoj cjelini „Modeliranje povezanih podataka“ izložene su studije slučajeva i primjeri iz prakse u implementaciji konceptualnih podatkovnih modela, posebice RiC-a. Cjelina „Projekti u arhivima“ bavila se pak institucionalnim projektima. Među njima ističemo izradu tezaurusa za oblike dokumentarnog gradiva (TEMAS), koji u RDF/SKOS formatu razvija Državni arhiv u Belgiji, te istraživanje o mogućnostima izdvajanja vremenskih podataka iz arhivskih zapisa i ograničenjima njihova prikaza u RDF-u, koje je provedeno u Institutu za informacijsku infrastrukturu u Leibnitzu i Institutu za tehnologiju u Karlsruheu.