Theory and Practice of Digital Libraries : samenvatting #TPDL2013

Laat een reactie achter

Voor zover ik het dan begrepen en gevolgd heb.

Zoekacties op internet leveren vaak niet voldoende, of niet complete resultaten op, terwijl de gegevens er vaak wel zijn, maar ze zijn óf niet goed gestructureerd, óf wel gestructureerd, maar zitten opgeslagen in databases, waar ze voor gewone zoekmachines moeilijk te vinden zijn.
Zaak is het dus om meer structuur aan te brengen in het geheel, en om zaken met elkaar te verbinden.

Digital Libraries zijn meer dan enkel opslagsystemen van digitale informatie: ze moeten een Knowledge Hub zijn.
Ze moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken, nieuwe technologieën maken nieuwe toepassingen mogelijk: digitale bibliotheken moeten nieuwe wegen mogelijk maken om naar de informatie te kijken.

Het semantische web

Een oplossing wordt gezien in het semantische web: met als ontwerptalen RDF (Resource description Framework) of RDFS (=RDF + nog wat erbij) en OWL (Web Ontology Language), zoeken via SPARQL en verder kennisorganiserende systemen SKOS.
Aan de basis ligt RDF: kort gezegd komt dat er op neer dat informatie opgeslagen wordt in zo klein mogelijke statements die nog zinvol zijn.  Deze uitspraken bestaan vaak uit 3 elementen: (‘onderwerp’ – gezegde (relatie) – ‘lijdend voorwerp’) en worden daarom triples genoemd. Dat zijn uitspraken als: ‘Shakespeare schreef Othello’ ‘Shaeksepare is een auteur’ Othello is een toneelstuk’
Deze triples worden opgeslagen in een ‘triple store’. De namen van mensen, organisaties, plaatsen en dergelijke (Named Entities) worden ook opgeslagen en voorzien van allerlei varianten en vertalingen, zodat als iemand een vergissing met zoeken maakt, of een gescande tekst een variant bevat, er toch de juiste persoon wordt gevonden: er zijn authority files.
En er wordt een ontologie (trefwoordenlijst) bij gebruikt die ondubbelzinnige termen bevat, en de termen in hun context weet te plaatsen: zodat er een onderscheid is tussen Jaguar als beest (in combinatie met jungle bijvoorbeeld) en als automerk (in combinatie met autowegen en benzine).
Met RDF kun je zo informatie uit allerlei heel verschillende databases met elkaar verbinden.

Dat is heel kort door de bocht de theorie en met dat als basis kun je van alles met van alles verbinden.

Er gebeurt veel daarmee, maar het meeste daarvan is volgens mij nog als proef, of als onderdeel van een of ander geheel.
Het is best complex om dat goed te doen, en het vergt veel samenwerking.
Maar als dat goed werkt, kun je dus ‘alles’ van een onderwerp bij elkaar vinden: of het nu om beschrijvingen van gebouwen, muziek, boeken, artikelen, beschrijvingen van beelden of wat dan ook gaat.
En je kunt  ook andere zaken verzinnen als:  Slidewiki  (losse slides uit presentaties voorzien van extra informatie via) of iets als OntoWiki .
In het project Cortex (semantic digital library search backend)  van LOD2 is alle Europeana informatie in triples ingevoerd in die database, dit is nu in gebruik door de Deutsche digitale bibliothek. De performance is erg goed.

Metadata rules

Wat eigenlijk elke dag wel terug kwam is het belang van metadata: en die metadata moet goed zijn, anders wordt het geheel wat je daarop wil bouwen wat wankel.
Bij voorbeeld: de European library wordt samengesteld uit de geharveste repositories van de 48 nationale bibliografieën.
Een repository wordt gevoed uit een catalogus ergens: die gegevens worden via het OAI-MPH systeem geharvest.  Maar die gegevens zijn maar net zo compleet als ze worden ingevoerd, en lang niet alle catalogiseerders maken volledig gebruik van de velden die ze tot hun beschikking hebben. Bovendien: aan een repository ligt vaak Dublin core ten grondslag, en dat is ook nogal beperkt.
De gegevens van meerdere repositories worden samengevoegd, maar dat kan dus als resultaat hebben, en heeft het ook, dat een item meerdere keren voorkomt.
Voor de gebruiker van het systeem is het niet plezierig als deze meer dan 1x dezelfde gegevens voorgeschoteld krijgt, dus het is zaak de ontdubbelen: maar als je niet alle gegevens hebt is het lastig om die dubbelen te identificeren. Anderzijds wil je ook recht doen alle mogelijke edities, en alle medewerkers van een bepaalde editie. Voor een bestand als The European Library (en Europeana en dergelijke)  zijn de aantallen waar je over spreekt gigantisch, dus dit is beslist niet handmatig te doen.
Automatiseren ja, maar vaak is er ook weer -deels- menselijke tussenkomst bij nodig.

Archiveren

Veel (60%) van wat er nu aan informatie is verdwijnt zonder dat deze wordt gearchiveerd. Maar is dat erg? Moet je alles willen bewaren?
Is het eigenlijk niet veel meer werk om uit te zoeken wat je wel wilt bewaren, en kun je maar beter alles opslaan? Maar hoe doe je dat en hoe zorg je dat je met die data explosie voldoende ruimte hebt?
Hebben we eigenlijk niet betere filters nodig?
Ook in de Wayback machine blijkt lang niet alles te vinden.
‘What to keep’ is echt een digitale bibliotheek issue.
Een interessant vraag is ook: als je research data bewaart en opslaat en het dan later weer uitvoert, doet het proces dan nog hetzelfde?

Sharing data is a cultural issue

Wetenschap wordt in het openbaar bedreven, maar als je echt over Open science spreekt, heb je meer nodig dan nu ‘open’ is, hoewel nu al 50% van de artikelen via Open Acces te vinden is. Een publicatie is het eindpunt van een onderzoek: daar gaat een en ander aan vooraf. Bij de publicatie van een artikel hoort ook de publicatie van de data waar het artikel op gebaseerd is: zodat het eindresultaat verifieerbaar is, zodat men de data kan hergebruiken, om fraude en ‘gratis bijrijders’ tegen te gaan. Maar dit ligt nogal moeilijk, vanwege het feit dat sommige onderzoekers zich niet graag in de kaart laten kijken, uit angst voor misbruik of misinterpretatie, vanwege persoonlijke gegevens van proefpersonen, of het  aanwezig zijn van min of meer geheime bedrijfsgegevens. ‘Europa’ wil wel dat alles wat met publiek geld gefinancierd wordt ook in open access gepubliceerd wordt, maar niet alle onderzoek vindt plaats in de publieke ruimte, er is nogal eens een verstrengeling van privaat en publiek geld.
Daar komt nog eens bovenop dat de data alleen niet voldoende is: je hebt ook de software nodig waar de data in gemaakt is om die te kunnen hergebruiken, de beschrijvingen, de modellen, de provenance, het gehele proces eigenlijk.
Zou je het goed willen doen, dan zou de onderzoeker al bij de opzet van het onderzoek het hergebruik in ogenschouw moeten nemen, en contact opnemen met de data scientist / librarian / archivist om af te spreken wat de beste procedure is om het geheel te archiveren. en dat vergt wel een cultuuromslag …
En dan dat hergebruiken: gaat iemand dat eigenlijk wel doen?

Love your data and let others love them too

Je hebt een betrouwbare infrastructuur nodig om dat te stimuleren, een infrastructuur waar digitale bibliotheken deel van uitmaken.
Data kan trouwens van alles zijn: het hangt van de omstandigheden af wat er als data gezien wordt. Iemands aantekeningen is voor de een ruis, voor de andere bron van onderzoek, en dus data.

Artikelen

Een artikel alleen is niet voldoende, je hebt er dus ook de data en de procesbeschrijving van het onderzoek bij nodig.
Maar daarnaast zou je ook het artikel kunnen annoteren en voorzien van triples: dat maakt het gemakkelijker terug te vinden en daarmee gemakkelijker citeerbaar.
Dat vergt alleen wel een andere manier van publiceren omdat de meeste uitgevers de triples eraf zullen strippen, maar in instituutsrepositories zou dat zeker wel gaan.
Wat bibliometrie betreft: alleen de citaties worden geteld, maar eigenlijk is vermelden in een tweet ook een citatie, en die worden niet geteld. Commentaren bij blogs ook niet.

Visualisatie

Nadeel van zoeken is dat je keywords nodig hebt: wat als je een plaatje wilt zoeken, of niet echt een term weet?
Je zou een soort Google Maps kunnen maken van onderwerpen waarop je kunt inzoomen. (zie blogtekst over het Paths project )

Gebruikers

We doen het allemaal voor de gebruiker: en die willen soms andere dingen dan de profs denken.
Ze willen bijvoorbeeld dat het systeem hen daadwerkelijk helpt, niet alleen een help button.
Men wil graag veel opties voor het manipuleren van de zoekactie en om de resultaten te tonen, maar het systeem moet wel duidelijk zijn.
Gebruikers willen best Advanced search gebruiken maar hebben minder interesse in technische metadata.
Search filters zijn gebruikelijk, maar worden ze ook gebruikt? Uit een eye tracking studie blijkt dat ze veel gebruikt worden. Dus ze zijn zeker zinvol ja.
En last but not least: we zijn op weg naar een echte cyberinfrastructure maar face to face contact blijft belangrijk.

Infrastructuren

In Europa is een woud van acroniemen bezig met het opzetten en onderzoeken van e-infrastructuren. (blogpost)
Het is nogal ondoorzichtig allemaal wie nou precies wat doet, en laten we hopen dat ze het zelf weten. En allemaal in projecten: wat gebeurt er als die afgelopen zijn?
OpenAIRE is bijv wel een heel belangrijke: dat is een basis en daarop kun  je  speciale applicaties voor speciale toepassingen bouwen. De OpenAIREplus versie verbindt publicaties met data (zie het Dlib artikel.)
Wat wel uit deze presentatie kwam is dat het belangrijk is dat men vanuit Europa zelf voeling houdt met de ‘basis’: de catalogiseerders en de afzonderlijke collecties.  Als die niet het idee hebben dat ze met samenwerken wat kunnen bereiken, en dat Europa ze alleen maar werk kost waar ze zelf niets aan hebben, verlies je ze.
Het ontbreekt dus niet alleen aan duidelijkheid, maar ook aan communicatie naar de basis.
Het is ook allemaal erg highbrow: hebben we eigenlijk niet simpele tools voor curatie nodig in plaats van specialistische ITers?
De standaardisatie komt vanuit Europa, maar van belang is ook dat we weten in hoeverre de datasets te vertrouwen zijn: certificatie en audit? Of liever appraisal? De Europese heren en dame weten het ook niet dus er komt weer een project voor …

Aanrader

Een hele leuke Google Scholar plugin voor Firefox en Chrome: de Google Scholar H-index Calculator.

Conclusie

De Digitale Bibliotheek heeft een toekomst en is de toekomst.
Maar het levert nog wel veel vragen op….
Wat wel een duidelijke zaak is dat je ‘als bibliotheek’ je zeker moet gaan bemoeien met de opslag van data, hoe moeilijk dat ook is.
En het koppelen van de data aan de publicatie.
Want daarin ligt de toekomst voor de bibliotheek.

Presentaties

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s