Theory and Practice of Digital Libraries : samenvatting #TPDL2013

Laat een reactie achter

Voor zover ik het dan begrepen en gevolgd heb.

Zoekacties op internet leveren vaak niet voldoende, of niet complete resultaten op, terwijl de gegevens er vaak wel zijn, maar ze zijn óf niet goed gestructureerd, óf wel gestructureerd, maar zitten opgeslagen in databases, waar ze voor gewone zoekmachines moeilijk te vinden zijn.
Zaak is het dus om meer structuur aan te brengen in het geheel, en om zaken met elkaar te verbinden.

Digital Libraries zijn meer dan enkel opslagsystemen van digitale informatie: ze moeten een Knowledge Hub zijn.
Ze moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken, nieuwe technologieën maken nieuwe toepassingen mogelijk: digitale bibliotheken moeten nieuwe wegen mogelijk maken om naar de informatie te kijken.

Het semantische web

Een oplossing wordt gezien in het semantische web: met als ontwerptalen RDF (Resource description Framework) of RDFS (=RDF + nog wat erbij) en OWL (Web Ontology Language), zoeken via SPARQL en verder kennisorganiserende systemen SKOS.
Aan de basis ligt RDF: kort gezegd komt dat er op neer dat informatie opgeslagen wordt in zo klein mogelijke statements die nog zinvol zijn.  Deze uitspraken bestaan vaak uit 3 elementen: (‘onderwerp’ – gezegde (relatie) – ‘lijdend voorwerp’) en worden daarom triples genoemd. Dat zijn uitspraken als: ‘Shakespeare schreef Othello’ ‘Shaeksepare is een auteur’ Othello is een toneelstuk’
Deze triples worden opgeslagen in een ‘triple store’. De namen van mensen, organisaties, plaatsen en dergelijke (Named Entities) worden ook opgeslagen en voorzien van allerlei varianten en vertalingen, zodat als iemand een vergissing met zoeken maakt, of een gescande tekst een variant bevat, er toch de juiste persoon wordt gevonden: er zijn authority files.
En er wordt een ontologie (trefwoordenlijst) bij gebruikt die ondubbelzinnige termen bevat, en de termen in hun context weet te plaatsen: zodat er een onderscheid is tussen Jaguar als beest (in combinatie met jungle bijvoorbeeld) en als automerk (in combinatie met autowegen en benzine).
Met RDF kun je zo informatie uit allerlei heel verschillende databases met elkaar verbinden.

Dat is heel kort door de bocht de theorie en met dat als basis kun je van alles met van alles verbinden.

Er gebeurt veel daarmee, maar het meeste daarvan is volgens mij nog als proef, of als onderdeel van een of ander geheel.
Het is best complex om dat goed te doen, en het vergt veel samenwerking.
Maar als dat goed werkt, kun je dus ‘alles’ van een onderwerp bij elkaar vinden: of het nu om beschrijvingen van gebouwen, muziek, boeken, artikelen, beschrijvingen van beelden of wat dan ook gaat.
En je kunt  ook andere zaken verzinnen als:  Slidewiki  (losse slides uit presentaties voorzien van extra informatie via) of iets als OntoWiki .
In het project Cortex (semantic digital library search backend)  van LOD2 is alle Europeana informatie in triples ingevoerd in die database, dit is nu in gebruik door de Deutsche digitale bibliothek. De performance is erg goed.

Metadata rules

Wat eigenlijk elke dag wel terug kwam is het belang van metadata: en die metadata moet goed zijn, anders wordt het geheel wat je daarop wil bouwen wat wankel.
Bij voorbeeld: de European library wordt samengesteld uit de geharveste repositories van de 48 nationale bibliografieën.
Een repository wordt gevoed uit een catalogus ergens: die gegevens worden via het OAI-MPH systeem geharvest.  Maar die gegevens zijn maar net zo compleet als ze worden ingevoerd, en lang niet alle catalogiseerders maken volledig gebruik van de velden die ze tot hun beschikking hebben. Bovendien: aan een repository ligt vaak Dublin core ten grondslag, en dat is ook nogal beperkt.
De gegevens van meerdere repositories worden samengevoegd, maar dat kan dus als resultaat hebben, en heeft het ook, dat een item meerdere keren voorkomt.
Voor de gebruiker van het systeem is het niet plezierig als deze meer dan 1x dezelfde gegevens voorgeschoteld krijgt, dus het is zaak de ontdubbelen: maar als je niet alle gegevens hebt is het lastig om die dubbelen te identificeren. Anderzijds wil je ook recht doen alle mogelijke edities, en alle medewerkers van een bepaalde editie. Voor een bestand als The European Library (en Europeana en dergelijke)  zijn de aantallen waar je over spreekt gigantisch, dus dit is beslist niet handmatig te doen.
Automatiseren ja, maar vaak is er ook weer -deels- menselijke tussenkomst bij nodig.

Archiveren

Veel (60%) van wat er nu aan informatie is verdwijnt zonder dat deze wordt gearchiveerd. Maar is dat erg? Moet je alles willen bewaren?
Is het eigenlijk niet veel meer werk om uit te zoeken wat je wel wilt bewaren, en kun je maar beter alles opslaan? Maar hoe doe je dat en hoe zorg je dat je met die data explosie voldoende ruimte hebt?
Hebben we eigenlijk niet betere filters nodig?
Ook in de Wayback machine blijkt lang niet alles te vinden.
‘What to keep’ is echt een digitale bibliotheek issue.
Een interessant vraag is ook: als je research data bewaart en opslaat en het dan later weer uitvoert, doet het proces dan nog hetzelfde?

Sharing data is a cultural issue

Wetenschap wordt in het openbaar bedreven, maar als je echt over Open science spreekt, heb je meer nodig dan nu ‘open’ is, hoewel nu al 50% van de artikelen via Open Acces te vinden is. Een publicatie is het eindpunt van een onderzoek: daar gaat een en ander aan vooraf. Bij de publicatie van een artikel hoort ook de publicatie van de data waar het artikel op gebaseerd is: zodat het eindresultaat verifieerbaar is, zodat men de data kan hergebruiken, om fraude en ‘gratis bijrijders’ tegen te gaan. Maar dit ligt nogal moeilijk, vanwege het feit dat sommige onderzoekers zich niet graag in de kaart laten kijken, uit angst voor misbruik of misinterpretatie, vanwege persoonlijke gegevens van proefpersonen, of het  aanwezig zijn van min of meer geheime bedrijfsgegevens. ‘Europa’ wil wel dat alles wat met publiek geld gefinancierd wordt ook in open access gepubliceerd wordt, maar niet alle onderzoek vindt plaats in de publieke ruimte, er is nogal eens een verstrengeling van privaat en publiek geld.
Daar komt nog eens bovenop dat de data alleen niet voldoende is: je hebt ook de software nodig waar de data in gemaakt is om die te kunnen hergebruiken, de beschrijvingen, de modellen, de provenance, het gehele proces eigenlijk.
Zou je het goed willen doen, dan zou de onderzoeker al bij de opzet van het onderzoek het hergebruik in ogenschouw moeten nemen, en contact opnemen met de data scientist / librarian / archivist om af te spreken wat de beste procedure is om het geheel te archiveren. en dat vergt wel een cultuuromslag …
En dan dat hergebruiken: gaat iemand dat eigenlijk wel doen?

Love your data and let others love them too

Je hebt een betrouwbare infrastructuur nodig om dat te stimuleren, een infrastructuur waar digitale bibliotheken deel van uitmaken.
Data kan trouwens van alles zijn: het hangt van de omstandigheden af wat er als data gezien wordt. Iemands aantekeningen is voor de een ruis, voor de andere bron van onderzoek, en dus data.

Artikelen

Een artikel alleen is niet voldoende, je hebt er dus ook de data en de procesbeschrijving van het onderzoek bij nodig.
Maar daarnaast zou je ook het artikel kunnen annoteren en voorzien van triples: dat maakt het gemakkelijker terug te vinden en daarmee gemakkelijker citeerbaar.
Dat vergt alleen wel een andere manier van publiceren omdat de meeste uitgevers de triples eraf zullen strippen, maar in instituutsrepositories zou dat zeker wel gaan.
Wat bibliometrie betreft: alleen de citaties worden geteld, maar eigenlijk is vermelden in een tweet ook een citatie, en die worden niet geteld. Commentaren bij blogs ook niet.

Visualisatie

Nadeel van zoeken is dat je keywords nodig hebt: wat als je een plaatje wilt zoeken, of niet echt een term weet?
Je zou een soort Google Maps kunnen maken van onderwerpen waarop je kunt inzoomen. (zie blogtekst over het Paths project )

Gebruikers

We doen het allemaal voor de gebruiker: en die willen soms andere dingen dan de profs denken.
Ze willen bijvoorbeeld dat het systeem hen daadwerkelijk helpt, niet alleen een help button.
Men wil graag veel opties voor het manipuleren van de zoekactie en om de resultaten te tonen, maar het systeem moet wel duidelijk zijn.
Gebruikers willen best Advanced search gebruiken maar hebben minder interesse in technische metadata.
Search filters zijn gebruikelijk, maar worden ze ook gebruikt? Uit een eye tracking studie blijkt dat ze veel gebruikt worden. Dus ze zijn zeker zinvol ja.
En last but not least: we zijn op weg naar een echte cyberinfrastructure maar face to face contact blijft belangrijk.

Infrastructuren

In Europa is een woud van acroniemen bezig met het opzetten en onderzoeken van e-infrastructuren. (blogpost)
Het is nogal ondoorzichtig allemaal wie nou precies wat doet, en laten we hopen dat ze het zelf weten. En allemaal in projecten: wat gebeurt er als die afgelopen zijn?
OpenAIRE is bijv wel een heel belangrijke: dat is een basis en daarop kun  je  speciale applicaties voor speciale toepassingen bouwen. De OpenAIREplus versie verbindt publicaties met data (zie het Dlib artikel.)
Wat wel uit deze presentatie kwam is dat het belangrijk is dat men vanuit Europa zelf voeling houdt met de ‘basis’: de catalogiseerders en de afzonderlijke collecties.  Als die niet het idee hebben dat ze met samenwerken wat kunnen bereiken, en dat Europa ze alleen maar werk kost waar ze zelf niets aan hebben, verlies je ze.
Het ontbreekt dus niet alleen aan duidelijkheid, maar ook aan communicatie naar de basis.
Het is ook allemaal erg highbrow: hebben we eigenlijk niet simpele tools voor curatie nodig in plaats van specialistische ITers?
De standaardisatie komt vanuit Europa, maar van belang is ook dat we weten in hoeverre de datasets te vertrouwen zijn: certificatie en audit? Of liever appraisal? De Europese heren en dame weten het ook niet dus er komt weer een project voor …

Aanrader

Een hele leuke Google Scholar plugin voor Firefox en Chrome: de Google Scholar H-index Calculator.

Conclusie

De Digitale Bibliotheek heeft een toekomst en is de toekomst.
Maar het levert nog wel veel vragen op….
Wat wel een duidelijke zaak is dat je ‘als bibliotheek’ je zeker moet gaan bemoeien met de opslag van data, hoe moeilijk dat ook is.
En het koppelen van de data aan de publicatie.
Want daarin ligt de toekomst voor de bibliotheek.

Presentaties

Defining Digital Library #TPDL2013

Laat een reactie achter

Defining Digital Library. (€) Armand Brahaj, Matthias Razum, and Julia Hoxha

This paper reflects on the range of the definitions of digital libraries demonstrating their extent. We analyze a number of definitions through a simplified intensional definition method, through which we exploit the nature of the definitions by analyzing their respective genera and attributes. The goal of this paper is to provide a synthesis of the works related to definitions of digital library, giving a fine-grained comparative approach on these definitions. We  conclude that, although there are a large number of definitions, they are defined in overlapping families and attributes, and an inclusive definition is possible.

Armand vindt dat Digital Libraries een verkeerde term is, omdat wat je ermee bedoeld erg afhangt van de context waarin je het gebruikt.

Collectie, service, organisaties of systeem bijv.
Dit zijn de resultaten van hun onderzoek :

Hij ziet bibliotheek dus meteen als een online systeem ;-).

(Hij heeft een aardige mindmap gemaakt, maar die was te snel van het scherm, hij heeft hem op mijn verzoek even getweet 🙂

E-books in Swedish Public Libraries: Policy Implicaties #TPDL2013

Laat een reactie achter

E-books in Swedish Public Libraries: Policy Implications (€)

The aims of the paper are: review the situation of e-books delivery in the Swedish public libraries (as it looked at the end of 2012); identify the barriers that public libraries encounter in providing access to e-books; highlight the policy-related problems of e-book provision through public libraries. A survey was carried out in October, 2012 of all public libraries in Sweden. 291 questionnaires were issued. 185 were completed, response rate was 63.3%. The provision of an e-book service has arisen as a result of either demand or an
ideological belief that the ethos of democratic values and equality of access requires libraries to offer material in all media. Librarians find the situation of e-books provision through libraries unsatisfactory: the provider of titles removes them from the catalogue without warning or explanation, there are too few titles for children and students, and access to popular titles is delayed.

Bijna alle huishoudens in Zweden hebben internet, en ze lezen ook echt veel, maar er leest maar 1% ebooks. Heeft ook met aanbod in het Zweeds te maken, dat is heel erg beperkt. Toch bieden 95% van de OBs in Zweden ze wel aan. De bibliotheken in Zweden zijn erg gericht op kwaliteit en aanbod voor have-and-havenots gelijk te krijgen. Ze hebben ze dus ook echt op aanvraag van gebruikers, maar er zijn de bekende beperkingen voor bibliotheken.
Bovendien is er daar een pay per use dat maakt het duurder – ebooks worden zo duurder duurder naarmate ze meer gebruikt worden, duurder dan print- en tamelijk onbeheersbaar.
Beperking van markt maakt t aanbod beperkt. Kinderen komen met ipad en willen ebooks, maar er zijn er geen. De Zweedse leverancier geeft ook geen vertalingen uit. Ze hebben wel geld gekregen voor dit project.
Er komt een nieuwe wet aan.
Mensen willen wel ebooks lezen, maar er eigenlijk niet voor betalen.
Nb dit project gaat niet alleen over de openbare bibliotheek, maar over alle bibliotheken.

Hun Blog http://projectebooks.wordpress.com/

Extension voor Google Scholar Bibliometrics #TPDL2013

Laat een reactie achter

A Domain Meta-wrapper Using Seeds for Intelligent Author List Extraction in the Domain of Scholarly Articles. (€) Francesco Cauteruccio and Giovambattista Ianni

In this paper we investigate about automated extraction of author lists in the domain of scientific digital libraries. It is given a list of known “seed” authors and we aim to extract complete lists of co-authors from Web pages in arbitrary format. We adopt a methodology embedding domain knowledge in a unique “meta-wrapper”, not requiring training, with negligible maintenance costs and based on the combination of several extraction techniques. Such methods are applied at the structural level, at the character level and at the annotation level. We describe the methodology, illustrate our tool, compare with known approaches and measure the accuracy of our techniques with proper experiments

Ze hebben een hele leuke Google Scholar plugin voor Firefox en Chrome gemaakt: de Google Scholar H-index Calculator.
Ze kregen daar veel feedback op.
Ziet er echt heel handig uit.

Scholar laat maar een stukje van de informatie die beschikbaar is, bijv, maar een paar van de auteurs.
Met hun tool kun je die opvragen.
In dit paper beschrijven ze hoe ze dat gedaan hebben.
Ze hebben een meta-wrapper gemaakt a la DIADEM.

De resultaten zijn echt vrij goed :

What can Linked Data do for Digital Libraries? #TPDL2013

Laat een reactie achter

Keynote Address by Soren Auer
What can Linked Data do for Digital Libraries?
Chaired by Trond Aalberg
Hall: Grand Ballroom

The paradigm of publishing and interlinking structured data on the Web got quite some traction recently. In this talk we will give an overview on recent developments in the Linked Data realm. We will have a look on how Linked Data can contribute to making Digital Libraries and the rich, qualitative content therein more accessible, inter-connected and attractive. As the Web evolves from a medium for document exchange to increasingly facilitating data exchange, Digital Libraries will also evolve from document repositories to knowledge hubs. We will discuss some challenges and opportunities on that road.

Sören schrijft veel: ‘Sören is author of over 80 peer-reviewed scientific publications resulting in a H-index of 20’
Jeetje.
‘He aims to combine strong theoretical results with high-impact practical applications’ kijk dat is een goed idee.

Sören deed altijd al wat ‘digital library stuff’ maar noemde het niet zo.

Waarom hebben we een Data Web nodig?
Van sommige dingen heb je al geleerd dat je ze niet via Google kunt vinden, al is die informatie wel aanwezig, de reden is dat de integratie er niet is: de achtergrond informatie is dan niet, of niet gestructureerd, aanwezig.
Het is van belang nieuwe strategieën daarvoor te ontwerpen.

De informatie is er nl wel en zelfs gestructureerd, maar dan in databases zelf.
Via RDF kun je informatie uit diverse bronnen integreren.

RDF data model met triples.
Triples komen uit de natuurlijke taal, je kunt er allerlei informatie in kwijt.
Dat kun je op web zetten, de machine vindt de triples en de mens zelf zoekt.
Als je dat in een relatated database doet wordt het erg rommelig.

Pragmatische ontwikkeling van het semantische web.

Het paatje ‘Emerging Web of Data’ van twee jaar geleden werkt intussen niet meer: het web is intussen zo groot geworden dat je het niet meer in een enkel plaatje kwijt kunt.

LOD2 project lifecycle Linked Data.
Extractie uit gestructureerde en semi- gestructureerde bronnen.
Opslaan van triples in Triples stores.

Authoring: iedereen zou informatie moeten kunnen toevoegen.
Linking en interlinking: dat wil je niet handmatig doen, dus heb je op basis van heuristics systemen nodig die dat doen, maar die hebben wel een menselijke verificatie nodig, dus niet puur automatisch.
Verrijking: er zijn upper levels structuren van de basis gegevens van ontologieen nodig.
Kwaliteitsanalyse: data web heeft ook grote variëteit in kwaliteit. Op zich is dat niet erg, maar we moeten wel weten wat de kwaliteit van een bepaalde dataset is. Het ligt aan je doel of de kwaliteit van een bepaalde set voldoende is of niet.
Evolutie van de data : web moet dynamisch zijn
Exploring data: het web staat nog in de kinderschoenen, er zijn betere tools nodig.

Diverse componenten van Lod2 zijn al beschikbaar of  komen op korte termijn ter beschikking.

Wat is een digital library?
‘Zoeken naar ‘stuff’ en ernaar kijken’ is wat een gewone bibliotheek doet.
Een digitale bibliotheek doet hetzelfde en geeft ook toegang tot digitale items, althans, dat zou je in eerste instantie zeggen, maar dat is niet het enige, noch is het voldoende.
Een digitale bibliotheek zou ook een methode moeten geven om naar nieuwe wegen van informatie te kijken. Knowledge Hubs. Kennis delen op het web. Nieuwe technologieën, dat geeft ook nieuwe toepassingen.

Artefacten: zijn bij voorbeeld ook thesauri, data, semantic network, etc.
Nieuwe vormen van samenwerking zouden onderzocht moeten worden en nieuwe artefacten als Linked Data, mashups, wikis, courseware, etc ingevoerd
Dingen waar we eerder niet aan dachten.

Ontowiki (lijkt nu even niet online te zijn -later wel-, maar wel online is http://semanticweb.org/wiki/OntoWiki)

Een voorbeeld is dit:

Ontwiki

 

Cortex : semantic digital library search backend.
Alles zit in de database: alle Europeana informatie is in triples ingevoerd in die database.
De response erg goed. Voorbeeld https://www.deutsche-digitale-bibliothek.de/

Slidewiki :
Platform open access voor presentaties per slide (vanaf vandaag toegankelijk).
Je kunt steeds de presentaties updaten, de vertaling gaat automatisch.
Er is een lijst met mensen die er aan bijgedragen hebben, zoals bij Wikipedia.
Iedereen kan vragen stellen, en die zijn gekoppeld aan de slide zelf.
Voor Prezi werkt het ook.

Voorbeeld van slidewiki:

Slidewiki

 

SemanticPapers
Gestructureerd noteren van wetenschappelijke informatie. Onderzoekers zijn veel tijd kwijt met informatie in tekst te zetten. Kan dat eenvoudiger?
Annoteren van papers op een semantische manier.
RDF triples koppelen aan stukjes tekst. (is dit minder werk? lijkt me behoorlijk ingewikkeld – of veel werk- om te doen als ze dat zelf moeten doen ). Sören zegt dat reviewers toch moeten annoteren. Als ze dat gedaan hebben kun je wel meteen zoeken in de database naar ‘Similar papers’ . Dat is wel een voordeel. (vraag is wel hoe goed ze dat dan doen: is wel een methode om onder water wat ‘onzin’ toe te voegen.)

Authoring semantic annotated annotaties text.

Extract informatie uit bestaande repositories.

Digital Libraries moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken.

Wauw, interessante tools, leuk praatje .


Opmerking uit de zaal: Annoteren doen mensen zelf achteraf niet, daar hebben ze geen tijd voor, maar voor studenten zou het een mooie tool zijn.
Antw: Voordeel is ook dat als je gemakkelijker te vinden bent je vaker geciteerd wordt, en door deze semantische verrijking wordt je sneller gevonden.
Mogelijk kun je het crowdsourcen of automatisch laten doen.
Opm van Christine Borgman :
de traditionele uitgevers strippen dat er gelijk af en maken er een pdf van.
We moeten dan naar andere manier van publiceren.
Antw :
je kunt ook buiten uitgevers om je artikel opslaan in Google docs, kleine OA tijdschriften of een repository.

Slides presentatie

Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries #TPDL2013

Laat een reactie achter

Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries . Benjamin Kohncke and Wolf-Tilo Balke

Today, entity-centric searches are common tasks for information gathering. But, due to the huge amount of available information the entity itself is often not sufficient for finding suitable results. Users are usually searching for entities in a specific search context which is important for their relevance assessment. Therefore, for digital library providers it is inevitable to also consider this search context to allow for high quality retrieval. In this paper we present an approach enabling context searches for chemical entities. Chemical entities play a major role in many specific domains, ranging from biomedical over biology to material science. Since most of the domain specific documents lack of suitable context annotations, we present a similarity measure using cross-domain knowledge gathered from Wikipedia. We show that structure-based similarity measures are not suitable for chemical context searches and introduce a similarity measure combining entity- and context similarity. Our experiments show that our measure outperforms structure-based similarity measures for chemical entities. We compare against two baseline approaches: a Boolean retrieval model and a model using statistical query expansion for the context term. We compared the measures computing mean average precision (MAP) using a set of queries and manual relevance assessments from domain experts. We were able to get a total increase of the MAP of 30% (from 31% to 61%). Furthermore, we show a personalized retrieval system which leads to another increase of around 10%.

Veel informatie maar hoe krijg je die in een vraagstelling.
Methoden van onderzoek :
CAS heeft hoge kwaliteit, maar kost ook veel in onderhoud.
PubChem: Chemical entities data.

Veel gelijkenis in resultaten, vaak op fingerprint gebaseerd.
Hun achtergrond zorgt vaak voor een bepaalde search context.
Clusteren van die Chemical entities in een bepaalde context.
Als ze al geannoteerde waren – zoals MeSH- zou dat mooi zijn, maar in chemische domein is dat er niet.
We hebben wel Full – text, dat zou je kunnen filteren, maar dat werkt niet erg goed.
Vanuit Wikipedia hebben ze een profiel met chemische termen (er waren er 721) gehaald.
En op based daarvan een similarity measure gedaan voor 10% van de queries.
Daar nog wat andere meetmethoden aan toegevoegd om de personalisatie toe te voegen.
De entity en de termen in Wikipedia vergeleken.
Over 44k klinische studies onderzoek gedaan.
92% vonden ze toch in Wikipedia.

Met de Chemical entities werden de zoekacties 30 – 40 procent beter.
Leunt zwaar op de computing, maar veel van deze dingen kunnen preprocessed worden zodat de gebruiker alleen de zoektermen hoeft in te voeren. De personalisatie dient wel aangepast, dus als je een van hen in de buurt heb, of iemand die dat kan, dan is dat mogelijk.

Securing Access to Complex Digital Artifacts #TPDL2013

Laat een reactie achter

Securing Access to Complex Digital Artifacts – Towards a Controlled Processing Environment for Digital Research Data. (€) Johann Latocha, Klaus Rechert and Isao Echizen

Providing secured and restricted access to digital objects, especially access to digital research data, for a general audience poses new challenges to memory institutions. For instance, to protect individuals, only anonymized or pseudonymized data should be released to a general audience. Standard procedures have been established over time to cope with privacy issues of non-interactive digital objects like text, audio and video. Appearances of identifiers and potentially also quasi-identifiers were removed by a simple overlay, e.g. in text documents such appearances were simply blackened out. Today’s digital artifacts, especially research data, have complex, non-linear and even interactive manifestations. Thus, a different approach to securing access to complex digital artifacts is required. This paper presents an architecture and technical methods to control access to digital research data.

Bewaren van research data wordt cruciaal voor kennisinstellingen.
Maar het is een heel complex probleem.

Zij richten zich vooral op bewaren van het proces.
EaaS.

Publicatie vs private Issues.
Er kan persoonlijke gegevens in zitten, bedrijfsgegevens die je niet naar buiten wilt e. A.

Als je in een intern netwerk zit, kun je de omgeving waarin de processen gebeuren controleren en loggen.
Je kunt dan ook het gedrag van de gebruikers controleren : je mag wel bepaalde data inzien, maar er maar bepaalde dingen mee doen.

Semi publieke demo is beschikbaar.