Providing Meaningful Information in a Large Scale Digital Library #TPDL2013

Laat een reactie achter

Providing Meaningful Information in a Large Scale Digital Library – a Case Study. Laura Rueda, Suenje Dallmeier Tiessen, Patricia Herterich, Samuele Carli, Salvatore Mele and Simeon Warner

Emerging open science practices require persistent identification and citability of a diverse set of scholarly materials, from paper based materials to research data. This paper presents a case study of the digital library INSPIRE digital library and its approach to connecting persistent identifiers for scientific material and author identification.
The workflows developed under the ODIN project, connecting DataCite DOIs and ORCIDs, can serve as a best practice example for integrating external information into such digital libraries

INSPIRE is de High-Energy Physics Literature Database.

ODIN project: ORCID and DataCite Interoperability Network – is a two-year project which started in September 2012, funded by the European Commission’s ‘Coordination and Support Action’ under the FP7 programme. CERN maakt daar deel van uit, net als de British Library en arXiv en nog wat anderen.
Doel is persistent identifiers bijeen te brengen en daarmee een infrastructuur daarin te maken.

DOIs en  ORCIDs zijn methoden om data en researchers te identificeren

Ze hebben met dan 1 miljoen records vaak artikelen. Hun datasets zijn geen ruwe data, maar zeer bewerkt.
Gegevens komen van diverse providers.
Behalve de artikelen hebben ze ook banen, citatie gegevens, supplementary materiaal.

Grote lijst met auteurs die ergens aan meedoen, soms wel bijna 3000.

INSPIRE Harvest elke dag arXiv. Op dit moment geen DOI, maar dat wil arXiv wel gaan doen.

Doel alle informatie beschikbaar in RDF. Zodat anderen daar applicaties op kunnen bouwen.
Api via sparql queries. En data beschikbaar in RDF stores.

Data modelling via Dublin Core and FOAF.

CERIF wordt mogelijk daarin geïntegreerd.
Verbinden van ORCID met research data.

Personalizing Keyword Search on RDF data #TPDL2013

Laat een reactie achter

Personalizing Keyword Search on RDF data. Giorgos Giannopoulos, Evmorfia Biliri and Timos Sellis

Despite the vast amount on works on personalizing keyword search on unstructured data (i.e. web pages), there is not much work done handling RDF data. In this paper we present our first cut approach on personalizing keyword query results on RDF data. We adopt the well known Ranking SVM approach, by training ranking functions with RDF-specific training features. The training utilizes historical user feedback, in the form of ratings on the searched items. In order to do so, we join netflix and dbpedia datasets, obtaining a dataset where we can simulate personalized search scenarios for a number of discrete users. Our evaluation shows that our approach outperforms the baseline and, in cases, it scores very close to the ground truth

Ranking is ook hier weer belangrijk.
Input is Query of RDF of clickstream.
Bv als iemand zoekt naar woody allen films en in verleden vaak naar scarlett heeft gezocht.

RDF data schema.
We moeten training schema’s definiëren.
Complexe structuur van RDF is een probleem.
Er waren geen goede datasets ter evaluatie.
Dus namen ze dbpedia en Netflix en nog iets.

RSVM model trainen.
Dan RDF definities vastleggen
Elk keyword wordt gematcht aan een graph node.
En dan krijg je een gepersonaliseerde resultaat voor elk keyword.
En in de toekomst kunnen wr daar dan een grafisch resultaat van maken.

Tsja.
Paper maar even lezen

Methodology for Dynamic Extraction of Highly Relevant Information #TPDL2013

Laat een reactie achter

Methodology for Dynamic Extraction of Highly Relevant Information Describing Particular Object From Semantic Web Knowledge Base. Krzysztof Sielski, Justyna Walkowska and Marcin Werla

Exploration and information discovery in a big knowledge base that uses a complex ontology is often difficult, because relevant information may be spread over a number of related objects amongst many other, loosely connected ones. This paper introduces 3 types of relations between classes in an ontology and defines the term of RDF Unit to group relevant and closely connected information. The type of relation is chosen based on association strength in the context of particular ontology. This approach was designed and implemented to manipulate and browse data in a cultural heritage Knowledge Base with over 500M triples, created by PSNC during the SYNAT research projec

Uit Poznań.
Ha de ontologieen en de triples
Ze hadden data in verschillende formaten en aggregeerden die via Clepsydra.
Zo kregen ze een RDF database met meer dan 3 biljoen triples.
Event-centric ontology gebaseerd op CIDOC CRM.
En ze introduceerden FRBR om precieze bibliographische records te krijgen.
Aanvankelijk werden de records via Dublin Core ingevoerd.
33 connected objecten in 78 RDF triples.

Hoe krijg je informatie uit die knowledge base?
Via SParql queries.
Niet eenvoudig en lastig te onderhouden.

OWL relaties
1 Dependend link to mail resources
2 Attributen add important informatie
3 Loosely related objects

Zo kun je RDF units bouwen gebaseerd op de metaproperties van OWL relations.

Die hebben geen relaties met losjes gerelateerde objecten.

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations #TPDL2013

Laat een reactie achter

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations. Shenghui Wang, Antoine Isaac, Valentine Charles, Rob Koopman, Anthi Agoropoulou and Titia van der Werf

Huge amounts of cultural content have been digitised andare available through digital libraries and aggregators like Europeana.eu.However, it is not easy for a user to have an overall picture of what is available nor to find related objects. We propose a method for hierarchically structuring cultural objects at different similarity levels. We describe a fast, scalable clustering algorithm with an automated field selection method for finding semantic clusters. We report a qualitative evaluation on the cluster categories based on records from the UK and  a quantitative one on the results from the complete Europeana dataset.

Dit is een bijdrage van OCLC en Europeana.
Grote schaal geaggregeerde data geeft vaak kwaliteit problemen zoals verdubbeling, soms van dezelfde, soms van andere providers, niet ideaal voor eindgebruikers.
Er is een variatie tussen interne en externe Links.
Soms alleen keywords searches en kun je niet alles vinden wat erin zit.
Snelle clustering is nodig en een hiërarchische structuur.
Eerst groeperen ze records die min of meer bijeenhoren.
Iteratief clustering, en kijken naar waar er wel en geen matches zijn.
Soms zijn diverse records wel van belang al lijken zeker op elkaar zoals verschillende versies van een song, of foto’s van een gebouw.

Focal semantic classes zien te vinden.
Maar dat is niet eenvoudig.
Als je alle metadata erbij haalt, klopt het ook niet meer omdat de beschrijvingen vaak anders zijn.
Belangrijke velden daarvoor aanwijzen.
Die dan tot een kunstmatig record maken en die verder clusteren.

Ze zijn uitgegaan van de ruim 1 miljoen records van de UK en hebben die bekeken.
Ze vobden: zelfde objecten, afgeleide objecten, onderdelen van een item, items van een bepaald thema.
Dat soort clusters kun je maken.
Voor de 23 miljoen records van de Europeana hebben ze dat ook gedaan. Dan zit je ook nog eens met meerdere talen.
Ze vonden op hoogste niveau 200k records die een hoge gelijkenis hadden.
Op niveau 80 zelfs anderhalf miljoen.
Hun algoritme is erg snel.

De meeste mensen gebruiken de velden niet maximaal en dat is voor de aggregators een probleem.

Je kunt dus volstaan met naar die records van de grootste gelijkenis kijken: die zijn vaak relevant.

Als je de metadata ziet zie je soms dat een aantal velden hetzelfde zijn, bijv afdeling en plaats waar twee verschillende mensen werken, maar ze toch een andere persoon voorstellen.
Dan komen de named identities weer om de hoek.

Users Requirements in Audiovisual Search: a Quantitative Approach #TPDL2013

Laat een reactie achter

Users Requirements in Audiovisual Search: a Quantitative Approach. Roeland Ordelman, Danish Nadeem, Robin Aly and Erwin Verbruggen

This paper reports on the results of a quantitative analysis of user requirements for audiovisual search that allow the categorisation of requirements and to compare requirements across user groups. The categorisation provides clear directions with respect to the prioritisation of system features from the perspective of the development of systems for specific, single user groups and systems that have a more general target user group.

Ha, weer een Nederlandse bijdrage!
Roeland presenteert.
Images for the future. 800k beeld en geluid.
Content is King but metadata rules.

Verschillende doelgroepen met verschillende behoeften: media, researchers publiek (entertainment)
Kwaliteit en kwantiteit.
Kwantitatieve benadering.
Conceptual mapping – > clustering analysis.

A/V search heeft speciale behoeften.
Categories visualisation

Veel opties voor Search manipuleren en resultaat tonen gewenst
Maar systeem moet wel duidelijk zijn.
Gebruikers willen best advanced search gebruiken maar hebben minder interesse in technische metadata.

Ze willen dat het systeem hen helpt. (niet alleen een help button )
Er is een onderscheid tussen wat gebruikers en professionals willen.

Verschil tussen wat users willen en wat profs belangrijk vinden:

2013-09-24 15.15.23

 

Project infiniti

Upcoming : home users & videos hyperlinking & bbc

Leuk praatje, leuk onderzoek, maar wat spreekt hij snel!!

AugDesk. Part1: Gesture Interactions #TPDL2013

Laat een reactie achter

AugDesk. Fusing Reality with the Virtual in Document Triage. Part1: Gesture Interactions Fernando Loizides, Aekaterini Mavri, Doros Polydorou, George Buchanan and Panayiotis Zaphiris

In this paper we present the first version of AugDesk, an affordable augmented reality prototype desk for sorting documents based on their relevance to an information need. The set-up is based on the findings from previous work in conjunction with a user-centred iterative design process to improve both the software and hardware configuration. In this initial version of the prototype the documents automatically appear on a table from an overhead projector and the user can control the movement and selection of these documents by using gestures, identified from a Microsoft Kinect Sensor. The first part of our work included recording users’ actions to identify the most popular interactions with virtual documents on a table and integrating these into AugDesk.

Bijdrage uit Cyprus
Gebruiken ook Leap motion.

Een relatief simpele interface.

Welke gebaren gebruik je het meeste?
Vergroten / accepteren / volgende pagina etc
Vaak hebben mensen al ervaring in gebruik door touch screen gebruik.
Hoe maak je een gebaar voor: dit even achterhouden?
Bewaren wordt vaak voorgesteld door een floppy disk, maar de huidige generatie kent die helemaal niet meer.

De resultaten hebben ze in een prototype gestopt.
En daarmee verder testen, ook met linkshandigen.

Exploring Large Digital Library Collections using a Map-based Visualisation #TPDL2013

1 Reactie

Exploring Large Digital Library Collections using a Map-based Visualisation. (€) Mark Michael Hall and Paul Clough

In this paper we describe a novel approach for exploring large document collections using a map-based visualisation. We use hierarchically structured semantic concepts that are attached to the documents to create a visualisation of the semantic space that resembles a Google Map. The approach is novel in that we exploit the hierarchical structure to enable the approach to scale to large document collections and to create a map where the higher levels of spatial abstraction have semantic meaning. An informal evaluation is carried out to gather subjective feedback from users. Overall results are positive with users finding the visualisation enticing and easy to use.

Een bijdrage uit Sheffield.
Ook cultural heritage.
Een searchbox zie je op al die digitale bibliotheek pagina’s. Maar dan heb je wel keywords nodig om op te kunnen zoeken.
Wat als je dat niet hebt?
Hoe maak je de collectie bruikbaar.
Un-focused exploration

Spatalisation: Om de semantisch space om te zetten in een 2 dimensionale ruimte
Maar die zijn beperkt, qua formaat dat ze aankunnen en door de complexiteit om juiste display te krijgen.

Dat kun je oplossen met een hiërarchische structuur, maar hoe kom je daar aan?
Daar zijn er wel veel van: Dewey, LCC, etc.
Maar een grote collectie is vaak samengesteld en heeft diverse hiërarchieën.
Je kunt er een maken vanuit Wikipedia. (link staat in paper). Volledig geautomatiseerde, domein – onafhankelijk en geen specialistisch taalgebruik.
Dan opschonen van de hiërarchie. Daarna Spatalisation.
Boomstructuur platter maken, dat staat beter dan erg diep indexeren.

Wat doe je met dingen die op twee plaatsen kunnen staan?
Zo diep mogelijk in de hiërarchie stoppen.
Op die manier heb je een thesaurus.

Het algoritme werkt bottum up, dus de meest specifieke eerst.

Voor elk topic gaan ze ‘scalen’ dan krijg je veel wit, dat comprimeren ze wat en resultaat is goed genoeg voor hun doel.
Je krijgt dan een soort Google Map waarop je kunt inzoomen.
Bij de eerste test bleek een kwart deze map als voorkeur aan te geven.
Maps gaan op hoger niveau goed, maar lager wordt t minder.
Moet nog wat realistischer worden.
En grote probleem: wat doe je met updaten? Dan moet je alles reprocessen.

Paths project

Leuk!