Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries #TPDL2013

Laat een reactie achter

Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries . Benjamin Kohncke and Wolf-Tilo Balke

Today, entity-centric searches are common tasks for information gathering. But, due to the huge amount of available information the entity itself is often not sufficient for finding suitable results. Users are usually searching for entities in a specific search context which is important for their relevance assessment. Therefore, for digital library providers it is inevitable to also consider this search context to allow for high quality retrieval. In this paper we present an approach enabling context searches for chemical entities. Chemical entities play a major role in many specific domains, ranging from biomedical over biology to material science. Since most of the domain specific documents lack of suitable context annotations, we present a similarity measure using cross-domain knowledge gathered from Wikipedia. We show that structure-based similarity measures are not suitable for chemical context searches and introduce a similarity measure combining entity- and context similarity. Our experiments show that our measure outperforms structure-based similarity measures for chemical entities. We compare against two baseline approaches: a Boolean retrieval model and a model using statistical query expansion for the context term. We compared the measures computing mean average precision (MAP) using a set of queries and manual relevance assessments from domain experts. We were able to get a total increase of the MAP of 30% (from 31% to 61%). Furthermore, we show a personalized retrieval system which leads to another increase of around 10%.

Veel informatie maar hoe krijg je die in een vraagstelling.
Methoden van onderzoek :
CAS heeft hoge kwaliteit, maar kost ook veel in onderhoud.
PubChem: Chemical entities data.

Veel gelijkenis in resultaten, vaak op fingerprint gebaseerd.
Hun achtergrond zorgt vaak voor een bepaalde search context.
Clusteren van die Chemical entities in een bepaalde context.
Als ze al geannoteerde waren – zoals MeSH- zou dat mooi zijn, maar in chemische domein is dat er niet.
We hebben wel Full – text, dat zou je kunnen filteren, maar dat werkt niet erg goed.
Vanuit Wikipedia hebben ze een profiel met chemische termen (er waren er 721) gehaald.
En op based daarvan een similarity measure gedaan voor 10% van de queries.
Daar nog wat andere meetmethoden aan toegevoegd om de personalisatie toe te voegen.
De entity en de termen in Wikipedia vergeleken.
Over 44k klinische studies onderzoek gedaan.
92% vonden ze toch in Wikipedia.

Met de Chemical entities werden de zoekacties 30 – 40 procent beter.
Leunt zwaar op de computing, maar veel van deze dingen kunnen preprocessed worden zodat de gebruiker alleen de zoektermen hoeft in te voeren. De personalisatie dient wel aangepast, dus als je een van hen in de buurt heb, of iemand die dat kan, dan is dat mogelijk.

Securing Access to Complex Digital Artifacts #TPDL2013

Laat een reactie achter

Securing Access to Complex Digital Artifacts – Towards a Controlled Processing Environment for Digital Research Data. (€) Johann Latocha, Klaus Rechert and Isao Echizen

Providing secured and restricted access to digital objects, especially access to digital research data, for a general audience poses new challenges to memory institutions. For instance, to protect individuals, only anonymized or pseudonymized data should be released to a general audience. Standard procedures have been established over time to cope with privacy issues of non-interactive digital objects like text, audio and video. Appearances of identifiers and potentially also quasi-identifiers were removed by a simple overlay, e.g. in text documents such appearances were simply blackened out. Today’s digital artifacts, especially research data, have complex, non-linear and even interactive manifestations. Thus, a different approach to securing access to complex digital artifacts is required. This paper presents an architecture and technical methods to control access to digital research data.

Bewaren van research data wordt cruciaal voor kennisinstellingen.
Maar het is een heel complex probleem.

Zij richten zich vooral op bewaren van het proces.

Publicatie vs private Issues.
Er kan persoonlijke gegevens in zitten, bedrijfsgegevens die je niet naar buiten wilt e. A.

Als je in een intern netwerk zit, kun je de omgeving waarin de processen gebeuren controleren en loggen.
Je kunt dan ook het gedrag van de gebruikers controleren : je mag wel bepaalde data inzien, maar er maar bepaalde dingen mee doen.

Semi publieke demo is beschikbaar.

Providing Meaningful Information in a Large Scale Digital Library #TPDL2013

Laat een reactie achter

Providing Meaningful Information in a Large Scale Digital Library – a Case Study. Laura Rueda, Suenje Dallmeier Tiessen, Patricia Herterich, Samuele Carli, Salvatore Mele and Simeon Warner

Emerging open science practices require persistent identification and citability of a diverse set of scholarly materials, from paper based materials to research data. This paper presents a case study of the digital library INSPIRE digital library and its approach to connecting persistent identifiers for scientific material and author identification.
The workflows developed under the ODIN project, connecting DataCite DOIs and ORCIDs, can serve as a best practice example for integrating external information into such digital libraries

INSPIRE is de High-Energy Physics Literature Database.

ODIN project: ORCID and DataCite Interoperability Network – is a two-year project which started in September 2012, funded by the European Commission’s ‘Coordination and Support Action’ under the FP7 programme. CERN maakt daar deel van uit, net als de British Library en arXiv en nog wat anderen.
Doel is persistent identifiers bijeen te brengen en daarmee een infrastructuur daarin te maken.

DOIs en  ORCIDs zijn methoden om data en researchers te identificeren

Ze hebben met dan 1 miljoen records vaak artikelen. Hun datasets zijn geen ruwe data, maar zeer bewerkt.
Gegevens komen van diverse providers.
Behalve de artikelen hebben ze ook banen, citatie gegevens, supplementary materiaal.

Grote lijst met auteurs die ergens aan meedoen, soms wel bijna 3000.

INSPIRE Harvest elke dag arXiv. Op dit moment geen DOI, maar dat wil arXiv wel gaan doen.

Doel alle informatie beschikbaar in RDF. Zodat anderen daar applicaties op kunnen bouwen.
Api via sparql queries. En data beschikbaar in RDF stores.

Data modelling via Dublin Core and FOAF.

CERIF wordt mogelijk daarin geïntegreerd.
Verbinden van ORCID met research data.

Personalizing Keyword Search on RDF data #TPDL2013

Laat een reactie achter

Personalizing Keyword Search on RDF data. Giorgos Giannopoulos, Evmorfia Biliri and Timos Sellis

Despite the vast amount on works on personalizing keyword search on unstructured data (i.e. web pages), there is not much work done handling RDF data. In this paper we present our first cut approach on personalizing keyword query results on RDF data. We adopt the well known Ranking SVM approach, by training ranking functions with RDF-specific training features. The training utilizes historical user feedback, in the form of ratings on the searched items. In order to do so, we join netflix and dbpedia datasets, obtaining a dataset where we can simulate personalized search scenarios for a number of discrete users. Our evaluation shows that our approach outperforms the baseline and, in cases, it scores very close to the ground truth

Ranking is ook hier weer belangrijk.
Input is Query of RDF of clickstream.
Bv als iemand zoekt naar woody allen films en in verleden vaak naar scarlett heeft gezocht.

RDF data schema.
We moeten training schema’s definiëren.
Complexe structuur van RDF is een probleem.
Er waren geen goede datasets ter evaluatie.
Dus namen ze dbpedia en Netflix en nog iets.

RSVM model trainen.
Dan RDF definities vastleggen
Elk keyword wordt gematcht aan een graph node.
En dan krijg je een gepersonaliseerde resultaat voor elk keyword.
En in de toekomst kunnen wr daar dan een grafisch resultaat van maken.

Paper maar even lezen

Methodology for Dynamic Extraction of Highly Relevant Information #TPDL2013

Laat een reactie achter

Methodology for Dynamic Extraction of Highly Relevant Information Describing Particular Object From Semantic Web Knowledge Base. Krzysztof Sielski, Justyna Walkowska and Marcin Werla

Exploration and information discovery in a big knowledge base that uses a complex ontology is often difficult, because relevant information may be spread over a number of related objects amongst many other, loosely connected ones. This paper introduces 3 types of relations between classes in an ontology and defines the term of RDF Unit to group relevant and closely connected information. The type of relation is chosen based on association strength in the context of particular ontology. This approach was designed and implemented to manipulate and browse data in a cultural heritage Knowledge Base with over 500M triples, created by PSNC during the SYNAT research projec

Uit Poznań.
Ha de ontologieen en de triples
Ze hadden data in verschillende formaten en aggregeerden die via Clepsydra.
Zo kregen ze een RDF database met meer dan 3 biljoen triples.
Event-centric ontology gebaseerd op CIDOC CRM.
En ze introduceerden FRBR om precieze bibliographische records te krijgen.
Aanvankelijk werden de records via Dublin Core ingevoerd.
33 connected objecten in 78 RDF triples.

Hoe krijg je informatie uit die knowledge base?
Via SParql queries.
Niet eenvoudig en lastig te onderhouden.

OWL relaties
1 Dependend link to mail resources
2 Attributen add important informatie
3 Loosely related objects

Zo kun je RDF units bouwen gebaseerd op de metaproperties van OWL relations.

Die hebben geen relaties met losjes gerelateerde objecten.

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations #TPDL2013

Laat een reactie achter

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations. Shenghui Wang, Antoine Isaac, Valentine Charles, Rob Koopman, Anthi Agoropoulou and Titia van der Werf

Huge amounts of cultural content have been digitised andare available through digital libraries and aggregators like, it is not easy for a user to have an overall picture of what is available nor to find related objects. We propose a method for hierarchically structuring cultural objects at different similarity levels. We describe a fast, scalable clustering algorithm with an automated field selection method for finding semantic clusters. We report a qualitative evaluation on the cluster categories based on records from the UK and  a quantitative one on the results from the complete Europeana dataset.

Dit is een bijdrage van OCLC en Europeana.
Grote schaal geaggregeerde data geeft vaak kwaliteit problemen zoals verdubbeling, soms van dezelfde, soms van andere providers, niet ideaal voor eindgebruikers.
Er is een variatie tussen interne en externe Links.
Soms alleen keywords searches en kun je niet alles vinden wat erin zit.
Snelle clustering is nodig en een hiërarchische structuur.
Eerst groeperen ze records die min of meer bijeenhoren.
Iteratief clustering, en kijken naar waar er wel en geen matches zijn.
Soms zijn diverse records wel van belang al lijken zeker op elkaar zoals verschillende versies van een song, of foto’s van een gebouw.

Focal semantic classes zien te vinden.
Maar dat is niet eenvoudig.
Als je alle metadata erbij haalt, klopt het ook niet meer omdat de beschrijvingen vaak anders zijn.
Belangrijke velden daarvoor aanwijzen.
Die dan tot een kunstmatig record maken en die verder clusteren.

Ze zijn uitgegaan van de ruim 1 miljoen records van de UK en hebben die bekeken.
Ze vobden: zelfde objecten, afgeleide objecten, onderdelen van een item, items van een bepaald thema.
Dat soort clusters kun je maken.
Voor de 23 miljoen records van de Europeana hebben ze dat ook gedaan. Dan zit je ook nog eens met meerdere talen.
Ze vonden op hoogste niveau 200k records die een hoge gelijkenis hadden.
Op niveau 80 zelfs anderhalf miljoen.
Hun algoritme is erg snel.

De meeste mensen gebruiken de velden niet maximaal en dat is voor de aggregators een probleem.

Je kunt dus volstaan met naar die records van de grootste gelijkenis kijken: die zijn vaak relevant.

Als je de metadata ziet zie je soms dat een aantal velden hetzelfde zijn, bijv afdeling en plaats waar twee verschillende mensen werken, maar ze toch een andere persoon voorstellen.
Dan komen de named identities weer om de hoek.

Users Requirements in Audiovisual Search: a Quantitative Approach #TPDL2013

Laat een reactie achter

Users Requirements in Audiovisual Search: a Quantitative Approach. Roeland Ordelman, Danish Nadeem, Robin Aly and Erwin Verbruggen

This paper reports on the results of a quantitative analysis of user requirements for audiovisual search that allow the categorisation of requirements and to compare requirements across user groups. The categorisation provides clear directions with respect to the prioritisation of system features from the perspective of the development of systems for specific, single user groups and systems that have a more general target user group.

Ha, weer een Nederlandse bijdrage!
Roeland presenteert.
Images for the future. 800k beeld en geluid.
Content is King but metadata rules.

Verschillende doelgroepen met verschillende behoeften: media, researchers publiek (entertainment)
Kwaliteit en kwantiteit.
Kwantitatieve benadering.
Conceptual mapping – > clustering analysis.

A/V search heeft speciale behoeften.
Categories visualisation

Veel opties voor Search manipuleren en resultaat tonen gewenst
Maar systeem moet wel duidelijk zijn.
Gebruikers willen best advanced search gebruiken maar hebben minder interesse in technische metadata.

Ze willen dat het systeem hen helpt. (niet alleen een help button )
Er is een onderscheid tussen wat gebruikers en professionals willen.

Verschil tussen wat users willen en wat profs belangrijk vinden:

2013-09-24 15.15.23


Project infiniti

Upcoming : home users & videos hyperlinking & bbc

Leuk praatje, leuk onderzoek, maar wat spreekt hij snel!!