Methodology for Dynamic Extraction of Highly Relevant Information #TPDL2013

Laat een reactie achter

Methodology for Dynamic Extraction of Highly Relevant Information Describing Particular Object From Semantic Web Knowledge Base. Krzysztof Sielski, Justyna Walkowska and Marcin Werla

Exploration and information discovery in a big knowledge base that uses a complex ontology is often difficult, because relevant information may be spread over a number of related objects amongst many other, loosely connected ones. This paper introduces 3 types of relations between classes in an ontology and defines the term of RDF Unit to group relevant and closely connected information. The type of relation is chosen based on association strength in the context of particular ontology. This approach was designed and implemented to manipulate and browse data in a cultural heritage Knowledge Base with over 500M triples, created by PSNC during the SYNAT research projec

Uit Poznań.
Ha de ontologieen en de triples
Ze hadden data in verschillende formaten en aggregeerden die via Clepsydra.
Zo kregen ze een RDF database met meer dan 3 biljoen triples.
Event-centric ontology gebaseerd op CIDOC CRM.
En ze introduceerden FRBR om precieze bibliographische records te krijgen.
Aanvankelijk werden de records via Dublin Core ingevoerd.
33 connected objecten in 78 RDF triples.

Hoe krijg je informatie uit die knowledge base?
Via SParql queries.
Niet eenvoudig en lastig te onderhouden.

OWL relaties
1 Dependend link to mail resources
2 Attributen add important informatie
3 Loosely related objects

Zo kun je RDF units bouwen gebaseerd op de metaproperties van OWL relations.

Die hebben geen relaties met losjes gerelateerde objecten.

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations #TPDL2013

Laat een reactie achter

Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations. Shenghui Wang, Antoine Isaac, Valentine Charles, Rob Koopman, Anthi Agoropoulou and Titia van der Werf

Huge amounts of cultural content have been digitised andare available through digital libraries and aggregators like Europeana.eu.However, it is not easy for a user to have an overall picture of what is available nor to find related objects. We propose a method for hierarchically structuring cultural objects at different similarity levels. We describe a fast, scalable clustering algorithm with an automated field selection method for finding semantic clusters. We report a qualitative evaluation on the cluster categories based on records from the UK and  a quantitative one on the results from the complete Europeana dataset.

Dit is een bijdrage van OCLC en Europeana.
Grote schaal geaggregeerde data geeft vaak kwaliteit problemen zoals verdubbeling, soms van dezelfde, soms van andere providers, niet ideaal voor eindgebruikers.
Er is een variatie tussen interne en externe Links.
Soms alleen keywords searches en kun je niet alles vinden wat erin zit.
Snelle clustering is nodig en een hiërarchische structuur.
Eerst groeperen ze records die min of meer bijeenhoren.
Iteratief clustering, en kijken naar waar er wel en geen matches zijn.
Soms zijn diverse records wel van belang al lijken zeker op elkaar zoals verschillende versies van een song, of foto’s van een gebouw.

Focal semantic classes zien te vinden.
Maar dat is niet eenvoudig.
Als je alle metadata erbij haalt, klopt het ook niet meer omdat de beschrijvingen vaak anders zijn.
Belangrijke velden daarvoor aanwijzen.
Die dan tot een kunstmatig record maken en die verder clusteren.

Ze zijn uitgegaan van de ruim 1 miljoen records van de UK en hebben die bekeken.
Ze vobden: zelfde objecten, afgeleide objecten, onderdelen van een item, items van een bepaald thema.
Dat soort clusters kun je maken.
Voor de 23 miljoen records van de Europeana hebben ze dat ook gedaan. Dan zit je ook nog eens met meerdere talen.
Ze vonden op hoogste niveau 200k records die een hoge gelijkenis hadden.
Op niveau 80 zelfs anderhalf miljoen.
Hun algoritme is erg snel.

De meeste mensen gebruiken de velden niet maximaal en dat is voor de aggregators een probleem.

Je kunt dus volstaan met naar die records van de grootste gelijkenis kijken: die zijn vaak relevant.

Als je de metadata ziet zie je soms dat een aantal velden hetzelfde zijn, bijv afdeling en plaats waar twee verschillende mensen werken, maar ze toch een andere persoon voorstellen.
Dan komen de named identities weer om de hoek.

Users Requirements in Audiovisual Search: a Quantitative Approach #TPDL2013

Laat een reactie achter

Users Requirements in Audiovisual Search: a Quantitative Approach. Roeland Ordelman, Danish Nadeem, Robin Aly and Erwin Verbruggen

This paper reports on the results of a quantitative analysis of user requirements for audiovisual search that allow the categorisation of requirements and to compare requirements across user groups. The categorisation provides clear directions with respect to the prioritisation of system features from the perspective of the development of systems for specific, single user groups and systems that have a more general target user group.

Ha, weer een Nederlandse bijdrage!
Roeland presenteert.
Images for the future. 800k beeld en geluid.
Content is King but metadata rules.

Verschillende doelgroepen met verschillende behoeften: media, researchers publiek (entertainment)
Kwaliteit en kwantiteit.
Kwantitatieve benadering.
Conceptual mapping – > clustering analysis.

A/V search heeft speciale behoeften.
Categories visualisation

Veel opties voor Search manipuleren en resultaat tonen gewenst
Maar systeem moet wel duidelijk zijn.
Gebruikers willen best advanced search gebruiken maar hebben minder interesse in technische metadata.

Ze willen dat het systeem hen helpt. (niet alleen een help button )
Er is een onderscheid tussen wat gebruikers en professionals willen.

Verschil tussen wat users willen en wat profs belangrijk vinden:

2013-09-24 15.15.23

 

Project infiniti

Upcoming : home users & videos hyperlinking & bbc

Leuk praatje, leuk onderzoek, maar wat spreekt hij snel!!

AugDesk. Part1: Gesture Interactions #TPDL2013

Laat een reactie achter

AugDesk. Fusing Reality with the Virtual in Document Triage. Part1: Gesture Interactions Fernando Loizides, Aekaterini Mavri, Doros Polydorou, George Buchanan and Panayiotis Zaphiris

In this paper we present the first version of AugDesk, an affordable augmented reality prototype desk for sorting documents based on their relevance to an information need. The set-up is based on the findings from previous work in conjunction with a user-centred iterative design process to improve both the software and hardware configuration. In this initial version of the prototype the documents automatically appear on a table from an overhead projector and the user can control the movement and selection of these documents by using gestures, identified from a Microsoft Kinect Sensor. The first part of our work included recording users’ actions to identify the most popular interactions with virtual documents on a table and integrating these into AugDesk.

Bijdrage uit Cyprus
Gebruiken ook Leap motion.

Een relatief simpele interface.

Welke gebaren gebruik je het meeste?
Vergroten / accepteren / volgende pagina etc
Vaak hebben mensen al ervaring in gebruik door touch screen gebruik.
Hoe maak je een gebaar voor: dit even achterhouden?
Bewaren wordt vaak voorgesteld door een floppy disk, maar de huidige generatie kent die helemaal niet meer.

De resultaten hebben ze in een prototype gestopt.
En daarmee verder testen, ook met linkshandigen.

Exploring Large Digital Library Collections using a Map-based Visualisation #TPDL2013

1 Reactie

Exploring Large Digital Library Collections using a Map-based Visualisation. (€) Mark Michael Hall and Paul Clough

In this paper we describe a novel approach for exploring large document collections using a map-based visualisation. We use hierarchically structured semantic concepts that are attached to the documents to create a visualisation of the semantic space that resembles a Google Map. The approach is novel in that we exploit the hierarchical structure to enable the approach to scale to large document collections and to create a map where the higher levels of spatial abstraction have semantic meaning. An informal evaluation is carried out to gather subjective feedback from users. Overall results are positive with users finding the visualisation enticing and easy to use.

Een bijdrage uit Sheffield.
Ook cultural heritage.
Een searchbox zie je op al die digitale bibliotheek pagina’s. Maar dan heb je wel keywords nodig om op te kunnen zoeken.
Wat als je dat niet hebt?
Hoe maak je de collectie bruikbaar.
Un-focused exploration

Spatalisation: Om de semantisch space om te zetten in een 2 dimensionale ruimte
Maar die zijn beperkt, qua formaat dat ze aankunnen en door de complexiteit om juiste display te krijgen.

Dat kun je oplossen met een hiërarchische structuur, maar hoe kom je daar aan?
Daar zijn er wel veel van: Dewey, LCC, etc.
Maar een grote collectie is vaak samengesteld en heeft diverse hiërarchieën.
Je kunt er een maken vanuit Wikipedia. (link staat in paper). Volledig geautomatiseerde, domein – onafhankelijk en geen specialistisch taalgebruik.
Dan opschonen van de hiërarchie. Daarna Spatalisation.
Boomstructuur platter maken, dat staat beter dan erg diep indexeren.

Wat doe je met dingen die op twee plaatsen kunnen staan?
Zo diep mogelijk in de hiërarchie stoppen.
Op die manier heb je een thesaurus.

Het algoritme werkt bottum up, dus de meest specifieke eerst.

Voor elk topic gaan ze ‘scalen’ dan krijg je veel wit, dat comprimeren ze wat en resultaat is goed genoeg voor hun doel.
Je krijgt dan een soort Google Map waarop je kunt inzoomen.
Bij de eerste test bleek een kwart deze map als voorkeur aan te geven.
Maps gaan op hoger niveau goed, maar lager wordt t minder.
Moet nog wat realistischer worden.
En grote probleem: wat doe je met updaten? Dan moet je alles reprocessen.

Paths project

Leuk!

Word Occurrence Based Extraction of Work Contributors #TPDL2013

Laat een reactie achter

Word Occurrence Based Extraction of Work Contributors from Statements of Responsibility(€) . Nuno Freire

This paper addresses the identification of all contributors of an intellectual work, when they are recorded in bibliographic data but in unstructured form. National bibliographies are very reliable on representing the first author of a work, but frequently, secondary contributors are represented in the statements of responsibility that are transcribed by the cataloguer from the book into the bibliographic records. The identification of work contributors mentioned in statements of responsibility is a typical motivation for the application of information extraction techniques. This paper presents an approach developed for the specific application scenario of the ARROW rights infrastructure being deployed in several European countries to assist in the determination of the copyright status of works that may not be under public domain. Our approach performed reliably in most languages and bibliographic datasets of at least one million records, achieving precision and recall above 0.97 on five of the six evaluated datasets. We conclude that the approach can be reliably applied to other national bibliographies and languages.

ARROW is a tool to facilitate rights information management in any digitisation project involving text and image based works.
Ze maken informatie uit allerlei bronnen beschikbaar.
Mn de European Library. Die verzamelt de diverse nationale bibliografieën.
Alle verschillende versies en ‘manifestations’ van een bepaald werk dienen geïdentificeerd te worden en van de juiste verantwoordelijken te worden voorzien.
Meestal wordt de 1e auteur van de publicatie wel goed vermeld, maar de 2e vaak niet, en dan wordt die niet gevonden bij zoeken.

Named Entity recognition.

Als het systeem een naam niet vindt wordt deze toegevoegd.
Zie ook hun leaflet(pdf) en hun Factsheet

Problemen
– buitenlandse namen
– namen en organisaties die gelijk zijn
– 2 leden van een familie die samen schrijven en achternaam samen gebruiken (Jan en Sanne Terlouw).
Meestal gaat het vrij goed, maar voor talen met een ander alfabet (Griekenland) werkt het ook niet.

Virtual International Authority file zou helpen..
International Standards Name Identifier (alweer een)

—-
Opmerking publiek : uitgevers geven de informatie ook niet goed door.

Et al : (afbreken na 3 auteurs) hoe tackelen ze dat? Daar zijn ze inderdaad nog niet helemaal uit.

Entity Network Extraction based on Association Finding and Relation Extraction #TPLD2013

Laat een reactie achter

Entity Network Extraction based on Association Finding and Relation Extraction. (€) Ridho Reinanda, Marta Utama, Fridus Steijlen and Maarten de Rijke

One of the core aims of semantic search is to directly present users with information instead of lists of documents. Various entity-oriented tasks have been or are being considered, including entity search and related entity finding. In the context of digital libraries for computational humanities, we consider another task, network extraction: given an input entity and a document collection, extract related entities from the collection and present them as a network. We develop a combined approach for entity network extraction that consists of a co-occurrencebased approach to association finding and a machine learning-based approach to relation extraction. We evaluate our approach by comparing the results on a ground truth obtained using a pooling method.

Een Nederlandse bijdrage.
Interessant! die kant moeten we denk ik wel op.
Hoe liggen relaties in netwerken, waar zitten belangrijke ‘actors’.

Scoring methoden:
Association Finding : (statistische bewerking)
Relation Extraction daaraan kun je zien of ze related zijn of niet.

Ranking is belangrijk voor visualisatie en interpretatie.

Vraagstelling – document selectie – entity extraction – entity ranking – graph

Document moet eerst wel voorbereid worden (geindexeerd).

Grote dataset >120.000 documenten uit 2000-2012.
Ze moeten in elk geval wel een snippet hebben.
De twee scorings methoden gaven wel verschillende resultaten.
Je kunt ze combineren en dan wordt het totale resultaat beter.

Uitkomst
Goede recall maar lage precisie.
Eenvoudige topics hebben betrouwbaardere snippets dan moeilijke onderwerpen.

Vraag: je ziet wel de relatie, maar de aard van de relatie niet.
Antwoord : dat gaan we bij de volgende stap doen.
Is nog lastiger

Erg technisch verhaal

An Unsupervised Machine Learning Approach To Body Text #TPDL2013

Laat een reactie achter

An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles. Stefan Klamp and Roman Kern

http://link.springer.com/chapter/10.1007%2F978-3-642-40501-3_15 (€)

Scientific articles are predominantly stored in digital document formats, which are optimised for presentation, but lack structural information. This poses challenges to access the documents’ content, for example for information retrieval. We have developed a processing pipeline that makes use of unsupervised machine learning techniques and heuristics to detect the logical structure of a PDF document. Our system uses only information available from the current document and does not require any pre-trained model. Starting from a set of contiguous text blocks extracted from the PDF file, we first determine geometrical relations between these blocks. These relations, together with geometrical and font information, are then used categorize the blocks into different classes.
Based on this logical structure we finally extract the body text and the table of contents of a scientific article. We evaluate our pipeline on a number of datasets and compare it with state-of-the-art document structure analysis approaches.

Een bijdrage uit Oostenrijk. Inderdaad zijn de artikelen vaak nog tezeer gebaseerd op gedrukte tekst.
Meestal in PDF formaat, maar dat heeft niet echt een gestructureerd formaat.
Ze werken vanuit PDFbox, en hebben een ‘pipeline’ gemaakt die gebruikt maakt van heuristics en automatische learning techniques.

Reading order
Aiello 2002 heeft daar een benadering van gemaakt.
A BeforeInReading B dan volgt daar iets uit.
Dat hebben ze aangepast.

Daarna categoriseren van teksten in blokken.
– metadata (gebaseerd op de Kern 2012)
– illustraties
– captions (tables, tab, figure)

Hoofdtekst zelf te identificeren door: grootste deel van document met vaste indeling (kolommen) en fonts.

Headings komen vlak voor (onderdelen van de) Hoofdtekst en zijn minstens net zo groot.

ToC extractie op basis van de headings.
Op basis van formaat krijgen ze dan een ander niveau.

Uitkomst
Ze hebben dat getest met een willekeurige set van 1000 artikelen uit Pubmed.
Hoofdstekst:
Recall is vrij goed, precision verliezen ze wat. Met name vanwege afbreekstreepjes.
Ze doen het veel beter dan off the shelve versie van ParsCit/SelectLabel.

Voor de ToC ging het ook vrij goed wel paar fouten maar stuk beter dan ParsCit.

‘Inherent noise’ in PDF zit ze wel dwars.

Best paper award

Digital Libraries and eInfrastructures – The Future? #TPDL2013

1 Reactie

Key Note

Digital Libraries and eInfrastructures – The Future?  ($) Chaired by Wim Jansen

The digital ICT revolution is profoundly changing the way knowledge is created, communicated and is being deployed. New research methods based on computing and “big data” enable new means and forms for scientific collaboration also through policy measures supporting open access to data and research results. The exponential growth of digital resources and services is supported by the deployment of e-Infrastructure, which allows researchers to access remote facilities, run complex simulations or to manage and exchange unprecedented amounts of digital data.
This panel will bring together leading e-Infrastructure experts coming from different subject domains addressing a range of different types of digital materials, services and collaborative tools supporting a variety of research communities to discuss with the Digital Libraries community the challenges modern research brings in terms of
efficiency and relevance for an open research society

Er zijn diverse projecten op het gebied van de digitalisering als

 
Wim Jansen

De titel in de officiële uitgave is gewijzigd, oa is het vraagteken vervangen door een uitroepteken.
e-Infrastructures and Digital Libraries – The Future!

Horizon 2020

Samenwerking tussen publiek en wetenschap is een van de diverse bij de verandering naar Open access.
Open culture between disciplines.

Challenges ao are :
Sustainability and funding.
Governance, Innovation.

Virtual research environment.

A lot of details are still not endorsed by the members states.
Pas einde 2014 zijn de Calls rond.

Yannis Ioannides.
Was: usage – search management – content
In het verleden ad hoc systemen, maar evengoed veel overeenkomsten.
Nu zou je verwachten dat er meer ‘generic core’ was.
Mensen die dezelfde content gebruiken.

Future: embedded and transparant.
De generic core wordt ergens onderhouden en meer communities komen erbij er worden op dezelfde manier toegankelijk. Interconnected.
Zodat je een wereldomvattende structuur hebt.

OpenAIRE.
Bovenop die core bouw je speciale applicaties voor speciale toepassingen.
Use and reuse that is the future.

OpenAIREplus
(verbindt publicaties met data) Dlib artikel.
http://www.dlib.org/dlib/september12/manghi/09manghi.html

(praatje van iemand zonder ppt.. Sla ik even over…)

Digital universe
Digital Libraries is een van de redenen van data explosie.
5 zettabytes.
60 procent verdwijnt omdat het niet belangrijk is of omdat we niet voldoende opslagcapaciteit hebben.

1 Waar opslaan
2 Hoe te vinden
3 Hoe beste te gebruiken

Issues : Interoperability en sustainability van diensten.

EUDAT.
Hoeveel data management systemen kunnen we onderhouden?
EUDAT, gestart in 2011 wil daarvoor een infrastructuur ontwerpen.
5 research communities zitten er in.
Vanuit een portaal diverse diensten aanbieden.
Kosten efficiëncy hopen ze ermee te bereiken.

Antolella Fresa
DCH-RP.
Duur want deze data is door menselijke tussenkomst verzameld.
Data is complex en interlinked.
Gaat 10 20 biljoen gaat het kosten om dit te bewaren.
Zaak om dit op te slaan maar ook kosten te besparen.
Men verwacht van de infrastructuur dat ze dat kan bereiken, tesamen met faciliteren van opslag, visualisatie etc.
Integratie van die diensten, toevoegen van aantal grote en kleine instellingen.

Michel Dreschler
EGI. Innovatieve ICT diensten aan elkaar verbinden.
35 landen doen mee, gestationeerd in Amsterdam.
Ze zien t niet als infrastructuur maar meer als samenwerking.
Egi-inspire project.
Zie de slides

Hoe kunnen infrastructures onderzoekers helpen?
CHAINred
Bestaande publicaties en data verbinden.
Harmoniseren van bestaande structuren.
Standaarden ontwikkelen.
En een demonstrator ontwikkelen.
OADRs open access document repositories en Data repositories.
Vaak wil je bepaalde data hebben, maar weet je niet precies waar je die kunt vinden.
Linked data semantic research: Semantische verrijking.
22 miljoen resources.
Zo kun je nieuwe informatie ontdekken.
Data infrastructure is een belangrijk onderdeel van de e-Infrastructure.
Hij nodigt andere repository managers uit deel te nemen daaraan.

Matthias Hemmje
Shaman
Architecture en Grid gebruik.
Afgelopen project.

Parse.Insight
Heeft Roadmap opgeleverd.
Standaarden.

Nick Poole
Er zit al veel geld in de ontwikkeling van de ‘cultural heritage’.
Bestaande modellen deugen niet meer.
Met de bibliotheken gaat t vaak ook niet best, ze zien het vaak als extra belasting en niet als iets waar ze zelf wat aan hebben.
‘Human factor ‘ wordt te weinig gezien. Techniek is niet het probleem, motivatie is.

(cultuurprobleem inderdaad.)

Evidence, Evidence, Evidence

Discussie

Goede vraag moeten we alles bewaren, is t niet zo dat we betere filters nodig hebben.
Kwam niet echt een antwoord op.

Door t bouwen van die infrastructuren wordt standaardisatie ook van groot belang.
Van belang is ook dat de opslag betrouwbaar is. Beste als dat geautomatiseerd gebeurt. Certification and audit
Iemand zegt dat I meer geïnteresseerd is in risk management dan in certificaten. Dus appraisal. Maar volgens Matthias is appraisal driven by the market.

Dus weer een nieuw project…
En ik vraag me af:
… En hoe efficiënt werken al die Europese acroniemen samen?

Minute Madness posters en demo’s #TPDL2013

Laat een reactie achter

Minute Madness

Chaired by Jose Borbinha

Grappig, de vertegenwoordigers van de ingezonden posters staan aan de kant en krijgen 1 minuut om hun presentatie te geven.
wpid-wp-1379950967010.jpg

Aardige vragen / statements / onderzoeken / gedachten :

Is de content in a repository usefull?
(gewetensvraag) iemand heeft er onderzoek naar gedaan.
http://campus.hesge.ch/id_bilingue/projekte/peci/default.asp

Hoe benaderen onderzoekers een nieuw onderzoeksgebied.

Heeft het zin om meer dan 1x aanbevelingen te geven voor onderzoekspapers ? Soms ja. Docear geeft aanbevelingen voor research papers. Grappig is dat je als je ouder bent je vaker op die aanbevelingen klikt.
http://www.docear.org/

Polimedia is een Nederlands product. Politiek en media koppelen.
http://www.polimedia.nl/

Search filters zijn gebruikelijk, maar worden ze ook gebruikt? Blijkt uit een eye tracking studie dat ze veel gebruikt worden. Dus zinvol ja.

Kun je keyword zoekacties opbreken in RDF graphs

Ebooks on demand.
Geldt voor boeken in het publieke domein.
http://books2ebooks.eu/en

Benadering: ‘If you put it on the net the public will come’ vs Content selection eerst dan digitaliseren.
Cymruww1.llgc.org.uk
image

Als je research data bewaart en opslaat en het dan later weer uitvoert, doet het proces dan nog hetzelfde?

Kun je nagaan en visualiseren wie wat in het parlement heeft gezegd?

Metaindex voor boeken: een enkele index voor een heleboel boeken.

Second life still exists en er wordt onderzoek gedaan. Een academische variant
http://vacademia.com/

http://www.tpdl2013.info/accepted.php#posters

Ze staan ook in het Springer boek.