Hierarchical Structuring of Cultural Heritage Objects within Large Aggregations. Shenghui Wang, Antoine Isaac, Valentine Charles, Rob Koopman, Anthi Agoropoulou and Titia van der Werf
Huge amounts of cultural content have been digitised andare available through digital libraries and aggregators like Europeana.eu.However, it is not easy for a user to have an overall picture of what is available nor to find related objects. We propose a method for hierarchically structuring cultural objects at different similarity levels. We describe a fast, scalable clustering algorithm with an automated field selection method for finding semantic clusters. We report a qualitative evaluation on the cluster categories based on records from the UK and a quantitative one on the results from the complete Europeana dataset.
Dit is een bijdrage van OCLC en Europeana.
Grote schaal geaggregeerde data geeft vaak kwaliteit problemen zoals verdubbeling, soms van dezelfde, soms van andere providers, niet ideaal voor eindgebruikers.
Er is een variatie tussen interne en externe Links.
Soms alleen keywords searches en kun je niet alles vinden wat erin zit.
Snelle clustering is nodig en een hiërarchische structuur.
Eerst groeperen ze records die min of meer bijeenhoren.
Iteratief clustering, en kijken naar waar er wel en geen matches zijn.
Soms zijn diverse records wel van belang al lijken zeker op elkaar zoals verschillende versies van een song, of foto’s van een gebouw.
Focal semantic classes zien te vinden.
Maar dat is niet eenvoudig.
Als je alle metadata erbij haalt, klopt het ook niet meer omdat de beschrijvingen vaak anders zijn.
Belangrijke velden daarvoor aanwijzen.
Die dan tot een kunstmatig record maken en die verder clusteren.
Ze zijn uitgegaan van de ruim 1 miljoen records van de UK en hebben die bekeken.
Ze vobden: zelfde objecten, afgeleide objecten, onderdelen van een item, items van een bepaald thema.
Dat soort clusters kun je maken.
Voor de 23 miljoen records van de Europeana hebben ze dat ook gedaan. Dan zit je ook nog eens met meerdere talen.
Ze vonden op hoogste niveau 200k records die een hoge gelijkenis hadden.
Op niveau 80 zelfs anderhalf miljoen.
Hun algoritme is erg snel.
De meeste mensen gebruiken de velden niet maximaal en dat is voor de aggregators een probleem.
Je kunt dus volstaan met naar die records van de grootste gelijkenis kijken: die zijn vaak relevant.
Als je de metadata ziet zie je soms dat een aantal velden hetzelfde zijn, bijv afdeling en plaats waar twee verschillende mensen werken, maar ze toch een andere persoon voorstellen.
Dan komen de named identities weer om de hoek.