Word Occurrence Based Extraction of Work Contributors #TPDL2013

Laat een reactie achter

Word Occurrence Based Extraction of Work Contributors from Statements of Responsibility(€) . Nuno Freire

This paper addresses the identification of all contributors of an intellectual work, when they are recorded in bibliographic data but in unstructured form. National bibliographies are very reliable on representing the first author of a work, but frequently, secondary contributors are represented in the statements of responsibility that are transcribed by the cataloguer from the book into the bibliographic records. The identification of work contributors mentioned in statements of responsibility is a typical motivation for the application of information extraction techniques. This paper presents an approach developed for the specific application scenario of the ARROW rights infrastructure being deployed in several European countries to assist in the determination of the copyright status of works that may not be under public domain. Our approach performed reliably in most languages and bibliographic datasets of at least one million records, achieving precision and recall above 0.97 on five of the six evaluated datasets. We conclude that the approach can be reliably applied to other national bibliographies and languages.

ARROW is a tool to facilitate rights information management in any digitisation project involving text and image based works.
Ze maken informatie uit allerlei bronnen beschikbaar.
Mn de European Library. Die verzamelt de diverse nationale bibliografieën.
Alle verschillende versies en ‘manifestations’ van een bepaald werk dienen geïdentificeerd te worden en van de juiste verantwoordelijken te worden voorzien.
Meestal wordt de 1e auteur van de publicatie wel goed vermeld, maar de 2e vaak niet, en dan wordt die niet gevonden bij zoeken.

Named Entity recognition.

Als het systeem een naam niet vindt wordt deze toegevoegd.
Zie ook hun leaflet(pdf) en hun Factsheet

Problemen
– buitenlandse namen
– namen en organisaties die gelijk zijn
– 2 leden van een familie die samen schrijven en achternaam samen gebruiken (Jan en Sanne Terlouw).
Meestal gaat het vrij goed, maar voor talen met een ander alfabet (Griekenland) werkt het ook niet.

Virtual International Authority file zou helpen..
International Standards Name Identifier (alweer een)

—-
Opmerking publiek : uitgevers geven de informatie ook niet goed door.

Et al : (afbreken na 3 auteurs) hoe tackelen ze dat? Daar zijn ze inderdaad nog niet helemaal uit.

Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s