An Unsupervised Machine Learning Approach to Body Text and Table of Contents Extraction from Digital Scientific Articles. Stefan Klamp and Roman Kern
http://link.springer.com/chapter/10.1007%2F978-3-642-40501-3_15 (€)
Scientific articles are predominantly stored in digital document formats, which are optimised for presentation, but lack structural information. This poses challenges to access the documents’ content, for example for information retrieval. We have developed a processing pipeline that makes use of unsupervised machine learning techniques and heuristics to detect the logical structure of a PDF document. Our system uses only information available from the current document and does not require any pre-trained model. Starting from a set of contiguous text blocks extracted from the PDF file, we first determine geometrical relations between these blocks. These relations, together with geometrical and font information, are then used categorize the blocks into different classes.
Based on this logical structure we finally extract the body text and the table of contents of a scientific article. We evaluate our pipeline on a number of datasets and compare it with state-of-the-art document structure analysis approaches.
Een bijdrage uit Oostenrijk. Inderdaad zijn de artikelen vaak nog tezeer gebaseerd op gedrukte tekst.
Meestal in PDF formaat, maar dat heeft niet echt een gestructureerd formaat.
Ze werken vanuit PDFbox, en hebben een ‘pipeline’ gemaakt die gebruikt maakt van heuristics en automatische learning techniques.
Reading order
Aiello 2002 heeft daar een benadering van gemaakt.
A BeforeInReading B dan volgt daar iets uit.
Dat hebben ze aangepast.
Daarna categoriseren van teksten in blokken.
– metadata (gebaseerd op de Kern 2012)
– illustraties
– captions (tables, tab, figure)
Hoofdtekst zelf te identificeren door: grootste deel van document met vaste indeling (kolommen) en fonts.
Headings komen vlak voor (onderdelen van de) Hoofdtekst en zijn minstens net zo groot.
ToC extractie op basis van de headings.
Op basis van formaat krijgen ze dan een ander niveau.
Uitkomst
Ze hebben dat getest met een willekeurige set van 1000 artikelen uit Pubmed.
Hoofdstekst:
Recall is vrij goed, precision verliezen ze wat. Met name vanwege afbreekstreepjes.
Ze doen het veel beter dan off the shelve versie van ParsCit/SelectLabel.
Voor de ToC ging het ook vrij goed wel paar fouten maar stuk beter dan ParsCit.
‘Inherent noise’ in PDF zit ze wel dwars.
Best paper award