Tutorial : State-of-the-art Tools for Text Digitisation #TPDL13

Laat een reactie achter

Voor de conferentie lostbarst morgen zijn er eerst Tutorials.
ik heb me opgegeveven voor State-of-the-art Tools for Text Digitisation .

The goal of this tutorial (organised by the Succeed project1) is to provide a practical experience introducing participants to a number of state-of-the-art tools in digitisation and text processing which have been developed in recent research projects. The tutorial will focus on hands-on demonstration and on the testing of the tools in real-life situations, even those provided by the participants. The learning objectives are:

  • Gain practical insight of the most recent developments in text digitisation techniques.
  • Identify strengths and usability weaknesses of existing tools.
  • Reach a better knowledge on the effect of new tools and resources on the productivity.
  • Discuss the requirements and effects of their integration in the production workflow.

This tutorial will give participants a unique opportunity to gather information about tools created in research projects, to test and evaluate their usability and to find out how to benefit from the usage of these tools. Conversely, researchers will benefit from practitioner comments and suggestions.

Further information about the tools demonstrated and the tutorial program will be posted on http://succeed-project.eu/wiki/index.php/TPDL_Tutorial_State-of-the-art_tools_for_text_digitisation

De tutorial wordt gegeven door Bob Boelhouwer (Instituut voor Nederlandse Lexicologie) Adam Dudczak (Poznań Supercomputing and Networking Centre – PSNC) en Sebastian Kirch, Fraunhofer-Institut für Intelligente Analyse- und Informationssysteme – IAIS.
Slides komen op de site

Adam start, gevolgd door Sebastian. Bob na de pauze.
Eerst introductie rondje: meest mensen uit bibliotheken, paar vanuit speciale collecties. Meeste mensen willen eigen collectie digitalisering en willen dat beter doen.
Maar een enkele vanuit computer hoek.

Wat maakt digitalisering moeilijk?
Grote variatie materiaal: boeken, artikelen, lay-out, lettertypen, conditie materiaal
Groot aanbod tools hardware / software.
Digitaliseren is meer dan gewoon scannen!
Het ontbreekt ons aan de goede tools die je eenvoudig kunt gebruiken.
Stel je workflow vast (zie slide)

Post processing:
1 image enhancement
2 ocr
3 logica structureel analysis

Loop: hoe meer data je hebt, des te beter je OCR techniek wordt.
In Australië is t gelukt t gehele kranten archief te digitaliseren met behulp van ‘crowd’. Is natuurlijk overzichtelijker omdat ze later begonnen met kranten.

NLP
Stylometry: niemand weet precies hoe het werkt.
Adam Crymble.
(link komt in de slide )

Ngram viewer
Geeft indruk hoe de taal verandert over de jaren.
Kan als tool gebruikt worden, maar je moet er wel kritisch op blijven ivm ringel – s die vaak als f vertaald wordt door OCR. ‘prefumtion’

Matthew Hockers.
Plotte Notes.
Maakte visualisatie over auteurs en wie wie beïnvloedde.
19e eeuw literatuur genome.

Image enhancement
Digitale tekst kan doorzocht worden, pure plaatjes niet.
Vergroten discoverability, specifieke vragen kunnen beantwoorden, je hebt tools nodig die je daarin helpen.
Digitisation is ook een basis for New edition of old documents.

Image processing verbetert resultaat.
Je wilt de beste plaatjes bij de best geOCRde (leesbare) tekst.
Met More Advanced tools dan t ingebouwde OCR programma krijg je betere resultaten.

Scan verbeteren :
– page sitting
– border removal (kan lastig zijn als ze iets scheef zijn, of heel dicht aan de rand geprint )
– page curve removal (kostbaar materiaal snij je niet)
– deskewing correctie rotatie.
– contrast
– sharpening soms zijn bepaalde delen van een grote hoeveelheid onscherp
– artefact removal erg goed aanpassen aan persoonlijke behoefte.
– background separation soms erg gele achtergrond bij oude doorslagen of kopieën. Voorgrond is vaak lichtblauw
– binarisation tonale aanpassing van Background noise . Vergroot leesbaarheid erg. Geldt niet voor gehele plaatje maar voor een stukje.

Scan Tailor is open source dat een aantal van dit soort dingen kan zoals page splitsing, border remove, deskew, select content en makes all the pages the same size.
Dat zijn de basis zaken van Scan Taylor.
Er is veel meer van dit soort software.
Lastigste is de juiste tool te kiezen. (Zie zijn slide voor een aantal opties) .

OCR and post correction
Maken van digital tekst is of rechtstreeks intikken, of OCRen.
Soms is overtikken enige methode, al is het duur. Handschrift bijv.
Crowdsourcing kan daarvoor gebruikt worden.
Voor Gutenberg hebben ze dat voor n deel gedaan.
(Trove PG distribution proofteaders, Transcribe Bentham, Wikisource)
Online zetten van scans en vragen mensen te helpen.
Nadeel : mensen kunnen fouten maken, en je weet nooit wanneer t klaar is.

Met OCR heb je het beter in de hand.
Kwaliteit hangt van veel zaken af.
Slechte kwaliteit origineel, lage scanning resolutie, taal of font wordt niet ondersteund
Resolutie: meer dan 300 ppi voor boeken, 600 voor kranten.
Tekst lay-out: van boeken en kranten is heel verschillend.
Tekst formatting: juiste spatiering, lijnen, marges. Tabellen.

Hoe werkt OCR?
1 Preprocessing Type kiezen, binarization, deskew.
2 Lay-out analyse en delen selecteren.
3 Segmentatie in lijnen, tekst en karakters
4 karakter recognition vergelijken met karakters in database (daarom moet je juiste alfabet hebben)
5 preparation final text, combineren letters tot woorden en regels, spellingcontrole

Software
Abby finereader
Is de standaard, er is een desktop en een server editie.
De desktop is niet geschikt voor massa digitaliseren, de server editie wel.
Kan veel formaten aan.
Finereader XIX is geschikt voor historische documenten met Gotisch font. Is prijzig.
Kan rijke output naar OCR aan (FineReader XML)
Kan niet standaard karakters lezen.

Tesseract is het open source alternatief.
Google support het nu. Gebruikt het voor Google Books project.
Vrij stabiel nu.
Gratis, geen licenties.
Meestal als commando line
De user interfaces zijn niet zo erg geavanceerd, maar kan wel overal gebruikt.
Heeft support voor specifieke karakters.
Ook meerdere talen op een pagina kan hij aan.
Met meerdere kolommen op een pagina (als in kranten) heeft hij problemen mee.

Free OCRs
– OCRplus
– cuineform ocr

Paid
– Readers (used by Document Express, Acrobat)
– Omnipage

-koffiepauze –

Post OCR correction.
Zowel Tesseract als Finereader kan dat.
Meestal alleen op je computer, terwijl het juist een goede zou zijn voor crowdsourcing.
Maar daar heb je extra tools voor nodig.
(zie link op slide)

Verder
– Scriptio: plugin voor WordPress een omeka (tool voor digital Libraries) simpel, geen coördinaten. Maar kan aardig werken.
– wikisource. Based on Wikimedia.
– IBM concert lastig te vinden, is commercieel, maar heeft interessant uitgangspunt. Efficiënt
TPen speciaal voor manuscripten, open source, wordt veel gebruikt, ook tool voor hele infrastructuur
– ReChapta (Google)
– Moles (Nat Library of Finland) via een soort spelletje

Virtual transcription Library
Komt vanuit Poznań. Maakt oude teksten searchable, verzamelt tools op een pagina, customize OCR. Maak een project, initiële versie van transcriptie, kun je corrigeren, en exporteren voor verdere verwerking.
Handmatig metadata toevoegen, of die uploaden .
Png, jpg, tiff formaten van images die je via een zip file kunt uploaden.
Handschrift doet hij niet goed, maar daar de coördinaten zijn aangegeven kun je dat handmatig corrigeren.
VTL houdt bij wat er gewijzigd is, export naar epub/mobi/pdf.
Voorbeeld van een project: boekje van 18 pags duurt een uur en een kwartier.

Cutouts
Als je OCR training materiaal hebt en je deelt je te digitaliseren materiaal op, heb je beter resultaat.
Grote hoofdletters bijv markeren en bevestiging dat dit klopt.
Een beschadigd document krijgt een beter resultaat in Finereader dan in Tesseract. (volledige link naar report op de slide)

Logical structure analysis (LSA)
Blokken identificeren
– waar begint een onderdeel
– segmentatie in logische units
– plaatjes
– tabellen
– pagina nummerd
– headings

Waarom?
– Verbetert zoekresultaat, presentatie ervan
– Integratie in bestaande CMS.
– Nodig bij Content classificatie.

Hoe?
Artikel segmentatie
OCR > basic segmentatie > automatisch SA > manual postcorrection
Zonder handmatige aanpassen blijft het suboptimaal.

Newspaper Segmenteren
Semi automatisch workflow om krant en magazine artikelen te identificeren is ontwikkeld door Fraunhofer-Institut.
Is nog aardig lastig om dat te automatiseren, waarvoor vooral bij niet strak gestructureerde magazines.

Ebooks on demand: maakt een pdf voor iemand die een boek wil.
http://books2ebooks.eu/en
Functional Extension Parser 

Lexicon building

Linguïstics zijn nodig voor :
– OCR kwaliteit
– retrieval
– elucidation (dictionary look up)

Soorten
Tekst, zinnen, woord (formal, spelling ) woord (semantisch, NE, polariteit (positieve of negatief )

NE lexicon
NE named entities: namen die naar een specifieke lokatie, persoon of organisatie verwijzen.
Belangrijk dat die met wat variaties zijn ingevoerd in het lexicon van de OCR, zodat de persoon (etc) niet gemist wordt bij retrieval wanneer verkeerd gespeld.
Alle spellingsvarianten horen naar de juiste naam te leiden.

Er is er een aantal Lexicologie van de Impact projecten reeds aanwezig.

NE tagging hoort automatisch te gaan.
Statisch NE herkenning. Dan traint het systeem zichzelf vanuit een standaard dataset. Maar daarvoor heb je eerst een geannoteerde corpus nodig.
Tagging zal niet perfect zijn.
Verbeteren door grotere tekst in te voeren, og gazetteer list deel uit te laten maken van het trainingsmateriaal.

NE attestation tool
Voor een speciale taak ontwikkeld, alleen vandaag toegankelijk.
Hij kan er een handout van geven.

Lexicon Enrichment
Lemmatization, maar POS tagging, person name structure , variant matching, linken naar authority files.

Corpus based lexicon tool CoBaLT om het linken naar de authority file mogelijk te maken.
Deze tool is ook speciaal voor een bepaald doel gemaakt, maar is gemakkelijk aan te passen.

Namescape Named Entity Recognition
Hebben ze net ontwikkeld.

De Brieven als buit
Pas uitgekomen, brieven van Nederlandse schepen
Veel spellingsvarianten.
INL link.
http://www.inl.nl/onderzoek-a-onderwijs/projecten/brieven-als-buit

Slides (pdf)

Er is te weinig tijd voor de hands-on, en er zijn eigenlijk ook geen computers voor iedereen, dus dat is niet echt handig.
Aan de andere kant hebben we voldoende informatie om over na te denken.

Advertisements

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s