Antal vd Bosch: Text mining #voginip

Laat een reactie achter

Van de website:

antalAntal van den Bosch
Hoogleraar aan de Radboud Universiteit bij het Centre for Language Studies en het Centre for Language and Speech Technology. Hij houdt zich onder meer bezig met onderzoek hoe computers taal kunnen leren begrijpen en genereren.
| web | twitter | scholar | G+ |
Lezing: “Text mining: automatische en grootschalige analyse van entiteiten en gebeurtenissen in tekst”
Voor text data mining zijn de afgelopen 20 jaar technieken ontwikkeld om greep te krijgen op informatie die in geschreven en gesproken tekst besloten ligt. Om dat te kunnen, moet je in de eerste plaats voldoende van de taal weten – en die problematiek is nog altijd niet volledig opgelost. In de tweede plaats gaat het om zo veel tekst dat je de technieken wel moet automatiseren, waarvoor slimme methoden van indexering en retrieval nodig zijn. Antal zal een aantal voorbeelden behandelen waarin deze problemen worden aangepakt. Informatie over personen, organisaties, plaats en tijd die wordt herkend in historische teksten (kranten, reisverslagen), kan worden gebruikt om daarin gebeurtenissen te ontdekken en te voorspellen. Uit actueel nieuws en dagelijkse tweets kan zinvolle informatie over gebeurtenissen worden afgeleid. Dit zal hij in verband brengen met toekomstige persoonlijke toepassingen voor informatie zoeken en recommendatie, zowel “negatief” (het filter bubble probleem) als “positief” (information liberation).

—-

Information vs language

Er is al heel veel curated info aanwezig, maar nog veel meer ‘vrije’ tekst.
54 miljard web pagina’s. In heel veel talen.
Geïndexeerde web en 1000 keer zo klein als web achter poortjes.
Taal is heel rijk, maar je kunt ook met taal dingen verbergen.
Bv Door een taal te speken die een ander niet verstaat.
Positie van waaruit je iets beschrijft kan groot verschil maken.
Lukt zeker niet om alle info die in de massa tekst zit eruit te peuren.

Echte informatie behoefte bijv
– wat zijn mogelijke reden van iets
– welke gebeurtenissen gaan er plaats vinden die impact kunnen hebben
Wat voort soort woorden kom je dan tegen.

Voorbeeld: stakingen die nooit gebeurd zijn.
Dat valt af te checken aan de database van stakingen die wel gebeurd zijn.
Zoek dan in kranten archief van de week ervoor : dan maak je soort spamfilter.
Die kun je op andere weken loslaten en kijken of dezelfde info daaruit komt.
Kb heeft een fantastisch archief van kranten berichten
Leuk onderzoek dat.

Voor Naturalistische en ANP hebben ze ook dat soort spamfilter gebouwd.
Predicting events in social media.

Machine vertaling, sprekersherkenning, data clearing.

Meertaligheid probleem.
OCR probleem bij kranten. (veel van t kb archief is vrij slecht van origine, toch kom je er een eind mee.)
Spraak herkenning.
Valkuilen et spelling correction

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit /  Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit /  Bijwerken )

Verbinden met %s