GO cursus Semantisch zoeken deel 2

Laat een reactie achter

Vervolg van de ochtend

Facebook graph search wertk alleen als je de taal verzet naar English US.

Dan krijg je ook een merkwaardige hoeveelheid suggesties bijv met vragen als ‘Favorite books of people who …”
Wat voorbeeld searches http://wrightimc.com/blog/2013/08/12/the-giant-list-of-facebook-graph-search-queries/

Bepalen van betekenis

Gestandaardiseerde markering van kenmerken van webpagina’s

  • recipe search bij Google
  • toepasing e-commerce ontology

Standaarden daarbij: microformats (rich snippets) metadata en RDFa.
Google recepten zit sinds kort ergens anders en is t veel onoverzichtelijker geworden. Bij Yahoo is t handiger: http://recipes.search.yahoo.com/
In Chrome kun je browser extensies installeren om de embedded metadata overzichtelijker te tonen.

RDFa standaarden zijn gegevens waarbij in de ‘property’  op de XHTML pagina  codes zijn opgenomen uit de GoodRelations ontology met termen (waneer er bijv een bedrag genoemd wordt) als : hasCurrency en hasPriceType.
Google, Yahoo, Bing en Yandex gebruiken Schema.org als standaard: hierin zijn ook de GoodRelations termen geincorporeerd.

Examining Real World Uses Of Rich Snippets & Markup (SearchengineLand) vaak is dit vanuit de searchoptimalisatie techniek.
De zoeker kan gerichter zoeken en filteren, maar ook in de snippets kan duidelijkere informatie getoond worden.

Microdata.reveal en Semantic insepctor zijn browser tools voor Chrome. Een andere is de Creative commons laser highlighter.
Als je die geïnstalleerd hebt zie je icoontje bovenaan wanneer dat van toepassing is, en als je daarop klikt zie je ze ingrediënten ed overzichtelijker dan vaak op de pagina staat.
Goodreads en Last.fm makenook gebruik van metadata.
Google heeft ook zoiets als de ‘Structured Data Testing Tool’: http://www.google.com/webmasters/tools/richsnippets daar plak je dan een url in en toont hij het wat overzichtelijker. voordeel is dat je geen extensies hoeft te installeren.

Resource Description Framework (RDF)

RDF is standaard waarmee relaties tussen object en metadata wordt beschreven.
Via Namespaces wordt naar gebruikte metadatastandaarden te verwijzen.RDF is bedoeld om bestaande semantische systemen te hergebruiken RDF in XNML en RDFa ook in HTML pagina’s.

Eigenschappen worden vastgelegd in Triples: subject <predicaat> object waarbij het te beschrijven ding een URI (webadres) heeft, en de eigenschap en waarde liefst ook.
Voorbeeld: Shakespeare is de auteur van Hamlet.
Triples worden opgesalgen in een triple store.

VIAF: The Virtual International Authority File

The VIAF™ (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

Mensen en adressen in FOAF http://www.foaf-project.org/
Titels in Dublin Core
RDF browser: http://graphite.ecs.soton.ac.uk/browser/

Ontologieen
Vanuit filosofie afkomstig: vastleggen van betekenissen.”kennis-representatie” warin een stukje van de werkelijkheid geformaliseerd is weergegeven. Gaat verder dan een thesaurus: meer soorten relaties dan BT en NT. Wordt meestal niet rechtstreeks voor een ontsluiting gebruikt. Biedt ook mogelijkheid tot redenaties. Vastgelegde rollen en eigenschappen.

Core ontology is wat breder: bijv hele culturele erfgoed. CIDOC conceptual reference model zie voorbeeld veeld van Rodin http://www.cidoc-crm.org/crm_core/core_examples/balzac.html

In het kader van het semantische web wordt het vaak meer in algemene zin gebruikt en is het een aanduiding van een onderwerpsontsluiting. Computerleesbaar en geformaliseerd. Waarmee getracht wordt allerlei systemen interoperabel te maken. In Europeana wordt het toegepast.

Oude codes voor standaarden van beschrijvingselementen waren: v / mo / foaf / owl / geo al deze zaken worden nu vervangen door schema.org.
mo = muziek ontology

_______

Opdracht

________

Zoekmachines

Linked data

Via triples doorlinken naar andere data. Moet al wel voorgeprogrammeerd zijn.
Bedoeling: hergebruik, dus ook gestandardiseerd. Kan open of  niet  open zijn. Iedereen kan bijdragen, dus kan soms wat rommelig worden.
Worden bewaard in triple stores met zoektalen als SPARQL: is nog behoorlijk lastig / gespecialiseerd.
Endpoints zijn toegangspunten op het web waar je SPARQL zoekacties op RDF triple stores kunt uitvoeren.

3. Verbeteren van zoekacties

Vooraf en al dan niet geautomatiseerd.
Gebaseerd op statistiek, spelling, woordstam,.
Toevoegen van synoniemen, acroniemen en verwante en specifiekere begrippen aan query.

Achteraf bewerken van resultaat: clusteren op basis van inhoud vaak op basis van statistiek Clusty, Polymeta (Ask,Google,Bing,Yahoo) of op basis van automatische classificatie.

Gevonden alinea’s tonen waarin antwoord zou staan (KWIC index bijv Sensebot).
Samenvattingen genereren bv Factbites
Inmiddels 31 miljard data online met 504 miljoen links tussen de sets. DBpedia is heel erg centraal.

Semantische zoekmachines

Althans ze presenteren zich als zodanig:

  • Hakia : geeft niet thuis als je met meerderen wil inloggen
  • Kngine (let op resultaten in tabjes bovenaan) matig resultaat, maar beter dan de andere twee
  • Cluuz : gewone werkt niet, ask.cluuz.com geeft niet thuis als je met meerderen wil inloggen
  • Unsilo nog in ontwikkeling: ‘invite’ aanvragen

GO cursus Semantisch zoeken deel 1

1 Reactie

Verslag van de cursus Semantisch zoeken op 29 januari 2014 ochtend programma.

De eendaagse cursus Semantisch zoeken leert u wat semantische zoektechnieken zijn. Ook krijgt u meer informatie over de achtergronden en de toepassing van semantische technieken.

Gegeven door Eric Sieverts / sites.google.com/site/sieverts . Zijn PPT van maart 2013: Semantisch zoeken. Geassisteerd door Jeroen Bosman (twitter).

Ik heb er zin in: ben zelfs een uur te vroeg aanwezig, gelukkig mag ik al naar binnen,  is er koffie en is het er warm.

De definitie van Wikipedia van Semantisch web:

Het semantisch web verschaft een standaard framework waarmee data gedeeld en hergebruikt kunnen worden.[1] Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium (W3C).

Het semantisch web is geen synoniem voor Web 2.0, zoals soms wel wordt verondersteld. Tim Berners-Lee beschreef het semantische web als een component van ‘Web 3.0’.[3] Soms wordt het gebruikt als synoniem voor Web 3.0, hoewel de definities verschillen

Ofwel op zijn engels:

The Semantic Web is a collaborative movement led by international standards body the World Wide Web Consortium (W3C).[1] The standard promotes common data formats on the World Wide Web. By encouraging the inclusion of semantic content in web pages, the Semantic Web aims at converting the current web, dominated by unstructured and semi-structured documents into a “web of data”. The Semantic Web stack builds on the W3C’s Resource Description Framework (RDF

De Nederlandse versie van wikipedia heeft geen apart lemma voor Semantisch zoeken, de Engelse wel:

Semantic search seeks to improve search accuracy by understanding searcher intent and the contextual meaning of terms as they appear in the searchable dataspace, whether on the Web or within a closed system, to generate more relevant results.

12 deelnemers.

Semantisch zoeken
Semantisch web is het web, Semantisch zoeken kan in principe in elk systeem.
What is semantic search? 10 Things that Make Search a Semantic Search Uitleg op de Hakia website, Hakia zegt zelf een semantische zoekmachine te zijn. Deze elementen  zitten er vaak wel in, focus op zoektermen formuleren in de natuurlijke taal, begrip van wat enerzijds gebruiker, anderzijds in de tekst ‘eigenlijk’ bedoeld wordt.

Seth Grimes: Breakthrough Analysis: Two + Nine Types of Semantic Search:  There’s more to it than offering related results. Here are 11 approaches that join semantics to search.Semantisch web is klaargemaakt web zodat er semantisch in gezocht kan worden.
Meningen over toepassing / aanwezigheid ervan lopen uiteen, deels is het er nog niet, maar het gaat wel die kant op.
Semantisch zoeken gaat steeds beter, gemakkelijker en ook voor gebruiker onzichtbaarder. Wordt ook steeds meer in enterprise toepassingen ingebouwd.Ook veel uit hoek van zoekoptimalisatie:

Soorten toepassingen

  1. Inschatten intentie gebruiker
  2. Bepalen van betekenis in tekst (vooraf bij indexeren of achteraf in zoekresultaat)
  3. Automatisch aanpassen van zoekacties tbv beter resultaat

1. Intentie zoeker

Kan bepaald worden uit

  • locatie zoeker (IP / GPS – GSM)
  • analyse vraag
  • – namen (facebook/linkediGoogle Knowledge Graphn)
  • – vaste combinaties woorden
  • – naturlijke taal interpetatie Wolframalpha)(
  • – statistiek frequente vragen (Google)
  • op basis van eerder zoekgedrag

Voorbeeld:

  • Google vraag ‘Restaurant amsterdam’ : dan krijg je niet een lijstje met items waar die twee termen in voorkomen, maar daadwerkelijk een lijstje met restaurants in Amsterdam.
  • Google vraag ‘Bach’ krijg je meteen een bepaalde Bach uit de zoveel miljoen geselecteerd mn Johann Sebastian. (Knowledge Graph) dus gegevens over hem, niet websites over hem.

Knowledge Graph
Hoe komt KG aan gegevens?

‘Graphs’ kom je tegenwoordig overal tegen: andere manier om gegevens te visualiseren. Geeft relaties tussen objecten aan.

Vaste combinaties

Feitelijke antwoorden als je bv melting point silicon intikt, population amsterdam, Rhein vs Schelde (krijg je netjes twee rijtjes, appelen en peren vergelijken).
Let wel: je moet zowel google.com hebben als de schermtaal op Engels, anders doet hij dat niet!

Bing heeft met Satori  iets soortgelijks, maag nog niet altidj zo slim als Google, maar ze worden wel steeds beter.

WolframAlpha

Gaat nog iets verder met interpreteren van zoekvraag.

___________________

Opdrachten : http://webzoek.pbworks.com/w/page/73494392/semant

Conclusie: nog lang niet voor alles zijn er concrete antwoorden te verkrijgen. Ligt aan onderwerp, maar ook aan formulering.
Duckduckgo laat soms ook meteen resultaten en haalt dat uit diverse databases als Wolfram alpha of Wikipedia.

___________________

2. Bepalen van betekenis in tekst

Herkennen van entiteiten in tekst van gevonden resultaten: Philips als een bedrijf bv.,  van sentimenten (positief of negatief), embedded data, linked data.

Entity extraction / Auto-generated tags:

Herkennen van teksten via Open Calais. (Daar kun je een stuk tekst inplakken http://viewer.opencalais.com/, die analyseert dat, de ene keer beter dan de andere keer. Dat systeem kan zo ‘automatisch’ metadata aan teksten of woordcombinaties hangen: dmv woorden die er al inzitten)

The OpenCalais Web Service automatically creates rich semantic metadata for the content you submit – in well under a second. Using natural language processing (NLP), machine learning and other methods, Calais analyzes your document and finds the entities within it. But, Calais goes well beyond classic entity identification and returns the facts and events hidden within your text as well.

The tags are delivered to you; you can then incorporate them into other applications – for search, news aggregation, blogs, catalogs, you name it

Zemanta doet iets soortgelijks voor bloggers: maakt linkje naar wikipedia artikel. Gaat op zoek naar plaatjes die je in je blog zou kunnen zetten, en naar related articles. Is wel wat beperkter dan wat uit open Calais komt.

Gestructureerd opslaan

Facebook slaat alle gegevens gestructureerd op in Graph. De engelse versie heeft ook een graph search . (Zoekvraag als: Mensen die in de buurt van Amsterdam worden en werken bij  KNAW)

Automatisch categoriseren

Via Machine learning systemen, getrained op basis van taxonomie of thesaurus. Kan ook op sentiment. Tweetfeel deed dat, maar dat werkt nu niet meer.
Automatische classificatie bijv op Dewey code http://act-dl.base-search.net/ Google herkent objecten in images, ook als dat niet als metadata is meegegeven. Honden bijv.
Pinterest is daar mee begonnen met filters voor recepten, maar erg goed is het niet.
Dit soort dingen gaan ook wel vaak fout.

Sentiment detection:

  • Social Searcher:  http://www.social-searcher.com  Zoekt in 3 sociale media en toont onder tabblad “Analytics” het “sentiment” van gevonden berichten

________________

Opdracht 2 t/m 5

__________________

Vanmiddag verder…

Heterdaad RWS : Content integratie + databases #DIM13

Laat een reactie achter

Zie meer info op de site van de Digitale Spin: Contentintegratie en databases.

Peter Nieuwenhuizen en Rita van Leeuwen.

Doel digitale informatie bronnen goed ontsluiten.
Goede search engines. (nu Fast van SP zou HP autonomy kunnen worden)


Digitale bibliotheek

Toegang via intranet.
Kennis en expertise is bibliotheek pagina
Nieuws, AZ lijst, links je naar bronnen.

Bronnen
– diversiteit
– Databases (nenconnect bv)
– full-text documenten
– portals (Kluwer)

Ebsco A-Z lijst
Titel. Vanaf wanneer, uitgever
Klik naar full-text.

Aansluiting bij beleving klant (google)
Probeer dat als norm te laten gelden.
Vooral niet zelf beheren, maar daar laten staan.

Kluwer is lastig, moet je jaar de site zelf.

LinkSource

Om artikelen vindbaar te maken. Via DOI.
Voorkeur Google Scholar en koppeling LinkSource.
Rechts links naar full-text, onder more zit ibl formulier naar Picarta.

EDS (discovery service)
1 zoekactie in meerdere bronnen.
Ranking inhoud. (kennisplein eerst)
Catalogus ontsloten, asfa (Proquest) , nieuws databases (AP, UPI) , Kluwer, picarta.
Plannen voor Ebsco : toevoegen Narcis, Academie, datasets Data Planet.
Plannen RWS: sdu, Kluwer, Yammer.

Lay-out kun je maken zoals jezelf wil.
Links en rechts clusteren.
Links:Vergroten of verkleinen bronnen, materiaal, taal, onderwerp
Rechts : Aanvullende bronnen bv Twitter. (In paar seconden wordt dat uitgevoerd) (leuk dat)

Grootste winst is je eigen rapporten en catalogus en de diverse betaalde zoeksystemen met eigen ingang samen te voegen in een zoekactie.
Aanpassen Ranking is wel te dien.
Ebsco loopt wat achter qua nederlaag bronnen dan C-content (?)

Vraag Ranken op aantal citationscitations?
kan niet.

—-

Presentatie: Content Integratie.pdf / Peter Nieuwenhuizen + Rita van Leeuwen

Discovery in Hogeschool Arnhem en Nijmegen #ebscodag

Laat een reactie achter

Maarten Hekman is gisteren naar tandarts geweest, dus praat nog wat moeilijk.
Hij houdt niet erg van Social media maar wil wel graag delen.

Han Quest.
Is de naam die ze aan hun tool geven.
Je kunt er online bij.

Vraag : waarom discovery?
We hadden federatieve zoekmachine maar die werd steeds slechter, en hanquest kreeg een slechte naam.
Er zijn er meer: Summon / primo / eds
Eds kwam steeds beter uit de vergelijkingen, we maakten zelf ook vergelijkingen.
Kosten waren een van de belangrijkste reden om voor Eds te kiezen, oa omdat linkresolver er ook al inzat.
We zijn er een jaar mee bezig geweest, waaronder een half jaar intensief.
Ebsco zelf heeft er ook veel tijd in gestoken.
Een van de redenen is ook dat we iets speciaals wilden: de widget middenop.

Doet het ook op tablet.
Verfijnen: Met heel veel opties. Ziet er goed uit!
Databases kun je aan en uitzetten.

Kun je vooraf ook beperken?
(grappig is dat die vraag alleen van collega’s komt)
Ja kan wel, maar in hoeverre wil je dat? Google achtige ervaring wil gebruiker en dat is zoeken in ‘alles’ met zo weinig mogelijk franje.
Er blijkt steeds minder gebruik gemaakt te worden van vooraf inperken.
De vakgebieden die we daar aanbieden sluiten wel aan bij onze opleidingen.

Fuzzyu
Hoe blij word je als je zoekt op Artis en je krijgt ook spaanse resultaten Artes?
Ja dat blijft een punt.
Google is ook niet perfect, en wordt zelfs steeds slechter, en dit systeem ook niet.

Volgens hem kun je er alleen van buiten af met user/password in, maar ik kan er gewoon bij…

image

Opmerking uit de zaal : ik ben niet blij met mensen die met zo’n discovery tool zijn opgeleid : hun zoekvaardigheden zijn minimaal.
Hanquest is geen ultieme oplossing, maar het helpt wel. De studenten die van de middelbare school komen kunnen echt helemaal niets. Dit maakt het ze iets gemakkelijker.
Dus er zijn zeker voordelen.

Wat zit er niet in
Voor alle discovery tools is dat een probleem.
Veel van wat voor onze studenten belangrijk is zit er niet in.
Veel Nederlandse uitgevers bijv.
Maar oom Picarta, SDU.

Wat kan er nog meer beter.
Functionaliteit is redelijk goed. Ontbrekende NL uitgevers is ergste.
Linkresolver van groot belang voor juiste toegang.

We zijn twee maanden live, nog niet te zeggen hoeveel tijd hij aan beheer kwijt is.
________________

Goh… Complimenten!

Henk van Ess: “LET’S GET PERSONAL met Facebook Graph Search en Google Now” #voginip

Laat een reactie achter

Van de website

 henkvanessHenk van Ess
O.a. voorzitter van Vereniging van Onderzoeksjournalisten, auteur van “Handboek Datajournalistiek” en “De Google Code“, internetdocent en -consultant
| voelspriet | twitter | G+ |
Lezing: “LET’S GET PERSONAL met Facebook Graph Search en Google Now”
Zoeken wordt in 2013 persoonlijk. Speciaal voor ons congres geeft Henk van Ess een exclusief kijkje in de wereld van “persoonlijk zoeken”. Voor het eerst op een congres in Nederland wordt de nieuwe zoekdienst Facebook Graph Search getoond die pas in het voorjaar voor het publiek toegankelijk is. Wat is Facebook van plan met zijn enorme database van miljoenen persoonlijke details? Van Ess laat zien dat je met soms griezelige precisie zaken over mensen te weten kan komen die ze zelf al lang vergeten zijn. Ook is er aandacht voor Google Now – de dienst waarmee Google vooraf wil voorspellen wat jij wilt


Zeer bekend in de informatiewereld, ook bij mij. Althans van Twitter en Voelspriet, ik heb hem eigenlijk nooit life gehoord.
Ikzelf heb een poosje geleden toch maar Google Now toestemming gegeven op mijn Galaxy Note 2 (privacy is zo overrated) dus benieuwd wat hij te vertellen heeft.

—-
Henk vraagt of er vragen zijn.
Laat stukje zien van vragen aan Google.

Door de tablets en smartphones hebben ze al heel veel persoonlijke info van iedereen.
Welke diensten worden daaraan gekoppeld.

Apple
Maps. Ze willen graag weten wanneer je iets doet en waar. Op basis daarvan voorspellen wat wil de consument.

Google Knowledge Graph
Deze techniek kun je nu al beetje zien http://www.google.com/ncr (no country regions)

Facebook Graph search
Alleen nog in Amerika.

Google Now
(tip The verge)
Ziet er spooky uit, maar is gewoon info die jezelf hebt verstrekt natuurlijk.
Wat je zoekt ben jezelf.

Facebook
Openbare informatie van mensen
Je ziet foto’s, je kunt downdrillen. Heb je relatie, religie ed.
Van bijv mensen die bij OBA werken kun je gemiddelde opleiding bekijken. Enzovoort (spelletjes van mensen die bij TUD werken; bars in België bezocht door mensen die bij van ministerie defensie werken) enzoverder.

Joost Janssen: “Enterprise search, waarom niet en wanneer wel – de PWC casus” #voginip

Laat een reactie achter

Van de website:

 joostJoost Janssen
Online Channel Manager bij PwC en naast de intranetportal binnen de afdeling Marketing & Knowledge Management ook verantwoordelijk voor diverse systemen gebaseerd op communicatie-, informatie- en kennistechnologie.
| LI | twitter | G+ |
Lezing: “Enterprise search, waarom niet en wanneer wel – de PWC casus”
‘We know more than me’ … geldt ook voor een netwerkorganisatie als PwC. Met ruim 4.500 professionals in Nederland en 169.000 professionals wereldwijd is het een grote uitdaging om de enorme potentie van de ‘collective intelligence’ van PwC te ontsluiten. Joost laat in zijn presentatie zien voor welke uitdagingen PwC staat in deze tijd. Welke systemen zet PwC daarvoor in en welke rol speelt zoektechnologie daarbij?

Kan me herinneren eerder een lezing over PwC gehoord te  hebben (NVB 2009), en was gelijk jaloers over hoe ze t daar geregeld hadden! Benieuwd hoe het verder is gegaan.
—–

Veel knappe koppen id organisatie is fijn, maar je hebt er niet veel aan als ze niet connected zijn.
De groep zou dus intelligenter moeten zijn dan de knapste kop.
Van Google zijn we lui geworden.
Je wilt met 1 term info hebben die actueel, relevant en betrouwbaar is. En dat gaat natuurlijk niet.
Enterprise search heeft nooit gewerkt en waarom niet?
5 redenen
– aparte zoek voor nieuwsberichten en overige content en daarnaast zijn er ongeveer 100 systemen, vrijwel onmogelijk die door 1 systeem laten doorzoeken
– zelfs nieuws heeft meerdere interfaces, een aparte voor alerts. Daar hebben we prijs mee gewonnen in 2008
– aparte kennisdatabase .enige applicatie met taxonomie. Die is aan t verouderen. Is bijna ondoenlijk die bij te houden.
– relevantie actualiteit betrouwbaarheid : systeem weet niet goed hoe die zich verhouden. Vaktechnische is betrouwbaar belangrijk, nieuws actualiteit. Veelheid maakt t ook onmogelijk .
– Informatie neemt enorm toe. Moet je die van alle metadata voorzien?
Technische ontwikkelingen zijn niet bij te houden, dus waarom zou je dat doen. Solomon (sociale local mobile)
Zoektechnologie weet niet goed wat ze mogen laten zien: Legale problemen zijn ook legio. Mag je die info wel uitwisselen.

Business case : men us bereid te investeren voor de aanschaf maar niet te voor de implementatie. Bijna onmogelijk hard ts maken dat goede search geld oplevert.

Content
Er is zoveel content dat je al lang door de bomen het bos niet meer ziet.
Implementeer sociale media platforms.
Spark: platform voor mensen en communities
Zoeken op persoon geeft drie soorten info over persoon, wat deze gemaakt heeft en waar deze deel van uitmaakt.

Antal vd Bosch: Text mining #voginip

Laat een reactie achter

Van de website:

antalAntal van den Bosch
Hoogleraar aan de Radboud Universiteit bij het Centre for Language Studies en het Centre for Language and Speech Technology. Hij houdt zich onder meer bezig met onderzoek hoe computers taal kunnen leren begrijpen en genereren.
| web | twitter | scholar | G+ |
Lezing: “Text mining: automatische en grootschalige analyse van entiteiten en gebeurtenissen in tekst”
Voor text data mining zijn de afgelopen 20 jaar technieken ontwikkeld om greep te krijgen op informatie die in geschreven en gesproken tekst besloten ligt. Om dat te kunnen, moet je in de eerste plaats voldoende van de taal weten – en die problematiek is nog altijd niet volledig opgelost. In de tweede plaats gaat het om zo veel tekst dat je de technieken wel moet automatiseren, waarvoor slimme methoden van indexering en retrieval nodig zijn. Antal zal een aantal voorbeelden behandelen waarin deze problemen worden aangepakt. Informatie over personen, organisaties, plaats en tijd die wordt herkend in historische teksten (kranten, reisverslagen), kan worden gebruikt om daarin gebeurtenissen te ontdekken en te voorspellen. Uit actueel nieuws en dagelijkse tweets kan zinvolle informatie over gebeurtenissen worden afgeleid. Dit zal hij in verband brengen met toekomstige persoonlijke toepassingen voor informatie zoeken en recommendatie, zowel “negatief” (het filter bubble probleem) als “positief” (information liberation).

—-

Information vs language

Er is al heel veel curated info aanwezig, maar nog veel meer ‘vrije’ tekst.
54 miljard web pagina’s. In heel veel talen.
Geïndexeerde web en 1000 keer zo klein als web achter poortjes.
Taal is heel rijk, maar je kunt ook met taal dingen verbergen.
Bv Door een taal te speken die een ander niet verstaat.
Positie van waaruit je iets beschrijft kan groot verschil maken.
Lukt zeker niet om alle info die in de massa tekst zit eruit te peuren.

Echte informatie behoefte bijv
– wat zijn mogelijke reden van iets
– welke gebeurtenissen gaan er plaats vinden die impact kunnen hebben
Wat voort soort woorden kom je dan tegen.

Voorbeeld: stakingen die nooit gebeurd zijn.
Dat valt af te checken aan de database van stakingen die wel gebeurd zijn.
Zoek dan in kranten archief van de week ervoor : dan maak je soort spamfilter.
Die kun je op andere weken loslaten en kijken of dezelfde info daaruit komt.
Kb heeft een fantastisch archief van kranten berichten
Leuk onderzoek dat.

Voor Naturalistische en ANP hebben ze ook dat soort spamfilter gebouwd.
Predicting events in social media.

Machine vertaling, sprekersherkenning, data clearing.

Meertaligheid probleem.
OCR probleem bij kranten. (veel van t kb archief is vrij slecht van origine, toch kom je er een eind mee.)
Spraak herkenning.
Valkuilen et spelling correction