GO cursus Semantisch zoeken deel 1

1 Reactie

Verslag van de cursus Semantisch zoeken op 29 januari 2014 ochtend programma.

De eendaagse cursus Semantisch zoeken leert u wat semantische zoektechnieken zijn. Ook krijgt u meer informatie over de achtergronden en de toepassing van semantische technieken.

Gegeven door Eric Sieverts / sites.google.com/site/sieverts . Zijn PPT van maart 2013: Semantisch zoeken. Geassisteerd door Jeroen Bosman (twitter).

Ik heb er zin in: ben zelfs een uur te vroeg aanwezig, gelukkig mag ik al naar binnen,  is er koffie en is het er warm.

De definitie van Wikipedia van Semantisch web:

Het semantisch web verschaft een standaard framework waarmee data gedeeld en hergebruikt kunnen worden.[1] Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium (W3C).

Het semantisch web is geen synoniem voor Web 2.0, zoals soms wel wordt verondersteld. Tim Berners-Lee beschreef het semantische web als een component van ‘Web 3.0’.[3] Soms wordt het gebruikt als synoniem voor Web 3.0, hoewel de definities verschillen

Ofwel op zijn engels:

The Semantic Web is a collaborative movement led by international standards body the World Wide Web Consortium (W3C).[1] The standard promotes common data formats on the World Wide Web. By encouraging the inclusion of semantic content in web pages, the Semantic Web aims at converting the current web, dominated by unstructured and semi-structured documents into a “web of data”. The Semantic Web stack builds on the W3C’s Resource Description Framework (RDF

De Nederlandse versie van wikipedia heeft geen apart lemma voor Semantisch zoeken, de Engelse wel:

Semantic search seeks to improve search accuracy by understanding searcher intent and the contextual meaning of terms as they appear in the searchable dataspace, whether on the Web or within a closed system, to generate more relevant results.

12 deelnemers.

Semantisch zoeken
Semantisch web is het web, Semantisch zoeken kan in principe in elk systeem.
What is semantic search? 10 Things that Make Search a Semantic Search Uitleg op de Hakia website, Hakia zegt zelf een semantische zoekmachine te zijn. Deze elementen  zitten er vaak wel in, focus op zoektermen formuleren in de natuurlijke taal, begrip van wat enerzijds gebruiker, anderzijds in de tekst ‘eigenlijk’ bedoeld wordt.

Seth Grimes: Breakthrough Analysis: Two + Nine Types of Semantic Search:  There’s more to it than offering related results. Here are 11 approaches that join semantics to search.Semantisch web is klaargemaakt web zodat er semantisch in gezocht kan worden.
Meningen over toepassing / aanwezigheid ervan lopen uiteen, deels is het er nog niet, maar het gaat wel die kant op.
Semantisch zoeken gaat steeds beter, gemakkelijker en ook voor gebruiker onzichtbaarder. Wordt ook steeds meer in enterprise toepassingen ingebouwd.Ook veel uit hoek van zoekoptimalisatie:

Soorten toepassingen

  1. Inschatten intentie gebruiker
  2. Bepalen van betekenis in tekst (vooraf bij indexeren of achteraf in zoekresultaat)
  3. Automatisch aanpassen van zoekacties tbv beter resultaat

1. Intentie zoeker

Kan bepaald worden uit

  • locatie zoeker (IP / GPS – GSM)
  • analyse vraag
  • – namen (facebook/linkediGoogle Knowledge Graphn)
  • – vaste combinaties woorden
  • – naturlijke taal interpetatie Wolframalpha)(
  • – statistiek frequente vragen (Google)
  • op basis van eerder zoekgedrag

Voorbeeld:

  • Google vraag ‘Restaurant amsterdam’ : dan krijg je niet een lijstje met items waar die twee termen in voorkomen, maar daadwerkelijk een lijstje met restaurants in Amsterdam.
  • Google vraag ‘Bach’ krijg je meteen een bepaalde Bach uit de zoveel miljoen geselecteerd mn Johann Sebastian. (Knowledge Graph) dus gegevens over hem, niet websites over hem.

Knowledge Graph
Hoe komt KG aan gegevens?

‘Graphs’ kom je tegenwoordig overal tegen: andere manier om gegevens te visualiseren. Geeft relaties tussen objecten aan.

Vaste combinaties

Feitelijke antwoorden als je bv melting point silicon intikt, population amsterdam, Rhein vs Schelde (krijg je netjes twee rijtjes, appelen en peren vergelijken).
Let wel: je moet zowel google.com hebben als de schermtaal op Engels, anders doet hij dat niet!

Bing heeft met Satori  iets soortgelijks, maag nog niet altidj zo slim als Google, maar ze worden wel steeds beter.

WolframAlpha

Gaat nog iets verder met interpreteren van zoekvraag.

___________________

Opdrachten : http://webzoek.pbworks.com/w/page/73494392/semant

Conclusie: nog lang niet voor alles zijn er concrete antwoorden te verkrijgen. Ligt aan onderwerp, maar ook aan formulering.
Duckduckgo laat soms ook meteen resultaten en haalt dat uit diverse databases als Wolfram alpha of Wikipedia.

___________________

2. Bepalen van betekenis in tekst

Herkennen van entiteiten in tekst van gevonden resultaten: Philips als een bedrijf bv.,  van sentimenten (positief of negatief), embedded data, linked data.

Entity extraction / Auto-generated tags:

Herkennen van teksten via Open Calais. (Daar kun je een stuk tekst inplakken http://viewer.opencalais.com/, die analyseert dat, de ene keer beter dan de andere keer. Dat systeem kan zo ‘automatisch’ metadata aan teksten of woordcombinaties hangen: dmv woorden die er al inzitten)

The OpenCalais Web Service automatically creates rich semantic metadata for the content you submit – in well under a second. Using natural language processing (NLP), machine learning and other methods, Calais analyzes your document and finds the entities within it. But, Calais goes well beyond classic entity identification and returns the facts and events hidden within your text as well.

The tags are delivered to you; you can then incorporate them into other applications – for search, news aggregation, blogs, catalogs, you name it

Zemanta doet iets soortgelijks voor bloggers: maakt linkje naar wikipedia artikel. Gaat op zoek naar plaatjes die je in je blog zou kunnen zetten, en naar related articles. Is wel wat beperkter dan wat uit open Calais komt.

Gestructureerd opslaan

Facebook slaat alle gegevens gestructureerd op in Graph. De engelse versie heeft ook een graph search . (Zoekvraag als: Mensen die in de buurt van Amsterdam worden en werken bij  KNAW)

Automatisch categoriseren

Via Machine learning systemen, getrained op basis van taxonomie of thesaurus. Kan ook op sentiment. Tweetfeel deed dat, maar dat werkt nu niet meer.
Automatische classificatie bijv op Dewey code http://act-dl.base-search.net/ Google herkent objecten in images, ook als dat niet als metadata is meegegeven. Honden bijv.
Pinterest is daar mee begonnen met filters voor recepten, maar erg goed is het niet.
Dit soort dingen gaan ook wel vaak fout.

Sentiment detection:

  • Social Searcher:  http://www.social-searcher.com  Zoekt in 3 sociale media en toont onder tabblad “Analytics” het “sentiment” van gevonden berichten

________________

Opdracht 2 t/m 5

__________________

Vanmiddag verder…

Advertenties

One thought on “GO cursus Semantisch zoeken deel 1

  1. Pingback: GO cursus Semantisch zoeken deel 2 | Dee'tjes

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s