GO cursus Semantisch zoeken deel 2

Laat een reactie achter

Vervolg van de ochtend

Facebook graph search wertk alleen als je de taal verzet naar English US.

Dan krijg je ook een merkwaardige hoeveelheid suggesties bijv met vragen als ‘Favorite books of people who …”
Wat voorbeeld searches http://wrightimc.com/blog/2013/08/12/the-giant-list-of-facebook-graph-search-queries/

Bepalen van betekenis

Gestandaardiseerde markering van kenmerken van webpagina’s

  • recipe search bij Google
  • toepasing e-commerce ontology

Standaarden daarbij: microformats (rich snippets) metadata en RDFa.
Google recepten zit sinds kort ergens anders en is t veel onoverzichtelijker geworden. Bij Yahoo is t handiger: http://recipes.search.yahoo.com/
In Chrome kun je browser extensies installeren om de embedded metadata overzichtelijker te tonen.

RDFa standaarden zijn gegevens waarbij in de ‘property’  op de XHTML pagina  codes zijn opgenomen uit de GoodRelations ontology met termen (waneer er bijv een bedrag genoemd wordt) als : hasCurrency en hasPriceType.
Google, Yahoo, Bing en Yandex gebruiken Schema.org als standaard: hierin zijn ook de GoodRelations termen geincorporeerd.

Examining Real World Uses Of Rich Snippets & Markup (SearchengineLand) vaak is dit vanuit de searchoptimalisatie techniek.
De zoeker kan gerichter zoeken en filteren, maar ook in de snippets kan duidelijkere informatie getoond worden.

Microdata.reveal en Semantic insepctor zijn browser tools voor Chrome. Een andere is de Creative commons laser highlighter.
Als je die geïnstalleerd hebt zie je icoontje bovenaan wanneer dat van toepassing is, en als je daarop klikt zie je ze ingrediënten ed overzichtelijker dan vaak op de pagina staat.
Goodreads en Last.fm makenook gebruik van metadata.
Google heeft ook zoiets als de ‘Structured Data Testing Tool’: http://www.google.com/webmasters/tools/richsnippets daar plak je dan een url in en toont hij het wat overzichtelijker. voordeel is dat je geen extensies hoeft te installeren.

Resource Description Framework (RDF)

RDF is standaard waarmee relaties tussen object en metadata wordt beschreven.
Via Namespaces wordt naar gebruikte metadatastandaarden te verwijzen.RDF is bedoeld om bestaande semantische systemen te hergebruiken RDF in XNML en RDFa ook in HTML pagina’s.

Eigenschappen worden vastgelegd in Triples: subject <predicaat> object waarbij het te beschrijven ding een URI (webadres) heeft, en de eigenschap en waarde liefst ook.
Voorbeeld: Shakespeare is de auteur van Hamlet.
Triples worden opgesalgen in een triple store.

VIAF: The Virtual International Authority File

The VIAF™ (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

Mensen en adressen in FOAF http://www.foaf-project.org/
Titels in Dublin Core
RDF browser: http://graphite.ecs.soton.ac.uk/browser/

Ontologieen
Vanuit filosofie afkomstig: vastleggen van betekenissen.”kennis-representatie” warin een stukje van de werkelijkheid geformaliseerd is weergegeven. Gaat verder dan een thesaurus: meer soorten relaties dan BT en NT. Wordt meestal niet rechtstreeks voor een ontsluiting gebruikt. Biedt ook mogelijkheid tot redenaties. Vastgelegde rollen en eigenschappen.

Core ontology is wat breder: bijv hele culturele erfgoed. CIDOC conceptual reference model zie voorbeeld veeld van Rodin http://www.cidoc-crm.org/crm_core/core_examples/balzac.html

In het kader van het semantische web wordt het vaak meer in algemene zin gebruikt en is het een aanduiding van een onderwerpsontsluiting. Computerleesbaar en geformaliseerd. Waarmee getracht wordt allerlei systemen interoperabel te maken. In Europeana wordt het toegepast.

Oude codes voor standaarden van beschrijvingselementen waren: v / mo / foaf / owl / geo al deze zaken worden nu vervangen door schema.org.
mo = muziek ontology

_______

Opdracht

________

Zoekmachines

Linked data

Via triples doorlinken naar andere data. Moet al wel voorgeprogrammeerd zijn.
Bedoeling: hergebruik, dus ook gestandardiseerd. Kan open of  niet  open zijn. Iedereen kan bijdragen, dus kan soms wat rommelig worden.
Worden bewaard in triple stores met zoektalen als SPARQL: is nog behoorlijk lastig / gespecialiseerd.
Endpoints zijn toegangspunten op het web waar je SPARQL zoekacties op RDF triple stores kunt uitvoeren.

3. Verbeteren van zoekacties

Vooraf en al dan niet geautomatiseerd.
Gebaseerd op statistiek, spelling, woordstam,.
Toevoegen van synoniemen, acroniemen en verwante en specifiekere begrippen aan query.

Achteraf bewerken van resultaat: clusteren op basis van inhoud vaak op basis van statistiek Clusty, Polymeta (Ask,Google,Bing,Yahoo) of op basis van automatische classificatie.

Gevonden alinea’s tonen waarin antwoord zou staan (KWIC index bijv Sensebot).
Samenvattingen genereren bv Factbites
Inmiddels 31 miljard data online met 504 miljoen links tussen de sets. DBpedia is heel erg centraal.

Semantische zoekmachines

Althans ze presenteren zich als zodanig:

  • Hakia : geeft niet thuis als je met meerderen wil inloggen
  • Kngine (let op resultaten in tabjes bovenaan) matig resultaat, maar beter dan de andere twee
  • Cluuz : gewone werkt niet, ask.cluuz.com geeft niet thuis als je met meerderen wil inloggen
  • Unsilo nog in ontwikkeling: ‘invite’ aanvragen
Advertenties

Geef een reactie

Vul je gegevens in of klik op een icoon om in te loggen.

WordPress.com logo

Je reageert onder je WordPress.com account. Log uit / Bijwerken )

Twitter-afbeelding

Je reageert onder je Twitter account. Log uit / Bijwerken )

Facebook foto

Je reageert onder je Facebook account. Log uit / Bijwerken )

Google+ photo

Je reageert onder je Google+ account. Log uit / Bijwerken )

Verbinden met %s