GO cursus Semantisch zoeken deel 2

Laat een reactie achter

Vervolg van de ochtend

Facebook graph search wertk alleen als je de taal verzet naar English US.

Dan krijg je ook een merkwaardige hoeveelheid suggesties bijv met vragen als ‘Favorite books of people who …”
Wat voorbeeld searches http://wrightimc.com/blog/2013/08/12/the-giant-list-of-facebook-graph-search-queries/

Bepalen van betekenis

Gestandaardiseerde markering van kenmerken van webpagina’s

  • recipe search bij Google
  • toepasing e-commerce ontology

Standaarden daarbij: microformats (rich snippets) metadata en RDFa.
Google recepten zit sinds kort ergens anders en is t veel onoverzichtelijker geworden. Bij Yahoo is t handiger: http://recipes.search.yahoo.com/
In Chrome kun je browser extensies installeren om de embedded metadata overzichtelijker te tonen.

RDFa standaarden zijn gegevens waarbij in de ‘property’  op de XHTML pagina  codes zijn opgenomen uit de GoodRelations ontology met termen (waneer er bijv een bedrag genoemd wordt) als : hasCurrency en hasPriceType.
Google, Yahoo, Bing en Yandex gebruiken Schema.org als standaard: hierin zijn ook de GoodRelations termen geincorporeerd.

Examining Real World Uses Of Rich Snippets & Markup (SearchengineLand) vaak is dit vanuit de searchoptimalisatie techniek.
De zoeker kan gerichter zoeken en filteren, maar ook in de snippets kan duidelijkere informatie getoond worden.

Microdata.reveal en Semantic insepctor zijn browser tools voor Chrome. Een andere is de Creative commons laser highlighter.
Als je die geïnstalleerd hebt zie je icoontje bovenaan wanneer dat van toepassing is, en als je daarop klikt zie je ze ingrediënten ed overzichtelijker dan vaak op de pagina staat.
Goodreads en Last.fm makenook gebruik van metadata.
Google heeft ook zoiets als de ‘Structured Data Testing Tool’: http://www.google.com/webmasters/tools/richsnippets daar plak je dan een url in en toont hij het wat overzichtelijker. voordeel is dat je geen extensies hoeft te installeren.

Resource Description Framework (RDF)

RDF is standaard waarmee relaties tussen object en metadata wordt beschreven.
Via Namespaces wordt naar gebruikte metadatastandaarden te verwijzen.RDF is bedoeld om bestaande semantische systemen te hergebruiken RDF in XNML en RDFa ook in HTML pagina’s.

Eigenschappen worden vastgelegd in Triples: subject <predicaat> object waarbij het te beschrijven ding een URI (webadres) heeft, en de eigenschap en waarde liefst ook.
Voorbeeld: Shakespeare is de auteur van Hamlet.
Triples worden opgesalgen in een triple store.

VIAF: The Virtual International Authority File

The VIAF™ (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

Mensen en adressen in FOAF http://www.foaf-project.org/
Titels in Dublin Core
RDF browser: http://graphite.ecs.soton.ac.uk/browser/

Ontologieen
Vanuit filosofie afkomstig: vastleggen van betekenissen.”kennis-representatie” warin een stukje van de werkelijkheid geformaliseerd is weergegeven. Gaat verder dan een thesaurus: meer soorten relaties dan BT en NT. Wordt meestal niet rechtstreeks voor een ontsluiting gebruikt. Biedt ook mogelijkheid tot redenaties. Vastgelegde rollen en eigenschappen.

Core ontology is wat breder: bijv hele culturele erfgoed. CIDOC conceptual reference model zie voorbeeld veeld van Rodin http://www.cidoc-crm.org/crm_core/core_examples/balzac.html

In het kader van het semantische web wordt het vaak meer in algemene zin gebruikt en is het een aanduiding van een onderwerpsontsluiting. Computerleesbaar en geformaliseerd. Waarmee getracht wordt allerlei systemen interoperabel te maken. In Europeana wordt het toegepast.

Oude codes voor standaarden van beschrijvingselementen waren: v / mo / foaf / owl / geo al deze zaken worden nu vervangen door schema.org.
mo = muziek ontology

_______

Opdracht

________

Zoekmachines

Linked data

Via triples doorlinken naar andere data. Moet al wel voorgeprogrammeerd zijn.
Bedoeling: hergebruik, dus ook gestandardiseerd. Kan open of  niet  open zijn. Iedereen kan bijdragen, dus kan soms wat rommelig worden.
Worden bewaard in triple stores met zoektalen als SPARQL: is nog behoorlijk lastig / gespecialiseerd.
Endpoints zijn toegangspunten op het web waar je SPARQL zoekacties op RDF triple stores kunt uitvoeren.

3. Verbeteren van zoekacties

Vooraf en al dan niet geautomatiseerd.
Gebaseerd op statistiek, spelling, woordstam,.
Toevoegen van synoniemen, acroniemen en verwante en specifiekere begrippen aan query.

Achteraf bewerken van resultaat: clusteren op basis van inhoud vaak op basis van statistiek Clusty, Polymeta (Ask,Google,Bing,Yahoo) of op basis van automatische classificatie.

Gevonden alinea’s tonen waarin antwoord zou staan (KWIC index bijv Sensebot).
Samenvattingen genereren bv Factbites
Inmiddels 31 miljard data online met 504 miljoen links tussen de sets. DBpedia is heel erg centraal.

Semantische zoekmachines

Althans ze presenteren zich als zodanig:

  • Hakia : geeft niet thuis als je met meerderen wil inloggen
  • Kngine (let op resultaten in tabjes bovenaan) matig resultaat, maar beter dan de andere twee
  • Cluuz : gewone werkt niet, ask.cluuz.com geeft niet thuis als je met meerderen wil inloggen
  • Unsilo nog in ontwikkeling: ‘invite’ aanvragen

GO cursus Semantisch zoeken deel 1

1 Reactie

Verslag van de cursus Semantisch zoeken op 29 januari 2014 ochtend programma.

De eendaagse cursus Semantisch zoeken leert u wat semantische zoektechnieken zijn. Ook krijgt u meer informatie over de achtergronden en de toepassing van semantische technieken.

Gegeven door Eric Sieverts / sites.google.com/site/sieverts . Zijn PPT van maart 2013: Semantisch zoeken. Geassisteerd door Jeroen Bosman (twitter).

Ik heb er zin in: ben zelfs een uur te vroeg aanwezig, gelukkig mag ik al naar binnen,  is er koffie en is het er warm.

De definitie van Wikipedia van Semantisch web:

Het semantisch web verschaft een standaard framework waarmee data gedeeld en hergebruikt kunnen worden.[1] Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium (W3C).

Het semantisch web is geen synoniem voor Web 2.0, zoals soms wel wordt verondersteld. Tim Berners-Lee beschreef het semantische web als een component van ‘Web 3.0’.[3] Soms wordt het gebruikt als synoniem voor Web 3.0, hoewel de definities verschillen

Ofwel op zijn engels:

The Semantic Web is a collaborative movement led by international standards body the World Wide Web Consortium (W3C).[1] The standard promotes common data formats on the World Wide Web. By encouraging the inclusion of semantic content in web pages, the Semantic Web aims at converting the current web, dominated by unstructured and semi-structured documents into a “web of data”. The Semantic Web stack builds on the W3C’s Resource Description Framework (RDF

De Nederlandse versie van wikipedia heeft geen apart lemma voor Semantisch zoeken, de Engelse wel:

Semantic search seeks to improve search accuracy by understanding searcher intent and the contextual meaning of terms as they appear in the searchable dataspace, whether on the Web or within a closed system, to generate more relevant results.

12 deelnemers.

Semantisch zoeken
Semantisch web is het web, Semantisch zoeken kan in principe in elk systeem.
What is semantic search? 10 Things that Make Search a Semantic Search Uitleg op de Hakia website, Hakia zegt zelf een semantische zoekmachine te zijn. Deze elementen  zitten er vaak wel in, focus op zoektermen formuleren in de natuurlijke taal, begrip van wat enerzijds gebruiker, anderzijds in de tekst ‘eigenlijk’ bedoeld wordt.

Seth Grimes: Breakthrough Analysis: Two + Nine Types of Semantic Search:  There’s more to it than offering related results. Here are 11 approaches that join semantics to search.Semantisch web is klaargemaakt web zodat er semantisch in gezocht kan worden.
Meningen over toepassing / aanwezigheid ervan lopen uiteen, deels is het er nog niet, maar het gaat wel die kant op.
Semantisch zoeken gaat steeds beter, gemakkelijker en ook voor gebruiker onzichtbaarder. Wordt ook steeds meer in enterprise toepassingen ingebouwd.Ook veel uit hoek van zoekoptimalisatie:

Soorten toepassingen

  1. Inschatten intentie gebruiker
  2. Bepalen van betekenis in tekst (vooraf bij indexeren of achteraf in zoekresultaat)
  3. Automatisch aanpassen van zoekacties tbv beter resultaat

1. Intentie zoeker

Kan bepaald worden uit

  • locatie zoeker (IP / GPS – GSM)
  • analyse vraag
  • – namen (facebook/linkediGoogle Knowledge Graphn)
  • – vaste combinaties woorden
  • – naturlijke taal interpetatie Wolframalpha)(
  • – statistiek frequente vragen (Google)
  • op basis van eerder zoekgedrag

Voorbeeld:

  • Google vraag ‘Restaurant amsterdam’ : dan krijg je niet een lijstje met items waar die twee termen in voorkomen, maar daadwerkelijk een lijstje met restaurants in Amsterdam.
  • Google vraag ‘Bach’ krijg je meteen een bepaalde Bach uit de zoveel miljoen geselecteerd mn Johann Sebastian. (Knowledge Graph) dus gegevens over hem, niet websites over hem.

Knowledge Graph
Hoe komt KG aan gegevens?

‘Graphs’ kom je tegenwoordig overal tegen: andere manier om gegevens te visualiseren. Geeft relaties tussen objecten aan.

Vaste combinaties

Feitelijke antwoorden als je bv melting point silicon intikt, population amsterdam, Rhein vs Schelde (krijg je netjes twee rijtjes, appelen en peren vergelijken).
Let wel: je moet zowel google.com hebben als de schermtaal op Engels, anders doet hij dat niet!

Bing heeft met Satori  iets soortgelijks, maag nog niet altidj zo slim als Google, maar ze worden wel steeds beter.

WolframAlpha

Gaat nog iets verder met interpreteren van zoekvraag.

___________________

Opdrachten : http://webzoek.pbworks.com/w/page/73494392/semant

Conclusie: nog lang niet voor alles zijn er concrete antwoorden te verkrijgen. Ligt aan onderwerp, maar ook aan formulering.
Duckduckgo laat soms ook meteen resultaten en haalt dat uit diverse databases als Wolfram alpha of Wikipedia.

___________________

2. Bepalen van betekenis in tekst

Herkennen van entiteiten in tekst van gevonden resultaten: Philips als een bedrijf bv.,  van sentimenten (positief of negatief), embedded data, linked data.

Entity extraction / Auto-generated tags:

Herkennen van teksten via Open Calais. (Daar kun je een stuk tekst inplakken http://viewer.opencalais.com/, die analyseert dat, de ene keer beter dan de andere keer. Dat systeem kan zo ‘automatisch’ metadata aan teksten of woordcombinaties hangen: dmv woorden die er al inzitten)

The OpenCalais Web Service automatically creates rich semantic metadata for the content you submit – in well under a second. Using natural language processing (NLP), machine learning and other methods, Calais analyzes your document and finds the entities within it. But, Calais goes well beyond classic entity identification and returns the facts and events hidden within your text as well.

The tags are delivered to you; you can then incorporate them into other applications – for search, news aggregation, blogs, catalogs, you name it

Zemanta doet iets soortgelijks voor bloggers: maakt linkje naar wikipedia artikel. Gaat op zoek naar plaatjes die je in je blog zou kunnen zetten, en naar related articles. Is wel wat beperkter dan wat uit open Calais komt.

Gestructureerd opslaan

Facebook slaat alle gegevens gestructureerd op in Graph. De engelse versie heeft ook een graph search . (Zoekvraag als: Mensen die in de buurt van Amsterdam worden en werken bij  KNAW)

Automatisch categoriseren

Via Machine learning systemen, getrained op basis van taxonomie of thesaurus. Kan ook op sentiment. Tweetfeel deed dat, maar dat werkt nu niet meer.
Automatische classificatie bijv op Dewey code http://act-dl.base-search.net/ Google herkent objecten in images, ook als dat niet als metadata is meegegeven. Honden bijv.
Pinterest is daar mee begonnen met filters voor recepten, maar erg goed is het niet.
Dit soort dingen gaan ook wel vaak fout.

Sentiment detection:

  • Social Searcher:  http://www.social-searcher.com  Zoekt in 3 sociale media en toont onder tabblad “Analytics” het “sentiment” van gevonden berichten

________________

Opdracht 2 t/m 5

__________________

Vanmiddag verder…

Heterdaad RWS : Metadatering modellen #DIM13

Laat een reactie achter

Zie meer info op de site van de Digitale spin : Metadatamodellen

Vincent Teerling.

Metadata om
– objecten en onderdelen beschrijving (decompositie)
– documentaire informatie verrijken
– documenten informatie terug vindbaar en toegankelijk te maken

Langjarige fasen bezigheden
Verkenning planning realisatie beheer onderhoud
RWS heeft sterke ondersteuning nodig om die processen te ondersteunen.
In verleden veel verschillende systemen met andere invalshoeken om objecten te beschrijven.
Vaak waren ze ook relatief oud.

Daardoor gebrek aan volledigheid en operabiliteit.
Geen van de systemen is in staat volledig ontstaantscontext in kaart te brengen.

Ontwikkeling van Internationale standaarden voor metadata voor overheidssystemen.
En dat dan ook verplicht stellen.
Nen iso 23081 in 2006.
Mensen werken in processen en genereren daarin documenten.
Mandaat van die processen is bekend.
Bleef stil tot 2009 omdat t vrij Abstract was.
Later kwam er een Toepassingsprofiel voor ministeries.
Discussie generieke modellen die je dan weer specifiek maakt.
Voor deel is dat toegestaan.
RWS heeft eigen Toepassingsprofiel gemaakt.
Is excel lijst waarin staat wat er vastgelegd gaat worden, of t verplicht is of niet en hoe het erin komt.
(dat laatste bij voorkeur dus automatisch)
Bleek in praktijk niet fijn te werken.
Aanvankelijk 134 elementen waarvan 100 belangrijk en 80% kon automatisch gevuld, alleen waren die koppelingen er nog niet.
SP 2010 voldeed er ook niet aan. Bleek maar 35 velden en geen eigen RWS data.

Discrepantie filosofie SP en die van eigen Toepassingsprofiel.
Koppelingen met andere systemen zijn vereisten.

Nu
67 elementen waarvan 42 automatisch ingevuld kunnen worden. Incl specifieke RWS data

SP 2013 gaat anders om met metadata dam voorgangers.
Proof of Concept gebouwd waarin gekeken wordt of dit een intuïtief systeem oplevert.

Uitdagingen:
Adhoc toegang vs duurzame bewaring
Technische realisatie
Culturele acceptatie

Voor wie die je t eigenlijk?
Metadatamodellen toepassen op SP en op Trim (RMA)
In processystemen hoef je dat eigenlijk niet toe te passen.
In SP die processystemen benaderen.
Dat kun je doen als je die koppelingen goed legt.

DMS systemen slaan nu van alles op, bij opslag opruimen niet archiefwaardig stukken.
Als SP systeem goed werkt zou je die overdracht naar archief niet meer nodig zijn.

Ze zijn nog aan t experimenteren met het metadata systeem.
Er zitten meerdere Taxonomieen in.
Ook folksonomy: daarmee suggesties voor opname.

Presentatie: Metadata en Interoperabiliteit.pdf / Vincent Teerling

Rinke Hoekstra: Gebruik van linked data voor het bouwen van n semantisch web #voginip

Laat een reactie achter

Vanr de website:

rinkeRinke Hoekstra Lid van de Knowledge Representation and Reasoning Group van Frank van Harmelen bij de VU. Onderzoeker bij het Leibniz Center for Law bij de UvA, waar hij recent alle Nederlandse wetgeving als linked open data publiceerde. Nam deel in verschillende W3C werkgroepen. | web | twitter | scholar | mendeley | slides | Lezing: “Gebruik van linked data voor het bouwen van een semantisch web van data” Rinke beschrijft het gebruik van Linked Data in combinatie met principes uit Web 2.0, voor het bouwen van een web van onderling gerelateerde onderzoeksdata. Een dergelijk web van data maakt het mogelijk om onderlinge verbanden tussen onderzoek expliciet te maken. Hierdoor wordt herhaalbaarheid van onderzoek bevorderd, doordat afhankelijkheden en herkomstinformatie (provenance) van publicaties en data eenvoudig te achterhalen zijn. Een web van data maakt ons bovendien steeds minder afhankelijk van full-text zoekvragen: in plaats van tekst kunnen we nu gestructureerde data bevragen

De presentatie staat al op t net, heel plezierig voor ons life bloggers ziet er heel interessant uit  😉

Wrsl was toch een andere: dit is die van deze bijeenkomst :

Zie ook http://www.data2semantics.org/

Global innovatie index NL staat op nr 9. Regering wil dat omhoog brengen.
Subsidie gevers willen graag data hebben, zeker na fraude gevallen van laatste tijd.
Data is nodig om te begrijpen wat iemand gedaan heeft.
Dweilen met de kraan open.
Er is heel veel data, waar weinig aan geannoteerd is, dat redden we handmatig niet.
Advanced search daarop is niet mogelijk.
Hoe krijgen wel daar meer grip op.
Linked Science maken: hoe krijgen we dat voor elkaar?
Wetenschappelijk asset nu is eigenlijk een complete paper. Meestal achter een paywal.
Eigenlijk moeten we elk onderdeel van alles wat gepubliceerd wordt als scientific asset zien.
Transparantie!

Artikel nu: Vrije tekst, Dublin Core metadata zonder onderliggende data zonder instructies voor die data.

We willen graag onderzoek kunnen reproduceren. 64 procent was gewoon niet te reproduceren, zelfs niet als de data er was.
Slechts 20 procent helemaal wel.
Waar komt waarde vandaan.

Transdiciplinair .
Kunnen we dat doen? Spreken deels andere taal, we weten het eigenlijk niet.
Hoe kunnen we die van ene naar andere verplaatsen.

Wie beheert t eigenlijk?
Hoe legt je betrouwbaarheid vast?

Web science
Informatici en communicatie wetenschappers kijken naar structuur van web. Hoe betrouwbaar, hoe groot.

Linked data
Alles verbinden met URI, alles zoveel mogelijk verbinden.
Hoeft niet perse op t internet, maar mag wel. (kan ook intern )

Triple store.
COMMIT

Voorbeeld clinical decision support.

Short titel catalogue een compleet Author netwerk van nl werken van 1550 tot 1800.

Rinke deed dit soort dingen handmatig, Dat moest op andere manier opgelost, andere vervang je ene probleem door andere.

DANS is mooie database, maar als je ziet hoe data stroomt, zie je dat er niets van klopt. Neem een auteur en kijk in diverse databases hoe vaak die persoon erin zit.
Vaak worden dit soort overzichten op projectbasis opgezet, maar dan te traag of niet meer bijgehouden.

Metis mensen, ga je verstoppen.
Je wil dit soort dingen niet zo bijhouden!
Maak gebruik van web 2.0 technieken.

Recipriv reconstructie privenance using Dropbox, die houdt t toch al bij, maak er gebruik van.

Plsheet dependances between cellen in complex spreadsheets.

Tablinker, cellen annoteren.
Kunnen werken met ingewikkelde annotaties.

Onderzoekers moeten zelf controle hebben over hun data.

Cursus Introductie Semantisch Web middag

3 Reacties

Vervolg van de ochtendsessie.

Tool om concept maps te maken: Cmap tools, daarmee kun je teksten maken. Gratis, alleen email adres invullen.

De uitdaging voor de ontologist:

  • Meerdere gezichtspunten naast elkaar
  • Opsporen inconsistente informatie
  • Zoek t in skunnere applicaties en niet in de infrastructuur
  • “Connected data = smarter data”

Let erop dat termen Mutually exclusive zijn en vermijd wazige termen.

  • RDF = redelijk elementair
  • RDFS (schema) kun je wat meer mee. Bronaanduiding, eigenschappen en subeigenschappen, comments (annotatie)
  • OWL en OWL2 is behoorlijk opgetuigde funtionaliteit, is nog heel erg in ontwikkeling. EquivalentClass, Equivalentproperty of sameAs. differentFrom.  minCardinality en maxCardinality

Quad wordt ook wel gebruikt de annotatie (voor triple + bronvermelding). Toevoegen van de bron aan de bewering = Quad. Je schrijft geen quads zoals je triples schrift.

Thesaurus: tamelijk elementair: een concept verwijzend naar  een term (‘zichzelf’). Met hiërarchische relaties. Een BT of NT  is ook een thesaurusterm. Is in wezen ook een triple.

thesaurus BS 8723 standaard (allemaal triples)

Al die pijltjes staan voor relaties.

SKOS Simple Knowledge Organization System

Verandering vastleggen in Skos sructuur in ontologie. Dit gaat al wat ver.

foaf: Friend of a friend relatatie

HTMLstructuur van triplets tussen RDF termen.

RDFa is een heel recente ontwikkeling. : semantically mark-up your website.

Van gewone website RDFa satements maken en die opnemen in de header van je html pagina. Zo kun je een gewone webpagina al een stuk semantischer maken zonder de hele pagina te moeten wijzigen.

<title>The trouble with Bob</title>
<meta property=”http://&#8230;.. content =”The trouble with Bob”/>
….
</head>

Kun je bv ook doen met datum aan maak en onderwerpen. Drupal heeft dit bv ook al in zich.

Voorbeelden van ontologieen

  • BBC sport ontologie (events hebben ze binnen gehaald om nieuwe te bouwen) De Event ontology is plaats gedetermineerd, daar hebben ze een BBC event (bbcevent) aan toegevoegd. Geo hebben ze ook binnen gehaald.
  • Accomodatie ontologie (hotelreserveringen ed)
  • Muziek

Data property = waarde (‘heeft naam’).

Je maakt een keer een model voor een ontologie, stopt daar alles in, en als dat goed is, dan ga je hem vullen.

————

Gebruikmaking van Protege OWL editor bijv:

Protégé maakt netwerkmodellen. Frames.
Protégé heeft twee versies: aanrader als je start: begin dan met 3.4.8. Nuttig om eerste vingeroefeningen mee te doen.
Te gebruiken voor thesaurus, taxonomie, ontologie, kenniskaart. Versie 4 is heel veel complexer omdat die met OWL2 werkt.

  • zoek naar of vraag bestaande ontologieen op
  • die kun je binnen halen, soms haalt hij dan gerelateerde ontologieen meteen ook binnen. In bestaande beschrijvingen verandert niets meer, er wordt alleen maar toegevoegd. Op moment dat je t systeem weer opstart wordt de nieuwe versie wel ingelezen.
  • eerst zorg je dat er objecten zijn
  • dan ga je naar de Properties (de relatiebeschrijving) waarmee je relatie tussen de objecten legt. De structuur is bijv: Organisatie organiseert event
  • Voor een thesaurus kun je hem ook gebruiken: Een BT (instance) kan meerdere  NT bevatten. NT is een ‘Inverse Slot‘ Je kunt hem uitvoeren als html bijv. Ziet er wel aardig uit. Je kunt dan omhoog en omlaag in de thesaurus

Maak eerst de klassenstructuur aan de linkerkant goed: als je eigenschappen gaat toevoegen moet je zorgen dat ze in de goede klasse blijven, dus dat pas in en latere fase uitbreiden.

Turtle OWL is een relatief vrij goed leesbaar uitvoer formaat.

Als je er een RDF script op los laat kun je hem publiceren op je website.

Metis-raamwerk voor kenniskaarten handig als startpunt.
Wat ouder model maar vrij compleet.
NEN 2084 NEN taxonomie van document types.

Relaties

  • Asserted relaties
  • Infered relaties (als bepaalde elementen een relatie hebben hebben ze onderling ook een relatie)

Als je later elementen gaat toevoegen, loopt je systeem (Protege bijv) je termen door en zorgt voor inferentie.
Om dat ook te koppelen aan de documenten die je hebt heb je daarvoor heb je een automatisch indexeersysteem nodig om dat ook te updaten.

————————–

RDF

Alles hangt met alles samen.
Triples inde triplestore en met een zoekactie komen ze daaruit als je ze nodig hebt.
URI is altijd uniek: beschrijven individuele dingen, soorten dingen, eigenschappen, waarden. Ook naar abstract concepten. Fragment identifier = stukje dat je na de # hebt : elementen uit je ontologie
Beschrijving van bronnen in eenvoudige eigenschappen., presentatie in graphs.
Informatie te bewerken door applicaties, model voor uitwisselen van informatie.
Granularity shift : from record to statement,/ statements in graphs

RDF-graph

Namespaces :

RDF: http://www.w3.org/1999/02/22-rdf-syntax-ns#

RDFs: http://www.w3.org/2000/01/rdf-schema#

OWL: http://www.w3.org/2002/07/owl#

@prefix skos: <http://www.w3.org/2008/05/skos#&gt;

——

Nederlandse DBpedia

Lezen:

verder:

————————-

Goh, goede cursus, maar wel pittig!

Cursus Introductie Semantisch Web ochtend

1 Reactie

GO heeft een nieuwe cursus : Introductie Semantisch Web. De eerste cursus is vandaag, 29 oktober 2012, en daar ik ze een beetje opgestookt heb om deze cursus op te zetten was ik er als de kippen bij om hem te volgen.

De aankondiging:

Semantisch web: de volgende fase in de ontwikkeling van het internet

Na web 2.0 is het semantische web de volgende fase in de ontwikkeling van het internet. De toegevoegde waarde van het semantische web met zijn verfijnde datastructuren wordt in onze informatiewereld steeds duidelijker.
Semantische modellen (zoals bijv. ontologieën), gaan ervoor zorgen dat het delen en uitwisselen van gegevens en het distribueren ervan duidelijk betere mogelijkheden en resultaten geeft dan het huidige ‘documenten-web’. Bovendien kunnen zij nieuwe informatie genereren.

Het programma:

  • Het idee achter het semantische web
  • Verschillen tussen het semantische web en de web versies 1.0 en 2.0
  • Onderdelen van het semantische web
  • Basismodel voor het semantische web: de ontologie
  • Verschillen tussen de kennisorganiserende systemen:
    • classificatie
    • taxonomie
    • thesaurus met de ontologie
  • Opvolger van HTML en XML voor het semantische web: RDF (Resource Description Framework)
  • Publiceren en zoeken en vinden op het semantische web

Docent is Leo Meerman http://nl.linkedin.com/in/leomeerman 6 cursisten.
Een verslag van de cursus.

Centralistische oplossingen zijn niet altijd ‘de’ oplossing.

‘To know – to like – to trust’

Webversies

  1. Web 1.0 web van documenten en hyperlinks. Gaf extra dimensie aan manier om met informatie om te gaan
  2. Web 2.0 communicatie en user generated content.
  3. Web 3.0 semantische relaties en redeneren (inferencing)

Semantische web opbouw van onder naar boven

  • Uri / IRI en Unicode basis waar je goed afspraken over moet maken.
  • XML uitwisselings format / namespaces : plek war je data weg kunt zetten, authority list. Gebruikmaken van gespecialiseerde afspraken
  • XML query en schema
  • RDF model basis voor semantische web. Syntax. w3.org wat eenmaal gedefinieerd is verandert niet meer
  • Ontology
  • Rules / Query en Logic dat is wat ontology onderscheid van taxonmie en trefwoordenlijsten
  • Proof is het bewijsbaar in machineredeneringen
  • Trust

Idee semantische web: structure to the meaningful content (Tim Berners Lee). ‘De computer weet wat ik bedoel’.  Het semantische web is geen afzonderlijk web, maar onderdeel van.

Data is the new raw material of the 21st century (Francis Maude)

  • put info into datasets
  • create data not records

Anyone can say Anything about Any topic

Open World Assumption zie ook tekst van Nick Drummond daarover: ‘sometimes its nice to know what we don’t know’.

  • OWA : per definitie is informatie incompleet, een ontologie wordt nooit compleet,
  • bewust beperkt definiëren ,
  • anderen toestaan data te hergebruiken en uit te breiden,
  • hergebruik kan nuttig zijn.

Bedrijfsleven is wat voorzichtiger met omgaan van Linked Open Data (LOD) dan de overheid. Inzicht krijgen door combinatie van externe open linked data te combineren met interne linked data.

Web van data -> hyperdata.

Inventarisatie van ontologieen die aan regels voldoen DBpedia.

Medium: gedistribueerde data, netwerk

Al hebben meerdere ontologieen dezelfde naam, ze staan toch op een ander adres (URI)

Tools:

  • ontwerptalen RDF RDFS (RDF + nog wat erbij)  OWL (Web Ontology Language) (met nog wt erbij)
  • zoeken SPARQL
  • kennisorganiserende systemen SKOS

RDF

RDF beschrijft resources: een persoon, een ding, een artefact, eniteit, object. zowel oncreet als abstract. Zelfstandige naamwoorden: werkwoorden zijn de relaties ertussen.

Uniform resource identifier (URI).

RDF bestaat uit Triples:  Triple = bewering bestaande uit 3 onderdelen:

  • formulering: subject <predicaat> Object (of waarde) bv:  Jan is een persoon.
  • taalkundig: onderwerp <gezegde> lijdend voorwerp (meewerkend voorwerp ed zijn weer andere triples)

Er zijn standaard ontologieen die standaard meegeleverd worden FoaF (friend of a friend)

  • Een hand is een lichaamsdeel
  • Een hoofd is een lichaamsdeel
  • Een lichaam heeft lichaamsdelen
  • Een stoel is een meubelstuk
  • Een boekenkast is een meubelstuk / inverse relatie: Meubelstuk staat in een huis
  • Een piano is een muziekinstrument
  • Een piano is duur
  • Jan maakt muziek
  • Muziek maken is leuk
  • Schrijven is werk
  • Hamlet is een titel
  • Hamlet is een karakterrol
  • Hamlet is een boek
  • Hamlet is een toneelstuk
  • Jan speelt Hamlet
  • Sharepeare schrijft Hamlet
  • Werk is leuk
  • Wandelen is ontspanning
  • Ontspanning is leuk
  • Wandelen is goed
  • Zomertijd is onzinnig

Triples komen terecht in een RDF triple store daar worden weer ontologieen op losgelaten (Ontologies of objects) zoeken met SparQL. Er zijn nog veel meer van deze voorbeelden.

Basismodel van de ontologie is beschrijven allerlei relaties in triples, eigenlijk is dat niet zoveel anders dan velden in een record. Neem daarvoor een tool dat meteen de gegevens weg kan schrijven als RDF.

Een ontologie bestaat uit concepten die volledig zijn beschreven en waarin geen dubbelzinnigheid meer aanwezig is. Informatie dien je op te delen in meerdere triples als je het niet in een triple kunt wegschrijven. Als je dat niet doet, boet je in op de kracht van je semantische web.

Vanmiddag verder

Semantic Web

Laat een reactie achter

Het semantisch web is ‘in’:  je struikelt over de posts.

Deze bijv Semantic Web offers challenges and opportunity (The Globe and Mail)

While the Semantic Web offers opportunities for businesses to better use the information they already have by linking it and combining it with other datasets, there’s a challenge: Today, the tools for building semantic solutions aren’t always accessible to non-technical users.

“That’s really the big problem I see for SMBs and the Semantic Web: the tools are too costly, and the setup and the domain knowledge to create those ontologies [are] too costly to really do anything of significance at the moment,” Ms. Mueller says.

Of deze: For Poderopedia, It’s All About Semantics

One of the first technological decisions we made in Poderopedia, a project by Poderomedia Foundation that aims to promote greater transparency in Chile by mapping and visualizing the relationships among the country’s elite, was to adopt semantic technologies to store and query data.

We decided to use OWL (Web Ontology Language) … use linked data …Our Ontology is open and available for everybody to use.

Protege -new Ontology Software

Laat een reactie achter

From: Taxodiary -product Data Harmony- blogpost: The Meanings of Ontology

What we find is that “ontology” is a word like “facets”; it is searching for a real definition. Until the various knowledge and research communities fully coalesce, I don’t think we will know exactly what someone means by “ontology”. That means when you start a conversation with someone about an ontology it is best to first set the syntactical framework of your conversation. What do they mean when they say ontology?

Stanford University has developed an ontology software called Protégé, which people seem to either love or hate: open source software and it is available.

Protégé is a free, open source ontology editor and knowledge-base framework.

The Protégé platform supports two main ways of modeling ontologies via the Protégé-Frames and Protégé-OWL editors. Protégé ontologies can be exported into a variety of formats including RDF(S), OWL, and XML Schema. (more)

Protégé is based on Java, is extensible, and provides a plug-and-play environment that makes it a flexible base for rapid prototyping and application development. (more)