GO cursus Semantisch zoeken deel 2

Laat een reactie achter

Vervolg van de ochtend

Facebook graph search wertk alleen als je de taal verzet naar English US.

Dan krijg je ook een merkwaardige hoeveelheid suggesties bijv met vragen als ‘Favorite books of people who …”
Wat voorbeeld searches http://wrightimc.com/blog/2013/08/12/the-giant-list-of-facebook-graph-search-queries/

Bepalen van betekenis

Gestandaardiseerde markering van kenmerken van webpagina’s

  • recipe search bij Google
  • toepasing e-commerce ontology

Standaarden daarbij: microformats (rich snippets) metadata en RDFa.
Google recepten zit sinds kort ergens anders en is t veel onoverzichtelijker geworden. Bij Yahoo is t handiger: http://recipes.search.yahoo.com/
In Chrome kun je browser extensies installeren om de embedded metadata overzichtelijker te tonen.

RDFa standaarden zijn gegevens waarbij in de ‘property’  op de XHTML pagina  codes zijn opgenomen uit de GoodRelations ontology met termen (waneer er bijv een bedrag genoemd wordt) als : hasCurrency en hasPriceType.
Google, Yahoo, Bing en Yandex gebruiken Schema.org als standaard: hierin zijn ook de GoodRelations termen geincorporeerd.

Examining Real World Uses Of Rich Snippets & Markup (SearchengineLand) vaak is dit vanuit de searchoptimalisatie techniek.
De zoeker kan gerichter zoeken en filteren, maar ook in de snippets kan duidelijkere informatie getoond worden.

Microdata.reveal en Semantic insepctor zijn browser tools voor Chrome. Een andere is de Creative commons laser highlighter.
Als je die geïnstalleerd hebt zie je icoontje bovenaan wanneer dat van toepassing is, en als je daarop klikt zie je ze ingrediënten ed overzichtelijker dan vaak op de pagina staat.
Goodreads en Last.fm makenook gebruik van metadata.
Google heeft ook zoiets als de ‘Structured Data Testing Tool’: http://www.google.com/webmasters/tools/richsnippets daar plak je dan een url in en toont hij het wat overzichtelijker. voordeel is dat je geen extensies hoeft te installeren.

Resource Description Framework (RDF)

RDF is standaard waarmee relaties tussen object en metadata wordt beschreven.
Via Namespaces wordt naar gebruikte metadatastandaarden te verwijzen.RDF is bedoeld om bestaande semantische systemen te hergebruiken RDF in XNML en RDFa ook in HTML pagina’s.

Eigenschappen worden vastgelegd in Triples: subject <predicaat> object waarbij het te beschrijven ding een URI (webadres) heeft, en de eigenschap en waarde liefst ook.
Voorbeeld: Shakespeare is de auteur van Hamlet.
Triples worden opgesalgen in een triple store.

VIAF: The Virtual International Authority File

The VIAF™ (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

Mensen en adressen in FOAF http://www.foaf-project.org/
Titels in Dublin Core
RDF browser: http://graphite.ecs.soton.ac.uk/browser/

Ontologieen
Vanuit filosofie afkomstig: vastleggen van betekenissen.”kennis-representatie” warin een stukje van de werkelijkheid geformaliseerd is weergegeven. Gaat verder dan een thesaurus: meer soorten relaties dan BT en NT. Wordt meestal niet rechtstreeks voor een ontsluiting gebruikt. Biedt ook mogelijkheid tot redenaties. Vastgelegde rollen en eigenschappen.

Core ontology is wat breder: bijv hele culturele erfgoed. CIDOC conceptual reference model zie voorbeeld veeld van Rodin http://www.cidoc-crm.org/crm_core/core_examples/balzac.html

In het kader van het semantische web wordt het vaak meer in algemene zin gebruikt en is het een aanduiding van een onderwerpsontsluiting. Computerleesbaar en geformaliseerd. Waarmee getracht wordt allerlei systemen interoperabel te maken. In Europeana wordt het toegepast.

Oude codes voor standaarden van beschrijvingselementen waren: v / mo / foaf / owl / geo al deze zaken worden nu vervangen door schema.org.
mo = muziek ontology

_______

Opdracht

________

Zoekmachines

Linked data

Via triples doorlinken naar andere data. Moet al wel voorgeprogrammeerd zijn.
Bedoeling: hergebruik, dus ook gestandardiseerd. Kan open of  niet  open zijn. Iedereen kan bijdragen, dus kan soms wat rommelig worden.
Worden bewaard in triple stores met zoektalen als SPARQL: is nog behoorlijk lastig / gespecialiseerd.
Endpoints zijn toegangspunten op het web waar je SPARQL zoekacties op RDF triple stores kunt uitvoeren.

3. Verbeteren van zoekacties

Vooraf en al dan niet geautomatiseerd.
Gebaseerd op statistiek, spelling, woordstam,.
Toevoegen van synoniemen, acroniemen en verwante en specifiekere begrippen aan query.

Achteraf bewerken van resultaat: clusteren op basis van inhoud vaak op basis van statistiek Clusty, Polymeta (Ask,Google,Bing,Yahoo) of op basis van automatische classificatie.

Gevonden alinea’s tonen waarin antwoord zou staan (KWIC index bijv Sensebot).
Samenvattingen genereren bv Factbites
Inmiddels 31 miljard data online met 504 miljoen links tussen de sets. DBpedia is heel erg centraal.

Semantische zoekmachines

Althans ze presenteren zich als zodanig:

  • Hakia : geeft niet thuis als je met meerderen wil inloggen
  • Kngine (let op resultaten in tabjes bovenaan) matig resultaat, maar beter dan de andere twee
  • Cluuz : gewone werkt niet, ask.cluuz.com geeft niet thuis als je met meerderen wil inloggen
  • Unsilo nog in ontwikkeling: ‘invite’ aanvragen

GO cursus Semantisch zoeken deel 1

1 Reactie

Verslag van de cursus Semantisch zoeken op 29 januari 2014 ochtend programma.

De eendaagse cursus Semantisch zoeken leert u wat semantische zoektechnieken zijn. Ook krijgt u meer informatie over de achtergronden en de toepassing van semantische technieken.

Gegeven door Eric Sieverts / sites.google.com/site/sieverts . Zijn PPT van maart 2013: Semantisch zoeken. Geassisteerd door Jeroen Bosman (twitter).

Ik heb er zin in: ben zelfs een uur te vroeg aanwezig, gelukkig mag ik al naar binnen,  is er koffie en is het er warm.

De definitie van Wikipedia van Semantisch web:

Het semantisch web verschaft een standaard framework waarmee data gedeeld en hergebruikt kunnen worden.[1] Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium (W3C).

Het semantisch web is geen synoniem voor Web 2.0, zoals soms wel wordt verondersteld. Tim Berners-Lee beschreef het semantische web als een component van ‘Web 3.0’.[3] Soms wordt het gebruikt als synoniem voor Web 3.0, hoewel de definities verschillen

Ofwel op zijn engels:

The Semantic Web is a collaborative movement led by international standards body the World Wide Web Consortium (W3C).[1] The standard promotes common data formats on the World Wide Web. By encouraging the inclusion of semantic content in web pages, the Semantic Web aims at converting the current web, dominated by unstructured and semi-structured documents into a “web of data”. The Semantic Web stack builds on the W3C’s Resource Description Framework (RDF

De Nederlandse versie van wikipedia heeft geen apart lemma voor Semantisch zoeken, de Engelse wel:

Semantic search seeks to improve search accuracy by understanding searcher intent and the contextual meaning of terms as they appear in the searchable dataspace, whether on the Web or within a closed system, to generate more relevant results.

12 deelnemers.

Semantisch zoeken
Semantisch web is het web, Semantisch zoeken kan in principe in elk systeem.
What is semantic search? 10 Things that Make Search a Semantic Search Uitleg op de Hakia website, Hakia zegt zelf een semantische zoekmachine te zijn. Deze elementen  zitten er vaak wel in, focus op zoektermen formuleren in de natuurlijke taal, begrip van wat enerzijds gebruiker, anderzijds in de tekst ‘eigenlijk’ bedoeld wordt.

Seth Grimes: Breakthrough Analysis: Two + Nine Types of Semantic Search:  There’s more to it than offering related results. Here are 11 approaches that join semantics to search.Semantisch web is klaargemaakt web zodat er semantisch in gezocht kan worden.
Meningen over toepassing / aanwezigheid ervan lopen uiteen, deels is het er nog niet, maar het gaat wel die kant op.
Semantisch zoeken gaat steeds beter, gemakkelijker en ook voor gebruiker onzichtbaarder. Wordt ook steeds meer in enterprise toepassingen ingebouwd.Ook veel uit hoek van zoekoptimalisatie:

Soorten toepassingen

  1. Inschatten intentie gebruiker
  2. Bepalen van betekenis in tekst (vooraf bij indexeren of achteraf in zoekresultaat)
  3. Automatisch aanpassen van zoekacties tbv beter resultaat

1. Intentie zoeker

Kan bepaald worden uit

  • locatie zoeker (IP / GPS – GSM)
  • analyse vraag
  • – namen (facebook/linkediGoogle Knowledge Graphn)
  • – vaste combinaties woorden
  • – naturlijke taal interpetatie Wolframalpha)(
  • – statistiek frequente vragen (Google)
  • op basis van eerder zoekgedrag

Voorbeeld:

  • Google vraag ‘Restaurant amsterdam’ : dan krijg je niet een lijstje met items waar die twee termen in voorkomen, maar daadwerkelijk een lijstje met restaurants in Amsterdam.
  • Google vraag ‘Bach’ krijg je meteen een bepaalde Bach uit de zoveel miljoen geselecteerd mn Johann Sebastian. (Knowledge Graph) dus gegevens over hem, niet websites over hem.

Knowledge Graph
Hoe komt KG aan gegevens?

‘Graphs’ kom je tegenwoordig overal tegen: andere manier om gegevens te visualiseren. Geeft relaties tussen objecten aan.

Vaste combinaties

Feitelijke antwoorden als je bv melting point silicon intikt, population amsterdam, Rhein vs Schelde (krijg je netjes twee rijtjes, appelen en peren vergelijken).
Let wel: je moet zowel google.com hebben als de schermtaal op Engels, anders doet hij dat niet!

Bing heeft met Satori  iets soortgelijks, maag nog niet altidj zo slim als Google, maar ze worden wel steeds beter.

WolframAlpha

Gaat nog iets verder met interpreteren van zoekvraag.

___________________

Opdrachten : http://webzoek.pbworks.com/w/page/73494392/semant

Conclusie: nog lang niet voor alles zijn er concrete antwoorden te verkrijgen. Ligt aan onderwerp, maar ook aan formulering.
Duckduckgo laat soms ook meteen resultaten en haalt dat uit diverse databases als Wolfram alpha of Wikipedia.

___________________

2. Bepalen van betekenis in tekst

Herkennen van entiteiten in tekst van gevonden resultaten: Philips als een bedrijf bv.,  van sentimenten (positief of negatief), embedded data, linked data.

Entity extraction / Auto-generated tags:

Herkennen van teksten via Open Calais. (Daar kun je een stuk tekst inplakken http://viewer.opencalais.com/, die analyseert dat, de ene keer beter dan de andere keer. Dat systeem kan zo ‘automatisch’ metadata aan teksten of woordcombinaties hangen: dmv woorden die er al inzitten)

The OpenCalais Web Service automatically creates rich semantic metadata for the content you submit – in well under a second. Using natural language processing (NLP), machine learning and other methods, Calais analyzes your document and finds the entities within it. But, Calais goes well beyond classic entity identification and returns the facts and events hidden within your text as well.

The tags are delivered to you; you can then incorporate them into other applications – for search, news aggregation, blogs, catalogs, you name it

Zemanta doet iets soortgelijks voor bloggers: maakt linkje naar wikipedia artikel. Gaat op zoek naar plaatjes die je in je blog zou kunnen zetten, en naar related articles. Is wel wat beperkter dan wat uit open Calais komt.

Gestructureerd opslaan

Facebook slaat alle gegevens gestructureerd op in Graph. De engelse versie heeft ook een graph search . (Zoekvraag als: Mensen die in de buurt van Amsterdam worden en werken bij  KNAW)

Automatisch categoriseren

Via Machine learning systemen, getrained op basis van taxonomie of thesaurus. Kan ook op sentiment. Tweetfeel deed dat, maar dat werkt nu niet meer.
Automatische classificatie bijv op Dewey code http://act-dl.base-search.net/ Google herkent objecten in images, ook als dat niet als metadata is meegegeven. Honden bijv.
Pinterest is daar mee begonnen met filters voor recepten, maar erg goed is het niet.
Dit soort dingen gaan ook wel vaak fout.

Sentiment detection:

  • Social Searcher:  http://www.social-searcher.com  Zoekt in 3 sociale media en toont onder tabblad “Analytics” het “sentiment” van gevonden berichten

________________

Opdracht 2 t/m 5

__________________

Vanmiddag verder…

Heterdaad RWS : Content integratie + databases #DIM13

Laat een reactie achter

Zie meer info op de site van de Digitale Spin: Contentintegratie en databases.

Peter Nieuwenhuizen en Rita van Leeuwen.

Doel digitale informatie bronnen goed ontsluiten.
Goede search engines. (nu Fast van SP zou HP autonomy kunnen worden)


Digitale bibliotheek

Toegang via intranet.
Kennis en expertise is bibliotheek pagina
Nieuws, AZ lijst, links je naar bronnen.

Bronnen
– diversiteit
– Databases (nenconnect bv)
– full-text documenten
– portals (Kluwer)

Ebsco A-Z lijst
Titel. Vanaf wanneer, uitgever
Klik naar full-text.

Aansluiting bij beleving klant (google)
Probeer dat als norm te laten gelden.
Vooral niet zelf beheren, maar daar laten staan.

Kluwer is lastig, moet je jaar de site zelf.

LinkSource

Om artikelen vindbaar te maken. Via DOI.
Voorkeur Google Scholar en koppeling LinkSource.
Rechts links naar full-text, onder more zit ibl formulier naar Picarta.

EDS (discovery service)
1 zoekactie in meerdere bronnen.
Ranking inhoud. (kennisplein eerst)
Catalogus ontsloten, asfa (Proquest) , nieuws databases (AP, UPI) , Kluwer, picarta.
Plannen voor Ebsco : toevoegen Narcis, Academie, datasets Data Planet.
Plannen RWS: sdu, Kluwer, Yammer.

Lay-out kun je maken zoals jezelf wil.
Links en rechts clusteren.
Links:Vergroten of verkleinen bronnen, materiaal, taal, onderwerp
Rechts : Aanvullende bronnen bv Twitter. (In paar seconden wordt dat uitgevoerd) (leuk dat)

Grootste winst is je eigen rapporten en catalogus en de diverse betaalde zoeksystemen met eigen ingang samen te voegen in een zoekactie.
Aanpassen Ranking is wel te dien.
Ebsco loopt wat achter qua nederlaag bronnen dan C-content (?)

Vraag Ranken op aantal citationscitations?
kan niet.

—-

Presentatie: Content Integratie.pdf / Peter Nieuwenhuizen + Rita van Leeuwen

Discovery in Hogeschool Arnhem en Nijmegen #ebscodag

Laat een reactie achter

Maarten Hekman is gisteren naar tandarts geweest, dus praat nog wat moeilijk.
Hij houdt niet erg van Social media maar wil wel graag delen.

Han Quest.
Is de naam die ze aan hun tool geven.
Je kunt er online bij.

Vraag : waarom discovery?
We hadden federatieve zoekmachine maar die werd steeds slechter, en hanquest kreeg een slechte naam.
Er zijn er meer: Summon / primo / eds
Eds kwam steeds beter uit de vergelijkingen, we maakten zelf ook vergelijkingen.
Kosten waren een van de belangrijkste reden om voor Eds te kiezen, oa omdat linkresolver er ook al inzat.
We zijn er een jaar mee bezig geweest, waaronder een half jaar intensief.
Ebsco zelf heeft er ook veel tijd in gestoken.
Een van de redenen is ook dat we iets speciaals wilden: de widget middenop.

Doet het ook op tablet.
Verfijnen: Met heel veel opties. Ziet er goed uit!
Databases kun je aan en uitzetten.

Kun je vooraf ook beperken?
(grappig is dat die vraag alleen van collega’s komt)
Ja kan wel, maar in hoeverre wil je dat? Google achtige ervaring wil gebruiker en dat is zoeken in ‘alles’ met zo weinig mogelijk franje.
Er blijkt steeds minder gebruik gemaakt te worden van vooraf inperken.
De vakgebieden die we daar aanbieden sluiten wel aan bij onze opleidingen.

Fuzzyu
Hoe blij word je als je zoekt op Artis en je krijgt ook spaanse resultaten Artes?
Ja dat blijft een punt.
Google is ook niet perfect, en wordt zelfs steeds slechter, en dit systeem ook niet.

Volgens hem kun je er alleen van buiten af met user/password in, maar ik kan er gewoon bij…

image

Opmerking uit de zaal : ik ben niet blij met mensen die met zo’n discovery tool zijn opgeleid : hun zoekvaardigheden zijn minimaal.
Hanquest is geen ultieme oplossing, maar het helpt wel. De studenten die van de middelbare school komen kunnen echt helemaal niets. Dit maakt het ze iets gemakkelijker.
Dus er zijn zeker voordelen.

Wat zit er niet in
Voor alle discovery tools is dat een probleem.
Veel van wat voor onze studenten belangrijk is zit er niet in.
Veel Nederlandse uitgevers bijv.
Maar oom Picarta, SDU.

Wat kan er nog meer beter.
Functionaliteit is redelijk goed. Ontbrekende NL uitgevers is ergste.
Linkresolver van groot belang voor juiste toegang.

We zijn twee maanden live, nog niet te zeggen hoeveel tijd hij aan beheer kwijt is.
________________

Goh… Complimenten!

Henk van Ess: “LET’S GET PERSONAL met Facebook Graph Search en Google Now” #voginip

Laat een reactie achter

Van de website

 henkvanessHenk van Ess
O.a. voorzitter van Vereniging van Onderzoeksjournalisten, auteur van “Handboek Datajournalistiek” en “De Google Code“, internetdocent en -consultant
| voelspriet | twitter | G+ |
Lezing: “LET’S GET PERSONAL met Facebook Graph Search en Google Now”
Zoeken wordt in 2013 persoonlijk. Speciaal voor ons congres geeft Henk van Ess een exclusief kijkje in de wereld van “persoonlijk zoeken”. Voor het eerst op een congres in Nederland wordt de nieuwe zoekdienst Facebook Graph Search getoond die pas in het voorjaar voor het publiek toegankelijk is. Wat is Facebook van plan met zijn enorme database van miljoenen persoonlijke details? Van Ess laat zien dat je met soms griezelige precisie zaken over mensen te weten kan komen die ze zelf al lang vergeten zijn. Ook is er aandacht voor Google Now – de dienst waarmee Google vooraf wil voorspellen wat jij wilt


Zeer bekend in de informatiewereld, ook bij mij. Althans van Twitter en Voelspriet, ik heb hem eigenlijk nooit life gehoord.
Ikzelf heb een poosje geleden toch maar Google Now toestemming gegeven op mijn Galaxy Note 2 (privacy is zo overrated) dus benieuwd wat hij te vertellen heeft.

—-
Henk vraagt of er vragen zijn.
Laat stukje zien van vragen aan Google.

Door de tablets en smartphones hebben ze al heel veel persoonlijke info van iedereen.
Welke diensten worden daaraan gekoppeld.

Apple
Maps. Ze willen graag weten wanneer je iets doet en waar. Op basis daarvan voorspellen wat wil de consument.

Google Knowledge Graph
Deze techniek kun je nu al beetje zien http://www.google.com/ncr (no country regions)

Facebook Graph search
Alleen nog in Amerika.

Google Now
(tip The verge)
Ziet er spooky uit, maar is gewoon info die jezelf hebt verstrekt natuurlijk.
Wat je zoekt ben jezelf.

Facebook
Openbare informatie van mensen
Je ziet foto’s, je kunt downdrillen. Heb je relatie, religie ed.
Van bijv mensen die bij OBA werken kun je gemiddelde opleiding bekijken. Enzovoort (spelletjes van mensen die bij TUD werken; bars in België bezocht door mensen die bij van ministerie defensie werken) enzoverder.

Joost Janssen: “Enterprise search, waarom niet en wanneer wel – de PWC casus” #voginip

Laat een reactie achter

Van de website:

 joostJoost Janssen
Online Channel Manager bij PwC en naast de intranetportal binnen de afdeling Marketing & Knowledge Management ook verantwoordelijk voor diverse systemen gebaseerd op communicatie-, informatie- en kennistechnologie.
| LI | twitter | G+ |
Lezing: “Enterprise search, waarom niet en wanneer wel – de PWC casus”
‘We know more than me’ … geldt ook voor een netwerkorganisatie als PwC. Met ruim 4.500 professionals in Nederland en 169.000 professionals wereldwijd is het een grote uitdaging om de enorme potentie van de ‘collective intelligence’ van PwC te ontsluiten. Joost laat in zijn presentatie zien voor welke uitdagingen PwC staat in deze tijd. Welke systemen zet PwC daarvoor in en welke rol speelt zoektechnologie daarbij?

Kan me herinneren eerder een lezing over PwC gehoord te  hebben (NVB 2009), en was gelijk jaloers over hoe ze t daar geregeld hadden! Benieuwd hoe het verder is gegaan.
—–

Veel knappe koppen id organisatie is fijn, maar je hebt er niet veel aan als ze niet connected zijn.
De groep zou dus intelligenter moeten zijn dan de knapste kop.
Van Google zijn we lui geworden.
Je wilt met 1 term info hebben die actueel, relevant en betrouwbaar is. En dat gaat natuurlijk niet.
Enterprise search heeft nooit gewerkt en waarom niet?
5 redenen
– aparte zoek voor nieuwsberichten en overige content en daarnaast zijn er ongeveer 100 systemen, vrijwel onmogelijk die door 1 systeem laten doorzoeken
– zelfs nieuws heeft meerdere interfaces, een aparte voor alerts. Daar hebben we prijs mee gewonnen in 2008
– aparte kennisdatabase .enige applicatie met taxonomie. Die is aan t verouderen. Is bijna ondoenlijk die bij te houden.
– relevantie actualiteit betrouwbaarheid : systeem weet niet goed hoe die zich verhouden. Vaktechnische is betrouwbaar belangrijk, nieuws actualiteit. Veelheid maakt t ook onmogelijk .
– Informatie neemt enorm toe. Moet je die van alle metadata voorzien?
Technische ontwikkelingen zijn niet bij te houden, dus waarom zou je dat doen. Solomon (sociale local mobile)
Zoektechnologie weet niet goed wat ze mogen laten zien: Legale problemen zijn ook legio. Mag je die info wel uitwisselen.

Business case : men us bereid te investeren voor de aanschaf maar niet te voor de implementatie. Bijna onmogelijk hard ts maken dat goede search geld oplevert.

Content
Er is zoveel content dat je al lang door de bomen het bos niet meer ziet.
Implementeer sociale media platforms.
Spark: platform voor mensen en communities
Zoeken op persoon geeft drie soorten info over persoon, wat deze gemaakt heeft en waar deze deel van uitmaakt.

Antal vd Bosch: Text mining #voginip

Laat een reactie achter

Van de website:

antalAntal van den Bosch
Hoogleraar aan de Radboud Universiteit bij het Centre for Language Studies en het Centre for Language and Speech Technology. Hij houdt zich onder meer bezig met onderzoek hoe computers taal kunnen leren begrijpen en genereren.
| web | twitter | scholar | G+ |
Lezing: “Text mining: automatische en grootschalige analyse van entiteiten en gebeurtenissen in tekst”
Voor text data mining zijn de afgelopen 20 jaar technieken ontwikkeld om greep te krijgen op informatie die in geschreven en gesproken tekst besloten ligt. Om dat te kunnen, moet je in de eerste plaats voldoende van de taal weten – en die problematiek is nog altijd niet volledig opgelost. In de tweede plaats gaat het om zo veel tekst dat je de technieken wel moet automatiseren, waarvoor slimme methoden van indexering en retrieval nodig zijn. Antal zal een aantal voorbeelden behandelen waarin deze problemen worden aangepakt. Informatie over personen, organisaties, plaats en tijd die wordt herkend in historische teksten (kranten, reisverslagen), kan worden gebruikt om daarin gebeurtenissen te ontdekken en te voorspellen. Uit actueel nieuws en dagelijkse tweets kan zinvolle informatie over gebeurtenissen worden afgeleid. Dit zal hij in verband brengen met toekomstige persoonlijke toepassingen voor informatie zoeken en recommendatie, zowel “negatief” (het filter bubble probleem) als “positief” (information liberation).

—-

Information vs language

Er is al heel veel curated info aanwezig, maar nog veel meer ‘vrije’ tekst.
54 miljard web pagina’s. In heel veel talen.
Geïndexeerde web en 1000 keer zo klein als web achter poortjes.
Taal is heel rijk, maar je kunt ook met taal dingen verbergen.
Bv Door een taal te speken die een ander niet verstaat.
Positie van waaruit je iets beschrijft kan groot verschil maken.
Lukt zeker niet om alle info die in de massa tekst zit eruit te peuren.

Echte informatie behoefte bijv
– wat zijn mogelijke reden van iets
– welke gebeurtenissen gaan er plaats vinden die impact kunnen hebben
Wat voort soort woorden kom je dan tegen.

Voorbeeld: stakingen die nooit gebeurd zijn.
Dat valt af te checken aan de database van stakingen die wel gebeurd zijn.
Zoek dan in kranten archief van de week ervoor : dan maak je soort spamfilter.
Die kun je op andere weken loslaten en kijken of dezelfde info daaruit komt.
Kb heeft een fantastisch archief van kranten berichten
Leuk onderzoek dat.

Voor Naturalistische en ANP hebben ze ook dat soort spamfilter gebouwd.
Predicting events in social media.

Machine vertaling, sprekersherkenning, data clearing.

Meertaligheid probleem.
OCR probleem bij kranten. (veel van t kb archief is vrij slecht van origine, toch kom je er een eind mee.)
Spraak herkenning.
Valkuilen et spelling correction

Phil Bradley: What’s up with Google and other search engines? – The changing landscape of web search #voginip

Laat een reactie achter

Van de website:

Keynote: “What’s up with Google and other search engines? – The changing landscape of web search”
The role of social, or real time media is becoming more important as we move to an internet experience that emphasizes the role of the creation of content. Information professionals need to utilise real time media in order to both cope with the needs of their members, but also to ensure that kthey continue to have an important role to play in the future. This presentation will look at ways in which we can use search and search engines to do this.

—-

Na de workshop de Keynote: ik hoop dat hij niet al te veel gaat herhalen

—-
Traditionele zoekmachines focussen op web pagina’s.
Als gevolg daarvan wordt vaak ouder materiaal gevonden.
Nieuwe pagina’s komen vaak niet zo hoog in de ranking.
Ze geven ook weinig indicatie over authority.

Google is een advertizing company, niet echt een organisatie die goede zoek opties ter beschikking wil stellen.
We hebben meestal geen idee waar de informatie vandaan komt.
Daarom is de kwaliteit van de data vrij slecht.. Dan krijg je ook dat mensen denken dat ‘alles’ op Internet staat en met Google te vinden is.
Zoekmachines willen eigenlijk niet dat je denkt.. Google knows better than we do.
Google probeert alles tegelijk te doen, al antwoord te geven voor je t gevraagd hebt.

Search is broken

Er is niks mis mee dat je alles voor iedereen wilt zijn en aan advertenties wilt verdienen.
Maar goede zoek opties werken contraproductief voor hun belangen.

Internet zelf verandert ook.
Kijk eens naar wat er een Internet minuut gebeurt!
Als je alle foto’s op Flickr zou printen heb je 80 eifel torens.
Er worden meer iphone verkocht dan babies geboren.
Traditionele zoekmachines niet meer.
We willen weten wat die en die op Facebook zegt, of twitter, of pinterest.
Allerlei media – behalve Google – ‘linken in’ met Facebook.

Wat zeggen mijn vrienden?
ik heb ook vertrouwen in hun mening over websites waar ik naar zoek.
Dus als ik mijn zoekacties beperkt tot wat mijn vrienden goed vinden is de kwaliteit van mijn resultaat beter dan Waneer ik gewoon met Google zoek.

Google vecht terug en probeert daarom met Google + iets soortgelijks te doen.
Google communities.
Als Google niet slaagt met Google + zijn ze gedoemd te falen.
Wij zijn het kanonnenvoer dat gebruikt wordt door beide zijden.

Als iets belangrijk js
– gaan we naar bevoegde organisaties
– gaan we naar vertrouwde plaatsen
– vragen we bekende personen

Tot nu toe konden we dat met Internet niet, maar in de toekomst kan natuurlijk wel.

Wat zouden we moeten doen in de toekomst?
– actiever zijn op social media
– bijdragen aan internet
– deelnemen, commentaar geven
– mensen helpen
Dat kan heel waardevol zijn.

Connecting together.
Dat geeft veel betere info dan naar een anonieme zoekmachine te gaan.

Meer dan ooit kunnen we content creator zijn.
Via blogs. Bookmarking. Facebook, twitter etc, kunnen we info creëren en deze tools kunnen verbonden worden aan elkaar en bv met zite,scoop.it pulse ed en deze tools kunnen zien wat belangrijk is in jouw netwerk.
Pinterest, slideshare. Lanyrd (welke conferenties zijn er)
Met elke device kun je erbij: computers maar ook Smartphone ed.

Google glass : je neemt je zoekmogelijkheid met je mee.

Als t in mijn belang is kan gerust Google gebruiken.

Er is teveel informatie daarbuiten dan waar de traditionele machines mee om kunnen gaan.

We creëren ons eigen netwerk of knowledge.

(Haha aan de tweets in mijn netwerk is te zien dat men het niet met Phil eens is 🙂)

We moeten zeker doorgaan met gebruiken van social media.

Phil Bradley workshop Advanced search techniques and alternative search engines #voginip 28 februari 2013

1 Reactie

Van de website

Informatie over docenten en hun workshops bij de VOGIN-IP-lezing

philbPhil Bradley
Freelance librarian, internet consultant and trainer. Teaches advanced search techniques, speaks at international conferences and presents workshops on all aspects of searching. President of CILIP.
| web | weblog | webtoolssearchengines | twitter | G+ |
Workshop: “Advanced search techniques and alternative search engines”
Far from becoming easier, as some would have us believe, Internet Search is actually becoming more complicated, with an ever increasing number of specialist search engines wanting our attention. This workshop will look at some of the best ways of getting the best out of Google with some advanced techniques, as well as a focus on alternative and in some cases better search engines

Phil volg ik al jaren: ben reuze benieuwd!

——

Hij gaat t zowel over Google hebben als over andere zoekmachines. We krijgen een uitgebreide handout.
Hoeveel zoekmachines zijn er op Internet? Ligt eraan wat je ermee bedoeld. Als t over algemene zoekmachines hebt zijn t er maar een handvol.
Custom search of single site search zijn er veel en veel meer.

Type: denk eerst na over welk type je wilt gebruiken
Free text als je zomaar wat in wilt tikken
– Google Yahoo bing
Directory niet meer zo populair tegenwoordig
– Yahoo (is wat gegeneerd erover tegenwoordig) Open directory
– country based vaak in landen wel met info over t land.
Multi of Metasearch (laatste dedupliceren en ranken, veel gecompliceerder)
– Trovando http://www.trovando.it/
– Browsys

Google vindt nog steeds maar 10 procent van alles wat er is.

Site specific
Hidden web
– complete
Social search (Google is niet erg goed in social search)
– icerocket surchur twitter
Orthers

Google
Google as search engines is broken whitout repair
Maar evengoed heeft t geen zin om mensen aan te raden Google niet te gebruiken.
Google is een advertizing company, Google is geen zoekmachine, Google verdient niet aan zoeken, maar aan t kijken naar de advertenties.
Google heeft dus ook geen belang bij goede zoek opties te maken.
Google wil helemaal niet dat je zoekt, maar wil je de info meteen geven.

Google landen versie. Google Google Uk of com
Beste is. Com te gebruiken : alle nwe functionaliteit zit daar.
Valt niet te zeggen waar je precies in zoekt, elke zoekactie kan ander resultaat geven, zeker wanneer je personal account hebt geactiveerd.
Maar Google gebruikt daarbij nog van alles dat ze van je weten: geslacht, leeftijd, wat je eerder gezocht hebt op dat ip adres, waar je bent etc.

Ook kijkt Google naar de woorden die er omheen staan.
Woordvolgorde maakt uit, denk na over hoe het antwoord is geformuleerd in de web pagina die je zoekt.
– Libraries uk
– ” Libraries uk”
– exclude “Libraries uk” target – manchester
– additionele ferms “Libraries uk” target – manchester London
– woordvolgorde bepaalt ranking London “Libraries uk” target – manchester

More search options
– Synoniemen Met een tilde (zit niet op dit toetsenbord)
– near met een *
– proximity kan wel, maar heeft Google vergeten te vertellen (met around (x)) de
Bv national AROUND (5) manchester de nb exalead doet t beter, maar Google kan t dus wel.
– site: zoeken in site waar je t wil beperken

Hier is Google vrij goed in:
– site: snel inperken van resultaat
– link: wie lijkt naar iemand
– info: wie heeft info over deze url

– related: wie heeft dit soort info. Similar searches is daar veel beter in dan Google. http://www.similarsitesearch.com
Nb bij de tilde zoekactie kijk je naar woordnivo, related naar website.
Wrsl kan Google dat over meerdere talen doen.

Advanced search
Veel mensen denken dat dat moeilijk is, terwijl het in tegendeel juist gemakkelijker is.
Google verstopt de optie vaak.
Aantal opties kun je hier meteen aan vinken en krijg je mogelijke opties.
– Safe search. Terms appearing
Google filtert dan bepaalde woorden uit, er is een ‘naughty word’ list.
Je kunt hem maar beter uitzetten
– Reading level. Geldt alleen voor Engels.. Grappig om dat voor je eigen website te doen.
– Allintitle:
– filetype: soort info zit vaak in bepaalde formaten (officiële documenten vaak in pdf, cijfers vaak in xls)
– usage rights (als iets creative Common op een web pagina vindt, noemt hij alles zo. Dus dubbelsjekken. Beter naar bv Flickr gaan)

Allerlei search preferences
Google speelt met t aantal items die je van een bepaalde website vindt op de eerste pagina. Onduidelijk wat het gaat worden.

Google knowledge chart
Sterke social media component, veel google+.
Ze zijn van plan dat veel meer uit te gaan werken.

Personal results
Google kijkt ook naar wie je volgt bij Twitter, of google+ of je eigen email.
Hoeft op zich niet slecht te zijn, maar je moet het je wel realiseren.

Deel 1, koffiepauze.

Cursus Introductie Semantisch Web ochtend

1 Reactie

GO heeft een nieuwe cursus : Introductie Semantisch Web. De eerste cursus is vandaag, 29 oktober 2012, en daar ik ze een beetje opgestookt heb om deze cursus op te zetten was ik er als de kippen bij om hem te volgen.

De aankondiging:

Semantisch web: de volgende fase in de ontwikkeling van het internet

Na web 2.0 is het semantische web de volgende fase in de ontwikkeling van het internet. De toegevoegde waarde van het semantische web met zijn verfijnde datastructuren wordt in onze informatiewereld steeds duidelijker.
Semantische modellen (zoals bijv. ontologieën), gaan ervoor zorgen dat het delen en uitwisselen van gegevens en het distribueren ervan duidelijk betere mogelijkheden en resultaten geeft dan het huidige ‘documenten-web’. Bovendien kunnen zij nieuwe informatie genereren.

Het programma:

  • Het idee achter het semantische web
  • Verschillen tussen het semantische web en de web versies 1.0 en 2.0
  • Onderdelen van het semantische web
  • Basismodel voor het semantische web: de ontologie
  • Verschillen tussen de kennisorganiserende systemen:
    • classificatie
    • taxonomie
    • thesaurus met de ontologie
  • Opvolger van HTML en XML voor het semantische web: RDF (Resource Description Framework)
  • Publiceren en zoeken en vinden op het semantische web

Docent is Leo Meerman http://nl.linkedin.com/in/leomeerman 6 cursisten.
Een verslag van de cursus.

Centralistische oplossingen zijn niet altijd ‘de’ oplossing.

‘To know – to like – to trust’

Webversies

  1. Web 1.0 web van documenten en hyperlinks. Gaf extra dimensie aan manier om met informatie om te gaan
  2. Web 2.0 communicatie en user generated content.
  3. Web 3.0 semantische relaties en redeneren (inferencing)

Semantische web opbouw van onder naar boven

  • Uri / IRI en Unicode basis waar je goed afspraken over moet maken.
  • XML uitwisselings format / namespaces : plek war je data weg kunt zetten, authority list. Gebruikmaken van gespecialiseerde afspraken
  • XML query en schema
  • RDF model basis voor semantische web. Syntax. w3.org wat eenmaal gedefinieerd is verandert niet meer
  • Ontology
  • Rules / Query en Logic dat is wat ontology onderscheid van taxonmie en trefwoordenlijsten
  • Proof is het bewijsbaar in machineredeneringen
  • Trust

Idee semantische web: structure to the meaningful content (Tim Berners Lee). ‘De computer weet wat ik bedoel’.  Het semantische web is geen afzonderlijk web, maar onderdeel van.

Data is the new raw material of the 21st century (Francis Maude)

  • put info into datasets
  • create data not records

Anyone can say Anything about Any topic

Open World Assumption zie ook tekst van Nick Drummond daarover: ‘sometimes its nice to know what we don’t know’.

  • OWA : per definitie is informatie incompleet, een ontologie wordt nooit compleet,
  • bewust beperkt definiëren ,
  • anderen toestaan data te hergebruiken en uit te breiden,
  • hergebruik kan nuttig zijn.

Bedrijfsleven is wat voorzichtiger met omgaan van Linked Open Data (LOD) dan de overheid. Inzicht krijgen door combinatie van externe open linked data te combineren met interne linked data.

Web van data -> hyperdata.

Inventarisatie van ontologieen die aan regels voldoen DBpedia.

Medium: gedistribueerde data, netwerk

Al hebben meerdere ontologieen dezelfde naam, ze staan toch op een ander adres (URI)

Tools:

  • ontwerptalen RDF RDFS (RDF + nog wat erbij)  OWL (Web Ontology Language) (met nog wt erbij)
  • zoeken SPARQL
  • kennisorganiserende systemen SKOS

RDF

RDF beschrijft resources: een persoon, een ding, een artefact, eniteit, object. zowel oncreet als abstract. Zelfstandige naamwoorden: werkwoorden zijn de relaties ertussen.

Uniform resource identifier (URI).

RDF bestaat uit Triples:  Triple = bewering bestaande uit 3 onderdelen:

  • formulering: subject <predicaat> Object (of waarde) bv:  Jan is een persoon.
  • taalkundig: onderwerp <gezegde> lijdend voorwerp (meewerkend voorwerp ed zijn weer andere triples)

Er zijn standaard ontologieen die standaard meegeleverd worden FoaF (friend of a friend)

  • Een hand is een lichaamsdeel
  • Een hoofd is een lichaamsdeel
  • Een lichaam heeft lichaamsdelen
  • Een stoel is een meubelstuk
  • Een boekenkast is een meubelstuk / inverse relatie: Meubelstuk staat in een huis
  • Een piano is een muziekinstrument
  • Een piano is duur
  • Jan maakt muziek
  • Muziek maken is leuk
  • Schrijven is werk
  • Hamlet is een titel
  • Hamlet is een karakterrol
  • Hamlet is een boek
  • Hamlet is een toneelstuk
  • Jan speelt Hamlet
  • Sharepeare schrijft Hamlet
  • Werk is leuk
  • Wandelen is ontspanning
  • Ontspanning is leuk
  • Wandelen is goed
  • Zomertijd is onzinnig

Triples komen terecht in een RDF triple store daar worden weer ontologieen op losgelaten (Ontologies of objects) zoeken met SparQL. Er zijn nog veel meer van deze voorbeelden.

Basismodel van de ontologie is beschrijven allerlei relaties in triples, eigenlijk is dat niet zoveel anders dan velden in een record. Neem daarvoor een tool dat meteen de gegevens weg kan schrijven als RDF.

Een ontologie bestaat uit concepten die volledig zijn beschreven en waarin geen dubbelzinnigheid meer aanwezig is. Informatie dien je op te delen in meerdere triples als je het niet in een triple kunt wegschrijven. Als je dat niet doet, boet je in op de kracht van je semantische web.

Vanmiddag verder