GO cursus Semantisch zoeken deel 2

Laat een reactie achter

Vervolg van de ochtend

Facebook graph search wertk alleen als je de taal verzet naar English US.

Dan krijg je ook een merkwaardige hoeveelheid suggesties bijv met vragen als ‘Favorite books of people who …”
Wat voorbeeld searches http://wrightimc.com/blog/2013/08/12/the-giant-list-of-facebook-graph-search-queries/

Bepalen van betekenis

Gestandaardiseerde markering van kenmerken van webpagina’s

  • recipe search bij Google
  • toepasing e-commerce ontology

Standaarden daarbij: microformats (rich snippets) metadata en RDFa.
Google recepten zit sinds kort ergens anders en is t veel onoverzichtelijker geworden. Bij Yahoo is t handiger: http://recipes.search.yahoo.com/
In Chrome kun je browser extensies installeren om de embedded metadata overzichtelijker te tonen.

RDFa standaarden zijn gegevens waarbij in de ‘property’  op de XHTML pagina  codes zijn opgenomen uit de GoodRelations ontology met termen (waneer er bijv een bedrag genoemd wordt) als : hasCurrency en hasPriceType.
Google, Yahoo, Bing en Yandex gebruiken Schema.org als standaard: hierin zijn ook de GoodRelations termen geincorporeerd.

Examining Real World Uses Of Rich Snippets & Markup (SearchengineLand) vaak is dit vanuit de searchoptimalisatie techniek.
De zoeker kan gerichter zoeken en filteren, maar ook in de snippets kan duidelijkere informatie getoond worden.

Microdata.reveal en Semantic insepctor zijn browser tools voor Chrome. Een andere is de Creative commons laser highlighter.
Als je die geïnstalleerd hebt zie je icoontje bovenaan wanneer dat van toepassing is, en als je daarop klikt zie je ze ingrediënten ed overzichtelijker dan vaak op de pagina staat.
Goodreads en Last.fm makenook gebruik van metadata.
Google heeft ook zoiets als de ‘Structured Data Testing Tool’: http://www.google.com/webmasters/tools/richsnippets daar plak je dan een url in en toont hij het wat overzichtelijker. voordeel is dat je geen extensies hoeft te installeren.

Resource Description Framework (RDF)

RDF is standaard waarmee relaties tussen object en metadata wordt beschreven.
Via Namespaces wordt naar gebruikte metadatastandaarden te verwijzen.RDF is bedoeld om bestaande semantische systemen te hergebruiken RDF in XNML en RDFa ook in HTML pagina’s.

Eigenschappen worden vastgelegd in Triples: subject <predicaat> object waarbij het te beschrijven ding een URI (webadres) heeft, en de eigenschap en waarde liefst ook.
Voorbeeld: Shakespeare is de auteur van Hamlet.
Triples worden opgesalgen in een triple store.

VIAF: The Virtual International Authority File

The VIAF™ (Virtual International Authority File) combines multiple name authority files into a single OCLC-hosted name authority service. The goal of the service is to lower the cost and increase the utility of library authority files by matching and linking widely-used authority files and making that information available on the Web.

Mensen en adressen in FOAF http://www.foaf-project.org/
Titels in Dublin Core
RDF browser: http://graphite.ecs.soton.ac.uk/browser/

Ontologieen
Vanuit filosofie afkomstig: vastleggen van betekenissen.”kennis-representatie” warin een stukje van de werkelijkheid geformaliseerd is weergegeven. Gaat verder dan een thesaurus: meer soorten relaties dan BT en NT. Wordt meestal niet rechtstreeks voor een ontsluiting gebruikt. Biedt ook mogelijkheid tot redenaties. Vastgelegde rollen en eigenschappen.

Core ontology is wat breder: bijv hele culturele erfgoed. CIDOC conceptual reference model zie voorbeeld veeld van Rodin http://www.cidoc-crm.org/crm_core/core_examples/balzac.html

In het kader van het semantische web wordt het vaak meer in algemene zin gebruikt en is het een aanduiding van een onderwerpsontsluiting. Computerleesbaar en geformaliseerd. Waarmee getracht wordt allerlei systemen interoperabel te maken. In Europeana wordt het toegepast.

Oude codes voor standaarden van beschrijvingselementen waren: v / mo / foaf / owl / geo al deze zaken worden nu vervangen door schema.org.
mo = muziek ontology

_______

Opdracht

________

Zoekmachines

Linked data

Via triples doorlinken naar andere data. Moet al wel voorgeprogrammeerd zijn.
Bedoeling: hergebruik, dus ook gestandardiseerd. Kan open of  niet  open zijn. Iedereen kan bijdragen, dus kan soms wat rommelig worden.
Worden bewaard in triple stores met zoektalen als SPARQL: is nog behoorlijk lastig / gespecialiseerd.
Endpoints zijn toegangspunten op het web waar je SPARQL zoekacties op RDF triple stores kunt uitvoeren.

3. Verbeteren van zoekacties

Vooraf en al dan niet geautomatiseerd.
Gebaseerd op statistiek, spelling, woordstam,.
Toevoegen van synoniemen, acroniemen en verwante en specifiekere begrippen aan query.

Achteraf bewerken van resultaat: clusteren op basis van inhoud vaak op basis van statistiek Clusty, Polymeta (Ask,Google,Bing,Yahoo) of op basis van automatische classificatie.

Gevonden alinea’s tonen waarin antwoord zou staan (KWIC index bijv Sensebot).
Samenvattingen genereren bv Factbites
Inmiddels 31 miljard data online met 504 miljoen links tussen de sets. DBpedia is heel erg centraal.

Semantische zoekmachines

Althans ze presenteren zich als zodanig:

  • Hakia : geeft niet thuis als je met meerderen wil inloggen
  • Kngine (let op resultaten in tabjes bovenaan) matig resultaat, maar beter dan de andere twee
  • Cluuz : gewone werkt niet, ask.cluuz.com geeft niet thuis als je met meerderen wil inloggen
  • Unsilo nog in ontwikkeling: ‘invite’ aanvragen

GO cursus Semantisch zoeken deel 1

Laat een reactie achter

Verslag van de cursus Semantisch zoeken op 29 januari 2014 ochtend programma.

De eendaagse cursus Semantisch zoeken leert u wat semantische zoektechnieken zijn. Ook krijgt u meer informatie over de achtergronden en de toepassing van semantische technieken.

Gegeven door Eric Sieverts / sites.google.com/site/sieverts . Zijn PPT van maart 2013: Semantisch zoeken. Geassisteerd door Jeroen Bosman (twitter).

Ik heb er zin in: ben zelfs een uur te vroeg aanwezig, gelukkig mag ik al naar binnen,  is er koffie en is het er warm.

De definitie van Wikipedia van Semantisch web:

Het semantisch web verschaft een standaard framework waarmee data gedeeld en hergebruikt kunnen worden.[1] Het is een samenwerking onder leiding van het internationale orgaan voor internetstandaarden, het World Wide Web Consortium (W3C).

Het semantisch web is geen synoniem voor Web 2.0, zoals soms wel wordt verondersteld. Tim Berners-Lee beschreef het semantische web als een component van ‘Web 3.0′.[3] Soms wordt het gebruikt als synoniem voor Web 3.0, hoewel de definities verschillen

Ofwel op zijn engels:

The Semantic Web is a collaborative movement led by international standards body the World Wide Web Consortium (W3C).[1] The standard promotes common data formats on the World Wide Web. By encouraging the inclusion of semantic content in web pages, the Semantic Web aims at converting the current web, dominated by unstructured and semi-structured documents into a “web of data”. The Semantic Web stack builds on the W3C’s Resource Description Framework (RDF

De Nederlandse versie van wikipedia heeft geen apart lemma voor Semantisch zoeken, de Engelse wel:

Semantic search seeks to improve search accuracy by understanding searcher intent and the contextual meaning of terms as they appear in the searchable dataspace, whether on the Web or within a closed system, to generate more relevant results.

12 deelnemers.

Semantisch zoeken
Semantisch web is het web, Semantisch zoeken kan in principe in elk systeem.
What is semantic search? 10 Things that Make Search a Semantic Search Uitleg op de Hakia website, Hakia zegt zelf een semantische zoekmachine te zijn. Deze elementen  zitten er vaak wel in, focus op zoektermen formuleren in de natuurlijke taal, begrip van wat enerzijds gebruiker, anderzijds in de tekst ‘eigenlijk’ bedoeld wordt.

Seth Grimes: Breakthrough Analysis: Two + Nine Types of Semantic Search:  There’s more to it than offering related results. Here are 11 approaches that join semantics to search.Semantisch web is klaargemaakt web zodat er semantisch in gezocht kan worden.
Meningen over toepassing / aanwezigheid ervan lopen uiteen, deels is het er nog niet, maar het gaat wel die kant op.
Semantisch zoeken gaat steeds beter, gemakkelijker en ook voor gebruiker onzichtbaarder. Wordt ook steeds meer in enterprise toepassingen ingebouwd.Ook veel uit hoek van zoekoptimalisatie:

Soorten toepassingen

  1. Inschatten intentie gebruiker
  2. Bepalen van betekenis in tekst (vooraf bij indexeren of achteraf in zoekresultaat)
  3. Automatisch aanpassen van zoekacties tbv beter resultaat

1. Intentie zoeker

Kan bepaald worden uit

  • locatie zoeker (IP / GPS – GSM)
  • analyse vraag
  • - namen (facebook/linkediGoogle Knowledge Graphn)
  • - vaste combinaties woorden
  • - naturlijke taal interpetatie Wolframalpha)(
  • - statistiek frequente vragen (Google)
  • op basis van eerder zoekgedrag

Voorbeeld:

  • Google vraag ‘Restaurant amsterdam’ : dan krijg je niet een lijstje met items waar die twee termen in voorkomen, maar daadwerkelijk een lijstje met restaurants in Amsterdam.
  • Google vraag ‘Bach’ krijg je meteen een bepaalde Bach uit de zoveel miljoen geselecteerd mn Johann Sebastian. (Knowledge Graph) dus gegevens over hem, niet websites over hem.

Knowledge Graph
Hoe komt KG aan gegevens?

‘Graphs’ kom je tegenwoordig overal tegen: andere manier om gegevens te visualiseren. Geeft relaties tussen objecten aan.

Vaste combinaties

Feitelijke antwoorden als je bv melting point silicon intikt, population amsterdam, Rhein vs Schelde (krijg je netjes twee rijtjes, appelen en peren vergelijken).
Let wel: je moet zowel google.com hebben als de schermtaal op Engels, anders doet hij dat niet!

Bing heeft met Satori  iets soortgelijks, maag nog niet altidj zo slim als Google, maar ze worden wel steeds beter.

WolframAlpha

Gaat nog iets verder met interpreteren van zoekvraag.

___________________

Opdrachten : http://webzoek.pbworks.com/w/page/73494392/semant

Conclusie: nog lang niet voor alles zijn er concrete antwoorden te verkrijgen. Ligt aan onderwerp, maar ook aan formulering.
Duckduckgo laat soms ook meteen resultaten en haalt dat uit diverse databases als Wolfram alpha of Wikipedia.

___________________

2. Bepalen van betekenis in tekst

Herkennen van entiteiten in tekst van gevonden resultaten: Philips als een bedrijf bv.,  van sentimenten (positief of negatief), embedded data, linked data.

Entity extraction / Auto-generated tags:

Herkennen van teksten via Open Calais. (Daar kun je een stuk tekst inplakken http://viewer.opencalais.com/, die analyseert dat, de ene keer beter dan de andere keer. Dat systeem kan zo ‘automatisch’ metadata aan teksten of woordcombinaties hangen: dmv woorden die er al inzitten)

The OpenCalais Web Service automatically creates rich semantic metadata for the content you submit – in well under a second. Using natural language processing (NLP), machine learning and other methods, Calais analyzes your document and finds the entities within it. But, Calais goes well beyond classic entity identification and returns the facts and events hidden within your text as well.

The tags are delivered to you; you can then incorporate them into other applications – for search, news aggregation, blogs, catalogs, you name it

Zemanta doet iets soortgelijks voor bloggers: maakt linkje naar wikipedia artikel. Gaat op zoek naar plaatjes die je in je blog zou kunnen zetten, en naar related articles. Is wel wat beperkter dan wat uit open Calais komt.

Gestructureerd opslaan

Facebook slaat alle gegevens gestructureerd op in Graph. De engelse versie heeft ook een graph search . (Zoekvraag als: Mensen die in de buurt van Amsterdam worden en werken bij  KNAW)

Automatisch categoriseren

Via Machine learning systemen, getrained op basis van taxonomie of thesaurus. Kan ook op sentiment. Tweetfeel deed dat, maar dat werkt nu niet meer.
Automatische classificatie bijv op Dewey code http://act-dl.base-search.net/ Google herkent objecten in images, ook als dat niet als metadata is meegegeven. Honden bijv.
Pinterest is daar mee begonnen met filters voor recepten, maar erg goed is het niet.
Dit soort dingen gaan ook wel vaak fout.

Sentiment detection:

  • Social Searcher:  http://www.social-searcher.com  Zoekt in 3 sociale media en toont onder tabblad “Analytics” het “sentiment” van gevonden berichten

________________

Opdracht 2 t/m 5

__________________

Vanmiddag verder…

Gelezen in 2013

Laat een reactie achter

De target van 50 boeken heb ik dit jaar niet gehaald.

E-reader
2013 was voor mij het jaar van de e-reader: ik begon er enthousiast mee, maar dat enthousiasme taande gaandeweg het jaar en ik kreeg er zelfs een hekel aan.
Ik heb een aantal jaar geleden al veel gedrukte boeken weggedaan en dit jaar vervangen door de digitale versie, en koop bijna alleen nog maar digitaal.
Maar het blijkt dat ik toch echt een voorkeur voor gedrukte boeken heb, al zou ik anders willen, en al lees -en bezit- ik ze nu vnl digitaal, dat wel.

Klassiekers
De laatste jaren ben ik veel klassiekers aan het herlezen en probeer ze echt met de blik van nu te bekijken.
Dat is heel grappig om te doen, sommigen zijn echt nog heel goed te lezen.

De resultaten van 2013
Bij goodreads genoteerd: 36 titels (35 uitgelezen, 1 niet), 5 daarvan in druk gelezen, de rest digitaal.
En nog 6 aan het lezen

5 of 5 stars

1 of 5 stars

Hieronder de afzonderlijke besprekingen in de 5 sterren indeling van (met links naar) Goodreads.
En met commentaren van mij die ook al bij Goodreads staan trouwens, maar dan heb ik ze meteen voor mijn eigen archief.

Theory and Practice of Digital Libraries : samenvatting #TPDL2013

Laat een reactie achter

Voor zover ik het dan begrepen en gevolgd heb.

Zoekacties op internet leveren vaak niet voldoende, of niet complete resultaten op, terwijl de gegevens er vaak wel zijn, maar ze zijn óf niet goed gestructureerd, óf wel gestructureerd, maar zitten opgeslagen in databases, waar ze voor gewone zoekmachines moeilijk te vinden zijn.
Zaak is het dus om meer structuur aan te brengen in het geheel, en om zaken met elkaar te verbinden.

Digital Libraries zijn meer dan enkel opslagsystemen van digitale informatie: ze moeten een Knowledge Hub zijn.
Ze moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken, nieuwe technologieën maken nieuwe toepassingen mogelijk: digitale bibliotheken moeten nieuwe wegen mogelijk maken om naar de informatie te kijken.

Het semantische web

Een oplossing wordt gezien in het semantische web: met als ontwerptalen RDF (Resource description Framework) of RDFS (=RDF + nog wat erbij) en OWL (Web Ontology Language), zoeken via SPARQL en verder kennisorganiserende systemen SKOS.
Aan de basis ligt RDF: kort gezegd komt dat er op neer dat informatie opgeslagen wordt in zo klein mogelijke statements die nog zinvol zijn.  Deze uitspraken bestaan vaak uit 3 elementen: (‘onderwerp’ – gezegde (relatie) – ‘lijdend voorwerp’) en worden daarom triples genoemd. Dat zijn uitspraken als: ‘Shakespeare schreef Othello’ ‘Shaeksepare is een auteur’ Othello is een toneelstuk’
Deze triples worden opgeslagen in een ‘triple store’. De namen van mensen, organisaties, plaatsen en dergelijke (Named Entities) worden ook opgeslagen en voorzien van allerlei varianten en vertalingen, zodat als iemand een vergissing met zoeken maakt, of een gescande tekst een variant bevat, er toch de juiste persoon wordt gevonden: er zijn authority files.
En er wordt een ontologie (trefwoordenlijst) bij gebruikt die ondubbelzinnige termen bevat, en de termen in hun context weet te plaatsen: zodat er een onderscheid is tussen Jaguar als beest (in combinatie met jungle bijvoorbeeld) en als automerk (in combinatie met autowegen en benzine).
Met RDF kun je zo informatie uit allerlei heel verschillende databases met elkaar verbinden.

Dat is heel kort door de bocht de theorie en met dat als basis kun je van alles met van alles verbinden.

Er gebeurt veel daarmee, maar het meeste daarvan is volgens mij nog als proef, of als onderdeel van een of ander geheel.
Het is best complex om dat goed te doen, en het vergt veel samenwerking.
Maar als dat goed werkt, kun je dus ‘alles’ van een onderwerp bij elkaar vinden: of het nu om beschrijvingen van gebouwen, muziek, boeken, artikelen, beschrijvingen van beelden of wat dan ook gaat.
En je kunt  ook andere zaken verzinnen als:  Slidewiki  (losse slides uit presentaties voorzien van extra informatie via) of iets als OntoWiki .
In het project Cortex (semantic digital library search backend)  van LOD2 is alle Europeana informatie in triples ingevoerd in die database, dit is nu in gebruik door de Deutsche digitale bibliothek. De performance is erg goed.

Metadata rules

Wat eigenlijk elke dag wel terug kwam is het belang van metadata: en die metadata moet goed zijn, anders wordt het geheel wat je daarop wil bouwen wat wankel.
Bij voorbeeld: de European library wordt samengesteld uit de geharveste repositories van de 48 nationale bibliografieën.
Een repository wordt gevoed uit een catalogus ergens: die gegevens worden via het OAI-MPH systeem geharvest.  Maar die gegevens zijn maar net zo compleet als ze worden ingevoerd, en lang niet alle catalogiseerders maken volledig gebruik van de velden die ze tot hun beschikking hebben. Bovendien: aan een repository ligt vaak Dublin core ten grondslag, en dat is ook nogal beperkt.
De gegevens van meerdere repositories worden samengevoegd, maar dat kan dus als resultaat hebben, en heeft het ook, dat een item meerdere keren voorkomt.
Voor de gebruiker van het systeem is het niet plezierig als deze meer dan 1x dezelfde gegevens voorgeschoteld krijgt, dus het is zaak de ontdubbelen: maar als je niet alle gegevens hebt is het lastig om die dubbelen te identificeren. Anderzijds wil je ook recht doen alle mogelijke edities, en alle medewerkers van een bepaalde editie. Voor een bestand als The European Library (en Europeana en dergelijke)  zijn de aantallen waar je over spreekt gigantisch, dus dit is beslist niet handmatig te doen.
Automatiseren ja, maar vaak is er ook weer -deels- menselijke tussenkomst bij nodig.

Archiveren

Veel (60%) van wat er nu aan informatie is verdwijnt zonder dat deze wordt gearchiveerd. Maar is dat erg? Moet je alles willen bewaren?
Is het eigenlijk niet veel meer werk om uit te zoeken wat je wel wilt bewaren, en kun je maar beter alles opslaan? Maar hoe doe je dat en hoe zorg je dat je met die data explosie voldoende ruimte hebt?
Hebben we eigenlijk niet betere filters nodig?
Ook in de Wayback machine blijkt lang niet alles te vinden.
‘What to keep’ is echt een digitale bibliotheek issue.
Een interessant vraag is ook: als je research data bewaart en opslaat en het dan later weer uitvoert, doet het proces dan nog hetzelfde?

Sharing data is a cultural issue

Wetenschap wordt in het openbaar bedreven, maar als je echt over Open science spreekt, heb je meer nodig dan nu ‘open’ is, hoewel nu al 50% van de artikelen via Open Acces te vinden is. Een publicatie is het eindpunt van een onderzoek: daar gaat een en ander aan vooraf. Bij de publicatie van een artikel hoort ook de publicatie van de data waar het artikel op gebaseerd is: zodat het eindresultaat verifieerbaar is, zodat men de data kan hergebruiken, om fraude en ‘gratis bijrijders’ tegen te gaan. Maar dit ligt nogal moeilijk, vanwege het feit dat sommige onderzoekers zich niet graag in de kaart laten kijken, uit angst voor misbruik of misinterpretatie, vanwege persoonlijke gegevens van proefpersonen, of het  aanwezig zijn van min of meer geheime bedrijfsgegevens. ‘Europa’ wil wel dat alles wat met publiek geld gefinancierd wordt ook in open access gepubliceerd wordt, maar niet alle onderzoek vindt plaats in de publieke ruimte, er is nogal eens een verstrengeling van privaat en publiek geld.
Daar komt nog eens bovenop dat de data alleen niet voldoende is: je hebt ook de software nodig waar de data in gemaakt is om die te kunnen hergebruiken, de beschrijvingen, de modellen, de provenance, het gehele proces eigenlijk.
Zou je het goed willen doen, dan zou de onderzoeker al bij de opzet van het onderzoek het hergebruik in ogenschouw moeten nemen, en contact opnemen met de data scientist / librarian / archivist om af te spreken wat de beste procedure is om het geheel te archiveren. en dat vergt wel een cultuuromslag …
En dan dat hergebruiken: gaat iemand dat eigenlijk wel doen?

Love your data and let others love them too

Je hebt een betrouwbare infrastructuur nodig om dat te stimuleren, een infrastructuur waar digitale bibliotheken deel van uitmaken.
Data kan trouwens van alles zijn: het hangt van de omstandigheden af wat er als data gezien wordt. Iemands aantekeningen is voor de een ruis, voor de andere bron van onderzoek, en dus data.

Artikelen

Een artikel alleen is niet voldoende, je hebt er dus ook de data en de procesbeschrijving van het onderzoek bij nodig.
Maar daarnaast zou je ook het artikel kunnen annoteren en voorzien van triples: dat maakt het gemakkelijker terug te vinden en daarmee gemakkelijker citeerbaar.
Dat vergt alleen wel een andere manier van publiceren omdat de meeste uitgevers de triples eraf zullen strippen, maar in instituutsrepositories zou dat zeker wel gaan.
Wat bibliometrie betreft: alleen de citaties worden geteld, maar eigenlijk is vermelden in een tweet ook een citatie, en die worden niet geteld. Commentaren bij blogs ook niet.

Visualisatie

Nadeel van zoeken is dat je keywords nodig hebt: wat als je een plaatje wilt zoeken, of niet echt een term weet?
Je zou een soort Google Maps kunnen maken van onderwerpen waarop je kunt inzoomen. (zie blogtekst over het Paths project )

Gebruikers

We doen het allemaal voor de gebruiker: en die willen soms andere dingen dan de profs denken.
Ze willen bijvoorbeeld dat het systeem hen daadwerkelijk helpt, niet alleen een help button.
Men wil graag veel opties voor het manipuleren van de zoekactie en om de resultaten te tonen, maar het systeem moet wel duidelijk zijn.
Gebruikers willen best Advanced search gebruiken maar hebben minder interesse in technische metadata.
Search filters zijn gebruikelijk, maar worden ze ook gebruikt? Uit een eye tracking studie blijkt dat ze veel gebruikt worden. Dus ze zijn zeker zinvol ja.
En last but not least: we zijn op weg naar een echte cyberinfrastructure maar face to face contact blijft belangrijk.

Infrastructuren

In Europa is een woud van acroniemen bezig met het opzetten en onderzoeken van e-infrastructuren. (blogpost)
Het is nogal ondoorzichtig allemaal wie nou precies wat doet, en laten we hopen dat ze het zelf weten. En allemaal in projecten: wat gebeurt er als die afgelopen zijn?
OpenAIRE is bijv wel een heel belangrijke: dat is een basis en daarop kun  je  speciale applicaties voor speciale toepassingen bouwen. De OpenAIREplus versie verbindt publicaties met data (zie het Dlib artikel.)
Wat wel uit deze presentatie kwam is dat het belangrijk is dat men vanuit Europa zelf voeling houdt met de ‘basis’: de catalogiseerders en de afzonderlijke collecties.  Als die niet het idee hebben dat ze met samenwerken wat kunnen bereiken, en dat Europa ze alleen maar werk kost waar ze zelf niets aan hebben, verlies je ze.
Het ontbreekt dus niet alleen aan duidelijkheid, maar ook aan communicatie naar de basis.
Het is ook allemaal erg highbrow: hebben we eigenlijk niet simpele tools voor curatie nodig in plaats van specialistische ITers?
De standaardisatie komt vanuit Europa, maar van belang is ook dat we weten in hoeverre de datasets te vertrouwen zijn: certificatie en audit? Of liever appraisal? De Europese heren en dame weten het ook niet dus er komt weer een project voor …

Aanrader

Een hele leuke Google Scholar plugin voor Firefox en Chrome: de Google Scholar H-index Calculator.

Conclusie

De Digitale Bibliotheek heeft een toekomst en is de toekomst.
Maar het levert nog wel veel vragen op….
Wat wel een duidelijke zaak is dat je ‘als bibliotheek’ je zeker moet gaan bemoeien met de opslag van data, hoe moeilijk dat ook is.
En het koppelen van de data aan de publicatie.
Want daarin ligt de toekomst voor de bibliotheek.

Presentaties

Defining Digital Library #TPDL2013

Laat een reactie achter

Defining Digital Library. (€) Armand Brahaj, Matthias Razum, and Julia Hoxha

This paper reflects on the range of the definitions of digital libraries demonstrating their extent. We analyze a number of definitions through a simplified intensional definition method, through which we exploit the nature of the definitions by analyzing their respective genera and attributes. The goal of this paper is to provide a synthesis of the works related to definitions of digital library, giving a fine-grained comparative approach on these definitions. We  conclude that, although there are a large number of definitions, they are defined in overlapping families and attributes, and an inclusive definition is possible.

Armand vindt dat Digital Libraries een verkeerde term is, omdat wat je ermee bedoeld erg afhangt van de context waarin je het gebruikt.

Collectie, service, organisaties of systeem bijv.
Dit zijn de resultaten van hun onderzoek :

Hij ziet bibliotheek dus meteen als een online systeem ;-).

(Hij heeft een aardige mindmap gemaakt, maar die was te snel van het scherm, hij heeft hem op mijn verzoek even getweet :)

E-books in Swedish Public Libraries: Policy Implicaties #TPDL2013

Laat een reactie achter

E-books in Swedish Public Libraries: Policy Implications (€)

The aims of the paper are: review the situation of e-books delivery in the Swedish public libraries (as it looked at the end of 2012); identify the barriers that public libraries encounter in providing access to e-books; highlight the policy-related problems of e-book provision through public libraries. A survey was carried out in October, 2012 of all public libraries in Sweden. 291 questionnaires were issued. 185 were completed, response rate was 63.3%. The provision of an e-book service has arisen as a result of either demand or an
ideological belief that the ethos of democratic values and equality of access requires libraries to offer material in all media. Librarians find the situation of e-books provision through libraries unsatisfactory: the provider of titles removes them from the catalogue without warning or explanation, there are too few titles for children and students, and access to popular titles is delayed.

Bijna alle huishoudens in Zweden hebben internet, en ze lezen ook echt veel, maar er leest maar 1% ebooks. Heeft ook met aanbod in het Zweeds te maken, dat is heel erg beperkt. Toch bieden 95% van de OBs in Zweden ze wel aan. De bibliotheken in Zweden zijn erg gericht op kwaliteit en aanbod voor have-and-havenots gelijk te krijgen. Ze hebben ze dus ook echt op aanvraag van gebruikers, maar er zijn de bekende beperkingen voor bibliotheken.
Bovendien is er daar een pay per use dat maakt het duurder – ebooks worden zo duurder duurder naarmate ze meer gebruikt worden, duurder dan print- en tamelijk onbeheersbaar.
Beperking van markt maakt t aanbod beperkt. Kinderen komen met ipad en willen ebooks, maar er zijn er geen. De Zweedse leverancier geeft ook geen vertalingen uit. Ze hebben wel geld gekregen voor dit project.
Er komt een nieuwe wet aan.
Mensen willen wel ebooks lezen, maar er eigenlijk niet voor betalen.
Nb dit project gaat niet alleen over de openbare bibliotheek, maar over alle bibliotheken.

Hun Blog http://projectebooks.wordpress.com/

Extension voor Google Scholar Bibliometrics #TPDL2013

Laat een reactie achter

A Domain Meta-wrapper Using Seeds for Intelligent Author List Extraction in the Domain of Scholarly Articles. (€) Francesco Cauteruccio and Giovambattista Ianni

In this paper we investigate about automated extraction of author lists in the domain of scientific digital libraries. It is given a list of known “seed” authors and we aim to extract complete lists of co-authors from Web pages in arbitrary format. We adopt a methodology embedding domain knowledge in a unique “meta-wrapper”, not requiring training, with negligible maintenance costs and based on the combination of several extraction techniques. Such methods are applied at the structural level, at the character level and at the annotation level. We describe the methodology, illustrate our tool, compare with known approaches and measure the accuracy of our techniques with proper experiments

Ze hebben een hele leuke Google Scholar plugin voor Firefox en Chrome gemaakt: de Google Scholar H-index Calculator.
Ze kregen daar veel feedback op.
Ziet er echt heel handig uit.

Scholar laat maar een stukje van de informatie die beschikbaar is, bijv, maar een paar van de auteurs.
Met hun tool kun je die opvragen.
In dit paper beschrijven ze hoe ze dat gedaan hebben.
Ze hebben een meta-wrapper gemaakt a la DIADEM.

De resultaten zijn echt vrij goed :

What can Linked Data do for Digital Libraries? #TPDL2013

Laat een reactie achter

Keynote Address by Soren Auer
What can Linked Data do for Digital Libraries?
Chaired by Trond Aalberg
Hall: Grand Ballroom

The paradigm of publishing and interlinking structured data on the Web got quite some traction recently. In this talk we will give an overview on recent developments in the Linked Data realm. We will have a look on how Linked Data can contribute to making Digital Libraries and the rich, qualitative content therein more accessible, inter-connected and attractive. As the Web evolves from a medium for document exchange to increasingly facilitating data exchange, Digital Libraries will also evolve from document repositories to knowledge hubs. We will discuss some challenges and opportunities on that road.

Sören schrijft veel: ‘Sören is author of over 80 peer-reviewed scientific publications resulting in a H-index of 20′
Jeetje.
‘He aims to combine strong theoretical results with high-impact practical applications’ kijk dat is een goed idee.

Sören deed altijd al wat ‘digital library stuff’ maar noemde het niet zo.

Waarom hebben we een Data Web nodig?
Van sommige dingen heb je al geleerd dat je ze niet via Google kunt vinden, al is die informatie wel aanwezig, de reden is dat de integratie er niet is: de achtergrond informatie is dan niet, of niet gestructureerd, aanwezig.
Het is van belang nieuwe strategieën daarvoor te ontwerpen.

De informatie is er nl wel en zelfs gestructureerd, maar dan in databases zelf.
Via RDF kun je informatie uit diverse bronnen integreren.

RDF data model met triples.
Triples komen uit de natuurlijke taal, je kunt er allerlei informatie in kwijt.
Dat kun je op web zetten, de machine vindt de triples en de mens zelf zoekt.
Als je dat in een relatated database doet wordt het erg rommelig.

Pragmatische ontwikkeling van het semantische web.

Het paatje ‘Emerging Web of Data’ van twee jaar geleden werkt intussen niet meer: het web is intussen zo groot geworden dat je het niet meer in een enkel plaatje kwijt kunt.

LOD2 project lifecycle Linked Data.
Extractie uit gestructureerde en semi- gestructureerde bronnen.
Opslaan van triples in Triples stores.

Authoring: iedereen zou informatie moeten kunnen toevoegen.
Linking en interlinking: dat wil je niet handmatig doen, dus heb je op basis van heuristics systemen nodig die dat doen, maar die hebben wel een menselijke verificatie nodig, dus niet puur automatisch.
Verrijking: er zijn upper levels structuren van de basis gegevens van ontologieen nodig.
Kwaliteitsanalyse: data web heeft ook grote variëteit in kwaliteit. Op zich is dat niet erg, maar we moeten wel weten wat de kwaliteit van een bepaalde dataset is. Het ligt aan je doel of de kwaliteit van een bepaalde set voldoende is of niet.
Evolutie van de data : web moet dynamisch zijn
Exploring data: het web staat nog in de kinderschoenen, er zijn betere tools nodig.

Diverse componenten van Lod2 zijn al beschikbaar of  komen op korte termijn ter beschikking.

Wat is een digital library?
‘Zoeken naar ‘stuff’ en ernaar kijken’ is wat een gewone bibliotheek doet.
Een digitale bibliotheek doet hetzelfde en geeft ook toegang tot digitale items, althans, dat zou je in eerste instantie zeggen, maar dat is niet het enige, noch is het voldoende.
Een digitale bibliotheek zou ook een methode moeten geven om naar nieuwe wegen van informatie te kijken. Knowledge Hubs. Kennis delen op het web. Nieuwe technologieën, dat geeft ook nieuwe toepassingen.

Artefacten: zijn bij voorbeeld ook thesauri, data, semantic network, etc.
Nieuwe vormen van samenwerking zouden onderzocht moeten worden en nieuwe artefacten als Linked Data, mashups, wikis, courseware, etc ingevoerd
Dingen waar we eerder niet aan dachten.

Ontowiki (lijkt nu even niet online te zijn -later wel-, maar wel online is http://semanticweb.org/wiki/OntoWiki)

Een voorbeeld is dit:

Ontwiki

 

Cortex : semantic digital library search backend.
Alles zit in de database: alle Europeana informatie is in triples ingevoerd in die database.
De response erg goed. Voorbeeld https://www.deutsche-digitale-bibliothek.de/

Slidewiki :
Platform open access voor presentaties per slide (vanaf vandaag toegankelijk).
Je kunt steeds de presentaties updaten, de vertaling gaat automatisch.
Er is een lijst met mensen die er aan bijgedragen hebben, zoals bij Wikipedia.
Iedereen kan vragen stellen, en die zijn gekoppeld aan de slide zelf.
Voor Prezi werkt het ook.

Voorbeeld van slidewiki:

Slidewiki

 

SemanticPapers
Gestructureerd noteren van wetenschappelijke informatie. Onderzoekers zijn veel tijd kwijt met informatie in tekst te zetten. Kan dat eenvoudiger?
Annoteren van papers op een semantische manier.
RDF triples koppelen aan stukjes tekst. (is dit minder werk? lijkt me behoorlijk ingewikkeld – of veel werk- om te doen als ze dat zelf moeten doen ). Sören zegt dat reviewers toch moeten annoteren. Als ze dat gedaan hebben kun je wel meteen zoeken in de database naar ‘Similar papers’ . Dat is wel een voordeel. (vraag is wel hoe goed ze dat dan doen: is wel een methode om onder water wat ‘onzin’ toe te voegen.)

Authoring semantic annotated annotaties text.

Extract informatie uit bestaande repositories.

Digital Libraries moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken.

Wauw, interessante tools, leuk praatje .


Opmerking uit de zaal: Annoteren doen mensen zelf achteraf niet, daar hebben ze geen tijd voor, maar voor studenten zou het een mooie tool zijn.
Antw: Voordeel is ook dat als je gemakkelijker te vinden bent je vaker geciteerd wordt, en door deze semantische verrijking wordt je sneller gevonden.
Mogelijk kun je het crowdsourcen of automatisch laten doen.
Opm van Christine Borgman :
de traditionele uitgevers strippen dat er gelijk af en maken er een pdf van.
We moeten dan naar andere manier van publiceren.
Antw :
je kunt ook buiten uitgevers om je artikel opslaan in Google docs, kleine OA tijdschriften of een repository.

Slides presentatie

Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries #TPDL2013

Laat een reactie achter

Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries . Benjamin Kohncke and Wolf-Tilo Balke

Today, entity-centric searches are common tasks for information gathering. But, due to the huge amount of available information the entity itself is often not sufficient for finding suitable results. Users are usually searching for entities in a specific search context which is important for their relevance assessment. Therefore, for digital library providers it is inevitable to also consider this search context to allow for high quality retrieval. In this paper we present an approach enabling context searches for chemical entities. Chemical entities play a major role in many specific domains, ranging from biomedical over biology to material science. Since most of the domain specific documents lack of suitable context annotations, we present a similarity measure using cross-domain knowledge gathered from Wikipedia. We show that structure-based similarity measures are not suitable for chemical context searches and introduce a similarity measure combining entity- and context similarity. Our experiments show that our measure outperforms structure-based similarity measures for chemical entities. We compare against two baseline approaches: a Boolean retrieval model and a model using statistical query expansion for the context term. We compared the measures computing mean average precision (MAP) using a set of queries and manual relevance assessments from domain experts. We were able to get a total increase of the MAP of 30% (from 31% to 61%). Furthermore, we show a personalized retrieval system which leads to another increase of around 10%.

Veel informatie maar hoe krijg je die in een vraagstelling.
Methoden van onderzoek :
CAS heeft hoge kwaliteit, maar kost ook veel in onderhoud.
PubChem: Chemical entities data.

Veel gelijkenis in resultaten, vaak op fingerprint gebaseerd.
Hun achtergrond zorgt vaak voor een bepaalde search context.
Clusteren van die Chemical entities in een bepaalde context.
Als ze al geannoteerde waren – zoals MeSH- zou dat mooi zijn, maar in chemische domein is dat er niet.
We hebben wel Full – text, dat zou je kunnen filteren, maar dat werkt niet erg goed.
Vanuit Wikipedia hebben ze een profiel met chemische termen (er waren er 721) gehaald.
En op based daarvan een similarity measure gedaan voor 10% van de queries.
Daar nog wat andere meetmethoden aan toegevoegd om de personalisatie toe te voegen.
De entity en de termen in Wikipedia vergeleken.
Over 44k klinische studies onderzoek gedaan.
92% vonden ze toch in Wikipedia.

Met de Chemical entities werden de zoekacties 30 – 40 procent beter.
Leunt zwaar op de computing, maar veel van deze dingen kunnen preprocessed worden zodat de gebruiker alleen de zoektermen hoeft in te voeren. De personalisatie dient wel aangepast, dus als je een van hen in de buurt heb, of iemand die dat kan, dan is dat mogelijk.

Securing Access to Complex Digital Artifacts #TPDL2013

Laat een reactie achter

Securing Access to Complex Digital Artifacts – Towards a Controlled Processing Environment for Digital Research Data. (€) Johann Latocha, Klaus Rechert and Isao Echizen

Providing secured and restricted access to digital objects, especially access to digital research data, for a general audience poses new challenges to memory institutions. For instance, to protect individuals, only anonymized or pseudonymized data should be released to a general audience. Standard procedures have been established over time to cope with privacy issues of non-interactive digital objects like text, audio and video. Appearances of identifiers and potentially also quasi-identifiers were removed by a simple overlay, e.g. in text documents such appearances were simply blackened out. Today’s digital artifacts, especially research data, have complex, non-linear and even interactive manifestations. Thus, a different approach to securing access to complex digital artifacts is required. This paper presents an architecture and technical methods to control access to digital research data.

Bewaren van research data wordt cruciaal voor kennisinstellingen.
Maar het is een heel complex probleem.

Zij richten zich vooral op bewaren van het proces.
EaaS.

Publicatie vs private Issues.
Er kan persoonlijke gegevens in zitten, bedrijfsgegevens die je niet naar buiten wilt e. A.

Als je in een intern netwerk zit, kun je de omgeving waarin de processen gebeuren controleren en loggen.
Je kunt dan ook het gedrag van de gebruikers controleren : je mag wel bepaalde data inzien, maar er maar bepaalde dingen mee doen.

Semi publieke demo is beschikbaar.