Vogin-IP Lezing 3 maart 2016

Laat een reactie achter

Geen blogtekst dit keer maar mijn tweets en retweets …. Bekijk plaatjes  -en deels praatjes-   van onder naar boven

New Search Strategy

Social media platforms

Internet voor kinderen: Leuk verhaal van Hanna Jochman om een beter internet voor kinderen te krijgen WizeNoze

  •  Kinderen tikken vaak de gehele zoekvraag in natuurlijke taal in
  • Veel op kinderen gerichte websites zijn geen alternatief voor Google. Bovendien zijn ze te weinig gericht op spec. leeftijdsgroe
  • Voor kinderen is het nog moeilijker om informatie te vinden op internet dan voor volwassenen
  • Eisen aan een zoekmachine voor kinderen: veilig, geschikte en leesbare info, slimmere techniek
  • ‘Jouw zoekmachine’  is al sinds september in gebruik op aantal basisscholen. ‘Jouw zoekmachine’ werkt best wel goed, maar er is nog te weinig beschikbaar. WiseNose: hun technologie beoordeelt geschiktheid

    Met de technologie van WizeNoze kan ANP redelijk snel journalistiek nieuws feed voor kinderen opzetten
    Leesniveau tekst bepalen met tekstclassificatie
    Videos in YouTube beoordelen voor ‘Jouw zoekmachine’ is een stuk moeilijker, nu vooral op basis van whitelisting

Andy Black : Is a mobile phone more dangerous than a AK47?

We gaan naar een systeem van ‘open everything’

 Met geotagged tweets kun je precies zien wie je gedachte waar oppakt.
Marketing is changing (don’t underestimate Donald Trump: die volgt de rechter strategie)
 Organisations are changing
 De hoeveelheid informatie die elke 60 sec wordt gepubliceerd Andy Black:
Mobiel verkeer gedurende de laatste jaren
Sociale media gebruik groeit enorm
Van ‘Closed’ naar  ‘Open’  
 Waarom mislukte Arabische Lente 
 Brazilië: In 2012 kreeg 60% nieuws binnen via sociale netwerken, werden meer vertrouwd dan officiële bronnen 
Paul Gunstone over Content Intelligence 
Content Intelligence is the combination of semantic technology and information science that allows machines to model, interpret, describe, analyze and visualize the ‘content’ of the enterprise in order to leverage the human intelligence locked in that content.
Conceptual architecture smartlogic
Enorme groei in data, maar Wrsl veel onzin, alleen weet je niet welke de onzin is:  dat is een van de challenges
 Ontwikkeling waarom mensen zoeken: Van zoeken een document naar zoeken naar ‘wat je nog niet weet’ 
Plaatjes en Pdfs moeten het hebben van de metadata, zonder context kun je er niet veel mee.
(Leuk zo’n thesaurus, maar die moet je wel eerst maken natuurlijk)
Peter van der Graaf (SEO)  Lezing: “Google spamdetectie”

Middels technieken van machine learning probeert Google de patronen van manipulatie op haar zoekresultaten te vinden en dergelijke pogingen te bestrijden. In de lezing wordt besproken hoe Google machine learning op zijn enorme databases toepast en welke uitdagingen zij daarbij tegenkomen. Vanuit het perspectief van zowel Google als van de manipuleerder zien we hoe dit nieuwe strijdtoneel zich momenteel ontvouwt.
[zie ook deze blogpost]

 

Conclusie the heat is on

 

Timing als herkenningspunt

 

Fora worden ook vaak gemanipuleerd door linkjes naar eigen site op te nemen

Startpagina is voorbeeld van ingekochte linkjes. Bestraft door Google door ze lager te ranken. Daar  werkt nu ‘nofollow’ daarmee voorkom je dat bestraffen van Google

 

Panda life algoritme, Penguin kijkt naar linkjes

 

Machine learning van Google. Panda

 

Een controle middel kan geen ranking middel meer worden want is deel van systeem geworden

 

Machine learning is goede oplossing voor Google want aanpassen van systemen kost geld

 

Hoe werkt Google

 

 

2 algoritmes: Panda : content moet toegevoegde waarde hebben, en Penguin te vertrouwen links

Manipulatie is heel lucratief, dus het loont om ermee bezig te zijn. Een statisch algoritme redt het niet meer

Google pakte spam trucage beter aan dan veel andere zoekmachines: laat anderen eigenlijk bepalen waar iets over gaat

 

Peter Burger over fact checking

Tip: voor info over Fact checken en broodjes aap volg

Lezing: “De factcheckparadox”

De status van factchecken is paradoxaal: journalisten hebben nog nooit over zo veel tools, zoektechnieken en toegang tot informatie beschikt als nu – maar ze doen er te weinig mee. Die middelen zijn er voor iedereen, dus als zij het niet doen, moeten wij er als burgers zelf mee aan de slag: iedereen factchecker!

Journalisten vinden, zo blijkt uit enquêtes, feiten checken bij de belangrijkste taken van hun beroep horen. Maar – zo blijkt uit ander onderzoek – de meesten doen het betrekkelijk weinig. Dat is het slechte nieuws. Het goede nieuws is: we beleven een renaissance van het factchecken. Kranten hebben factcheckrubrieken, in verkiezingstijd worden de uitspraken van politici gecheckt, leunstoelcheckers als Bellingcat checken op afstand nieuws over oorlogssituaties en jonge ondernemingen als Storyful specialiseren zich in het checken van socialemediamateriaal.

Waarom checken journalisten doorgaans zo weinig? Wat zouden ze al met een kleine inspanning beter kunnen doen? En welke technieken zou iedere burger in zijn vingers moeten hebben om de betrouwbaarheid van nieuwsberichten te toetsen?

[zie ook deze blogpost]

 

  • Veel hoax berichten worden doorgeven uit goede bedoelingen
  •  Iedereen is een fackchecker of zou dat moeten zijn
  •  ‘Behind the headlines’ is door overheid gecheckte info over medisch nieuws
  •  Veel media zetten wel items online, maat als ze niet kloppen, rectificeren ze nauwelijks.
  • Journalisten vinden fact check belangrijk, maar meeste komen niet verder dan navragen bij bron; Der Spiegel is nog een van de weinigen media die echt veel aan fact check doen

Tools:

  • Storyful zoekt, checkt en regelt rechten bv voor filmpjes
  • Fiskkit : (crowdsouurcing) daar kun je artikel neerzetten en anderen kunnen commentaar geven, software voegt dat samen
  • Thruthteller checkt tegen andere beweging en bekende feiten uit databases
  •  Claimbuster haalt feiten uit bewering en checkt ze

Er wordt meer gefactcheckt dan ooit maar er wordt te weinig mee gedaan

 

Pieter Cobelens Keynote: “Een nieuwe rol voor IP-ers”

Een informatiewereld waar inlichtingen in toenemende mate een belangrijke rol spelen bij het nemen van strategische beslissingen is steeds meer afhankelijk van hoog geschoolde IP-ers. The Internet of Things, Big Data, The Cloud en al die andere ontwikkelingen maken dat slim combineren van grote en kleinere databestanden, zowel interne als externe, met andere voorhanden informatie, kan leiden tot ‘nieuwe’ informatie en daardoor snellere en betere beslissingen. Essentieel in deze ‘corporate’ of ‘competitive’ intelligence is niet alleen (mobiele) technologie, maar ook slimme zoekmachines en hoog geschoolde IP-ers om die zoekmachines en databanken te ontwerpen en te gebruiken in dienstverlening.

[zie ook deze blogpost]

  •  Nederland is heel erg goed in big data verwerken (Pieter Cobelens)
  • Als het over informatie gaat zijn we helemaal geen klein land (Pieter Cobelens
  • Zonder IPers krijgen we meer aannames en dus meer fouten.
  • Degene met het best voorspellende vermogen wint de slag en de oorlog
  • We zijn meer tijd bezig met procedure dan met de beslissing, daarmee gaan we achter lopen
  • Trend : Beeld is belangrijker dan het woord
  • Beveiliging van info over jezelf hoort bij jezelf te liggen, niet bij de overheid
  • In toenemende informatie wereld is het steeds moeilijker de boel te besodemieteren
  • Hoe meer security, hoe minder open source : Als informatie beveiligd wordt, wordt t ook moeilijker verschillende invalshoeken te vinden. Zorg dat je bij beveiligde info kunt
  • Pas op met single source informatie : dat is een van de grootste valkuilen bij big data : Kies zoveel mogelijk verschillende invalshoeken bij validatie van informatie
  •   Nieuwe visie voor organisaties: business inlelligence x competitive intelligence = intelligence in het kwadraat
  • Waarom zouden we nog iemand doodschieten als we zijn bankrekening kunnen leeghalen en online identiteit verwijderen: cyberoorlog

Veel Analyse capaciteit en veel invalshoeken zij de kernpunten.

(Leuk iemand te horen die zo enthousiast over ons vak is)

 

 

Leuke en interessante dag, prima lunch

Gastblog: Verslag VOGIN-IP lezing op 20-3-2014

Laat een reactie achter

Gastblogpost door Sandra Wullms:

VOGIN-IP Lezing: Zoeken en vinden 2014  (20 maart 2014, Amsterdam)

Het complete programma van deze dag is hier te vinden.

Als eerste heb ik de workshop gevolgd van: Marydee Ojala Web search update: What’s new that effects Information Professionals

Achtergrond info Marydee Ojala:

Marydee Ojala is de redacteur van Online Searcher (successor of the magazines Online + Searcher) en schrijft hierin de business research column (“The Dollar Sign”).

Over haar presentatie: “Reflections on the reinvention of research”
Online informatie is er nu al ruim 40 jaar. Het waren vier decennia van opwindende en nieuwe ontwikkelingen die onderzoek hebben getransformeerd, de mentaliteit van bibliothecarissen/esses veranderd, de verbeelding van de mensen hebben geprikkeld en toegang hebben gegeven tot informatie die voorheen niet toegankelijk was. Deze workshop inzicht geven in de aard van zoeken op het web in tegenstelling tot traditionele online zoeken, onderzoeken wanneer te kiezen voor een betaalde database t.o.v. gratis zoekactie op het web, en kijken naar de nieuwste ontwikkelingen van online onderzoek.

Hieronder enkele korte notities en tips uit haar workshop.

Websearches worden beïnvloed door het land van waaruit je zoekt.
Het beperkt zich ook niet meer alleen tot HTML, maar ook afbeeldingen, video’s, PDF’s etc. worden in de zoekresultaten meegenomen.

Van zoekacties uitgesloten zijn:

  • het zgn. invisible of deep Web
  • Editorially blocked (Robots.txt, files die aangeven in hoeverre een site door zoekmachines doorzocht mogen worden)
  • Proprietary data (data die niet vrij toegankelijk zijn, maar eigendom zijn van iets/iemand)

Hoe kun je je zoekresultaten beïnvloeden?

  • Verander de voorkeuren/preferences (bv. de taal)
  • Gebruik andere zoekmachines, bv. Millionshort.com
  • Site search (zoeken binnen een site):
  • Gebruik google om binnen een site te zoeken. Geef de zoekterm in met daarachter [site], bv. crash tests [tno.nl]
  • Advanced search

Verschillende typen zoekmachines:
algemene en computational (geeft feiten/data en geen links), alternatieve zoek machines (w.o. scholarly)

Algemene

  • Google (Google is niet beschikbaar in Rusland, Japan, Zuid-Korea en China. Google reageert op veranderingen in je locatie en op sociaal- en persoonlijk-gebied).
    http://www.google.com/ncr Een alternatief web adres voor Google.com dat ervoor zorgt dat je altijd op .com terecht komt zonder redirecting
  • Bing (Yahoo)
  1. Landen versies (minder dan Google)
  2. Meer sub-sites listings
  3. In corporate IE-10
  4. Connecties met FB/Social Media (zoekt hierin en neemt dit op in de resultaten)
  5. Beschikbaar op de X-Box (game computer).
  6. Kaarten in Bing zijn soms beter
  1. Niet geïnteresseerd in tracking van persoonlijk info
  2. Om klant georiënteerde resultaten te krijgen moet je erom vragen! Blekko geeft dus (in tegenstelling tot Google) ongefilterde resultaten. Om meer te weten te komen over de standpunten van de liberalen en/of e conservatieven mbt de gezondheidszorg in America zul je dit dus aan moeten geven: Health politics liberal of Health politics conservatives.
  3. Gaan voor kwaliteit niet kwantiteit!
  4. Laten zoekresultaten zien gegroepeerd naar bepaalde thema’s. Bijvoorbeeld bij de gebeurtenis Tyfoon op de Philippijnen krijg je info te zien in blokken: News, info, video, etc.
  5. Search.blekko.com : Doorzoeken van Blekko kan met “slashtags”, dit is meer voor info pro’s (en zijn dus oorspronkelijk ook samengesteld door bibliothecarissen).
  1. Geen “bubble” (zoekresultaten worden niet opgeslagen, geen tracking).
  2. Gebruik exponentieel gegroeid sinds NSA’s Snowden affaire. DuckDuckGo verkoopt hun informatie niet aan de overheid.
  3. Je kunt met Google zoeken via DDG, je zou dan anoniem zoeken.
  1. Investeerder in Blekko
  2. Hoofdkantoor in Rusland/Nederland/vertegenwoordigd in USA (eigenaar Russisch).
  3. Yandex heeft “labs”, een vergelijkbare feature Google had om nieuwe tools te ontwikkelen.

Computational: Wolfram Alpha, Zanran (zoekmachine voor het zoeken van data/statitieken op het web).

Alternatieve platvormen om te zoeken w.o. Scholar platvormen:

Medisch: Pubmed, Patientslikeme.com

Overheid: De trend binnen de overheid is om steeds meer “open” te gaan. Worldbank.org, UN.org (Verenigde Naties).

 

Voorwerpen/afbeeldingen zoeken:

  • Tineye.com: zoeken op afbeelding voor als je bv. niet weet wat er afgebeeld wordt, wat iets is.
  • Bing image database: afbeeldingen filteren die ondersteund worden door creative comons licenses.

Tweets

  • Topsy: gearchiveerde tweets

LinkedIn : Heeft een nieuwe privacy policy, er schijnt samenwerking te zijn met zoekmachines.

Domaintools.com: zoeken naar de eigenaar van een site

 

Advanced search

Google had voorheen de mogelijkheid om een advanced search te doen. Deze mogelijkheid is er nog steeds maar zit nu een beetje verstopt: google.nl/advanced_search of klik na een zoekactie op de google pagina op het gear/instellingen wieltje.

Let er ook op om bij advanced search “betere” vragen te stellen. Door je trefwoorden in een andere volgorde in te geven krijg je ook andere zoekresultaten en kan het verschil zijn tussen wel en niet vinden wat je zoekt.

Syntax search werkt nog steeds bij Google (AND, OR, NOT)

  • Proximity searching (zoeken naar/met woorden die binnen een bepaalde afstand van elkaar staan):
  • Google’s AROUND commando werkt niet of niet goed, je kunt bij Google gebruik maken van proximity search door de woorden tussen haakjes () te zetten.
  • Exalead’s (zoekmachine) NEAR commando werkt beter. Exalead heeft een lab: Chromtik (zoeken op kleur)
  • Voxalead (zoeken op stem)
  • “Exact zoeken” (alles tussen aanhalingstekens plaatsen).
  • Let ook op het gebruik van cijfers in een zoekactie. 2 of Twee in de zoekactie leidt tot verschillende resultaten! Handiger is om ze beiden in de zoekactie te gebruiken.
  • Probeer de zgn. “filter bubble” te vermijden: zet je zoekgeschiedenis uit, en let op je voorkeursinstellingen (taal, land, etc.).

 

Nieuwste ontwikkelingen bij Google:

  • Voice search (engels)
  • Zoeken naar kennis, niet alleen naar documenten
  • Advanced search heeft geen prominente plaats meer
  • Veranderingen m.b.t. maps/streetview (waarvan men ook weer een groot aantal heeft terug gedraaid i.v.m. de storm aan commentaar/kritiek).
  • Zoeken op patenten (incl. tekeningen).
  • Indexeren van publieke data (bv. (open) data van overheid)
  • Google probeert ook de zoekresultaten te verbeteren door bv. advertenties meer op de laten vallen (deze staan vaak boven de zoekresultaten en werden vaak niet als dusdanig herkend. Vandaar dat men nu de tekst box ADD bij deze advertenties een opvallend geel kleurtje heeft gegeven).

Kennis initiatieven:

  • Inhoudelijk diepgaande artikelen (gebruikt niet de nieuwste/recente info).
  • Infographs (gebruikt o.a. Wikipedia).
  • Science : Open Access: enorm in opmars. Ook problemen met “nep” artikelen (Sting door John Bohanon; DOAJ keurde dit artikel goed)
  • Crowdsourcing Science: Wetenschap gebruikt niet wetenschappers om een bijdrage te leveren aan de wetenschap, bv. bij het identificeren van sterren.

 

Al met al een interessante lezing/workshop waar natuurlijk e.e.a. voorbij kwam wat de meeste van ons al weten, toch waren er ook veel leuke en interessante tips bij die wellicht nog van pas kunnen komen bij onze dagelijkse werkzaamheden. Van deze lezing is de getoonde PTT helaas niet beschikbaar.

 

Middagprogramma

  1. Marydee Ojala – Refections on the reinvention of research
  2. Prof. Dr. Maarten de Rijke – De autonome zoekmachine
  3. Antoine Isaac – Semantic Web, Linked Data: the Europeana case(s)
  4. Robert Jan Alting von Geusau – Enterprise search bij AkzoNobel
  5. Arno Reuser – Wat bedoelde u eigenlijk? Problemen rond de analyse van inlichtingenproducenten en de rol van informatie-professionals daarin

Voor het middagprogramma verwijs ik (ook) graag naar de presentaties: Link naar de PPT’s

  1. Presentatie Marydee Ojala – Reflections on the reinvention of research

Online is niet hetzelfde als het internet (www)! Online was er vóór het web.

 

Verleden:

Zoeken door professionals voor de komst van het internet.

Gisteren:

  • We (Info Pro’s) waren magiërs, klanten vroegen ons om alsjeblieft te vinden wat ze nodig hadden!
  • Niets was gratis (online databases).

Fundamentele veranderingen:

  • Personal Computing: PC’s
  • Zoeken verhuisd van mainframe’s naar desktop
  • Verwachtingen zijn gestegen
  • Formaten (bestandsformaten) zijn uitgebreid
  • Internet is een gemeengoed geworden

Vandaag:

  • Men verwacht dat de informatie vrij is
  • Snelle veranderingen
  • Self-Service
  • The filter bubble / Eli Pariser (TED-Talk!)

Het Web doorzoeken

  • Niet alleen onderwijzen in information literacy maar ook in (trans)media literacy(video/geluid)
  • Alles wordt gedigitaliseerd, wat doen we ermee?
  • Dark Corners/Dark web (illegaal internet etc.)

Betaald zoeken:  De verschuiving vindt plaats van betaald naar gratis:

  • Traditionele verkopers krijgen het moeilijk
  • Nieuwe platforms gebaseerd op Open Source
  • O.A.

Online morgen

  • Wearable technology
  • Augmented reality
  • Voorspellende analyses (de antwoorden ontstaan voor de vraag gesteld is)
  • Gesture technology (interpreteren van menselijk gedrag d.m.v. algoritmes) , post literature world?
  • Atomization of information (Wat is een boek/tijdschrift; formaten veranderen: de pagina in een e-boek is anders dan in gedrukte vorm.)
  • Kunstmatige intelligentie (Internet of things, je koelkast stuurt boodschappen lijstje naar leverancier)
  • Mobiele apparaten
  • Gesproken zoekacties

Wat is de toekomst van InfoPro’s en hun werkveld?:

  • Opnieuw uitvinden van onderzoek/zoeken
  • Wat verwachten/willen we van onze verkopers/leveranciers?
  • Vertrouwen: echt of nep (peer-reviewed!)

Een leuke presentatie met natuurlijk een groot gedeelte overlap met de workshop in de ochtend.

 

  1. Presentatie Maarten de Rijke – Autonome zoekmachine

Onderzoek naar het “ranken” van resultaten (algoritmes om de resultaten te ranken)

  •  Inhoud
  •  Structuur :    Documen /  Link structuur / Sociaal
  • Gedrag : interactieve data (Klik gedrag, doorklikken), impliciet vs expliciet
  • Synthese van rankers: samenvoegen van rankers, wat moet waar getoond worden.
  • Evaluatie rankers: offline verzamelen van queries, gebruiksstudie, online.

Ontwikkeling ranking: van supervised naar unsupervised (zelf lerende systemen).

Geen eenvoudige kost tijdens de presentatie. Ontwikkeling van algoritmes naar zelf-lerende/regulerende algoritmes zoals die bv. ook achter de zoekmachines draaien. Wel een zeer interessant thema aangezien we hier in de toekomst steeds meer mee te maken krijgen (denk hierbij ook aan alle ontwikkelingen rondom Big Data).

  1. Presentatie Antoine Isaac – Europeana en het Semantische Web

 

  • Europeana krijgt “meta-data” aangeleverd, niet de objecten zelf. Europeana is eigenlijk een distributiekanaal.
  • Men verzameld info van verschillende bronnen en legt verbanden (semantic).
  • Europeana en partners leveren open meta-data.

Europeana is een enorm project voor het borgen van het cultureel erfgoed in Europa. Hierbij wordt in feite deels ook gebruik gemaakt van Crowdfunding aangezien iedereen materiaal en info aan kan leveren bij dit project. Uitdaging is om ervoor te zorgen dat alles gestructureerd aangeboden wordt. Hierbij zijn alle verschillende talen binnen Europa een factor die het nog complexer maakt. Daarnaast heeft men ervoor gekozen om het project gefaseerd uit te rollen. Langzaam wordt alles (steeds complexer) opgebouwd. Een strategie die nu zijn vruchten begint af te werpen.

  1. Presentatie Robert-Jan Alting van Geusau (AkzoNobel) – Implementation of a Central Intelligence Web

Intelligence is binnen de Corporate Strategy ondergebracht als staf functie.

–          Welke info is waar nodig?
–          Hoe krijgen we de info daar?

Inventarisatie

–          Wat wordt waar gekocht?
–          Centraliseren
–          Uitsturen van alerts werd vaak dubbel gedaan (dus centraliseren en ontdubbelen)

Multidisciplinair team

–          Juristen
–          Communicatie
–          Researchtakken
–          IP-ers

 

Company visits gedaan (ontdekken van best practises)

Presentatie van leveranciers (o.a. Comintelli) van Intelligence Systems, hieruit werden er 2 geselecteerd.
–          Klein beginnen met mogelijkheid tot uitbreiding/groei.
–          Uiteindelijke keuze: geen grote leverancier, klein, geen core speler, maar meer mogelijk m.b.t. maatwerk.
–          Implementatie
–          One Intelligence

 

Inrichting achter Firewall.
Providers om medewerking gevraagd bij inlezen van info (LexisNexis, Dow Jones etc.).
Newsfeeds genereren verliep niet geruisloos.

Er zijn verschillende views voor verschillende takken/researchgroepen, toegespitst op de wensen van de betreffende groep.

Implementatie:
–          Presentatie aan management
–          SSO (Single Sign On) access, dus geen PW
–          Besparing door centrale inkoop en centraal beschikbaar stellen

 

Gebruikers genereren informatie, er wordt automatisch geclassificeerd.

 

Cruciaal: IT & risico analyse vóór een upgrade!
Software runnen op parallelle server gedurende de update.

Basis van het systeem is een taxonomie (3 niveau’s) die verder uitgesplitst wordt naar een taxonomie per tak/bedrijfsonderdeel.

Een erg interessante presentatie! Je zou hier nog wat info vandaan kunnen halen m.b.t. het centraal stroomlijnen van informatie!

  1. Arno Reuser – Wat bedoelde u eigenlijk? Problemen rond de analyse van inlichtingenproducenten en de rol van informatie-professionals daarin

Een lichte en luchtige presentatie ter afsluiting van deze VOGIN-IP dag. In deze presentatie kwamen meerdere hilarische voorbeelden voorbij rondom het verkeerd interpreteren van informatie met alle gevolgen van dien. Reuser gaf ook nog een “pep”-talk m.b.t. de kennis en kunde van “ons” als informatieprofessionals: we hebben kennis en we kunnen veel, dus niet altijd zo bescheiden zijn….

Al met al een interessante, leuke en leerzame dag!

http://vogin-ip-lezing.net/

 

Theory and Practice of Digital Libraries : samenvatting #TPDL2013

Laat een reactie achter

Voor zover ik het dan begrepen en gevolgd heb.

Zoekacties op internet leveren vaak niet voldoende, of niet complete resultaten op, terwijl de gegevens er vaak wel zijn, maar ze zijn óf niet goed gestructureerd, óf wel gestructureerd, maar zitten opgeslagen in databases, waar ze voor gewone zoekmachines moeilijk te vinden zijn.
Zaak is het dus om meer structuur aan te brengen in het geheel, en om zaken met elkaar te verbinden.

Digital Libraries zijn meer dan enkel opslagsystemen van digitale informatie: ze moeten een Knowledge Hub zijn.
Ze moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken, nieuwe technologieën maken nieuwe toepassingen mogelijk: digitale bibliotheken moeten nieuwe wegen mogelijk maken om naar de informatie te kijken.

Het semantische web

Een oplossing wordt gezien in het semantische web: met als ontwerptalen RDF (Resource description Framework) of RDFS (=RDF + nog wat erbij) en OWL (Web Ontology Language), zoeken via SPARQL en verder kennisorganiserende systemen SKOS.
Aan de basis ligt RDF: kort gezegd komt dat er op neer dat informatie opgeslagen wordt in zo klein mogelijke statements die nog zinvol zijn.  Deze uitspraken bestaan vaak uit 3 elementen: (‘onderwerp’ – gezegde (relatie) – ‘lijdend voorwerp’) en worden daarom triples genoemd. Dat zijn uitspraken als: ‘Shakespeare schreef Othello’ ‘Shaeksepare is een auteur’ Othello is een toneelstuk’
Deze triples worden opgeslagen in een ‘triple store’. De namen van mensen, organisaties, plaatsen en dergelijke (Named Entities) worden ook opgeslagen en voorzien van allerlei varianten en vertalingen, zodat als iemand een vergissing met zoeken maakt, of een gescande tekst een variant bevat, er toch de juiste persoon wordt gevonden: er zijn authority files.
En er wordt een ontologie (trefwoordenlijst) bij gebruikt die ondubbelzinnige termen bevat, en de termen in hun context weet te plaatsen: zodat er een onderscheid is tussen Jaguar als beest (in combinatie met jungle bijvoorbeeld) en als automerk (in combinatie met autowegen en benzine).
Met RDF kun je zo informatie uit allerlei heel verschillende databases met elkaar verbinden.

Dat is heel kort door de bocht de theorie en met dat als basis kun je van alles met van alles verbinden.

Er gebeurt veel daarmee, maar het meeste daarvan is volgens mij nog als proef, of als onderdeel van een of ander geheel.
Het is best complex om dat goed te doen, en het vergt veel samenwerking.
Maar als dat goed werkt, kun je dus ‘alles’ van een onderwerp bij elkaar vinden: of het nu om beschrijvingen van gebouwen, muziek, boeken, artikelen, beschrijvingen van beelden of wat dan ook gaat.
En je kunt  ook andere zaken verzinnen als:  Slidewiki  (losse slides uit presentaties voorzien van extra informatie via) of iets als OntoWiki .
In het project Cortex (semantic digital library search backend)  van LOD2 is alle Europeana informatie in triples ingevoerd in die database, dit is nu in gebruik door de Deutsche digitale bibliothek. De performance is erg goed.

Metadata rules

Wat eigenlijk elke dag wel terug kwam is het belang van metadata: en die metadata moet goed zijn, anders wordt het geheel wat je daarop wil bouwen wat wankel.
Bij voorbeeld: de European library wordt samengesteld uit de geharveste repositories van de 48 nationale bibliografieën.
Een repository wordt gevoed uit een catalogus ergens: die gegevens worden via het OAI-MPH systeem geharvest.  Maar die gegevens zijn maar net zo compleet als ze worden ingevoerd, en lang niet alle catalogiseerders maken volledig gebruik van de velden die ze tot hun beschikking hebben. Bovendien: aan een repository ligt vaak Dublin core ten grondslag, en dat is ook nogal beperkt.
De gegevens van meerdere repositories worden samengevoegd, maar dat kan dus als resultaat hebben, en heeft het ook, dat een item meerdere keren voorkomt.
Voor de gebruiker van het systeem is het niet plezierig als deze meer dan 1x dezelfde gegevens voorgeschoteld krijgt, dus het is zaak de ontdubbelen: maar als je niet alle gegevens hebt is het lastig om die dubbelen te identificeren. Anderzijds wil je ook recht doen alle mogelijke edities, en alle medewerkers van een bepaalde editie. Voor een bestand als The European Library (en Europeana en dergelijke)  zijn de aantallen waar je over spreekt gigantisch, dus dit is beslist niet handmatig te doen.
Automatiseren ja, maar vaak is er ook weer -deels- menselijke tussenkomst bij nodig.

Archiveren

Veel (60%) van wat er nu aan informatie is verdwijnt zonder dat deze wordt gearchiveerd. Maar is dat erg? Moet je alles willen bewaren?
Is het eigenlijk niet veel meer werk om uit te zoeken wat je wel wilt bewaren, en kun je maar beter alles opslaan? Maar hoe doe je dat en hoe zorg je dat je met die data explosie voldoende ruimte hebt?
Hebben we eigenlijk niet betere filters nodig?
Ook in de Wayback machine blijkt lang niet alles te vinden.
‘What to keep’ is echt een digitale bibliotheek issue.
Een interessant vraag is ook: als je research data bewaart en opslaat en het dan later weer uitvoert, doet het proces dan nog hetzelfde?

Sharing data is a cultural issue

Wetenschap wordt in het openbaar bedreven, maar als je echt over Open science spreekt, heb je meer nodig dan nu ‘open’ is, hoewel nu al 50% van de artikelen via Open Acces te vinden is. Een publicatie is het eindpunt van een onderzoek: daar gaat een en ander aan vooraf. Bij de publicatie van een artikel hoort ook de publicatie van de data waar het artikel op gebaseerd is: zodat het eindresultaat verifieerbaar is, zodat men de data kan hergebruiken, om fraude en ‘gratis bijrijders’ tegen te gaan. Maar dit ligt nogal moeilijk, vanwege het feit dat sommige onderzoekers zich niet graag in de kaart laten kijken, uit angst voor misbruik of misinterpretatie, vanwege persoonlijke gegevens van proefpersonen, of het  aanwezig zijn van min of meer geheime bedrijfsgegevens. ‘Europa’ wil wel dat alles wat met publiek geld gefinancierd wordt ook in open access gepubliceerd wordt, maar niet alle onderzoek vindt plaats in de publieke ruimte, er is nogal eens een verstrengeling van privaat en publiek geld.
Daar komt nog eens bovenop dat de data alleen niet voldoende is: je hebt ook de software nodig waar de data in gemaakt is om die te kunnen hergebruiken, de beschrijvingen, de modellen, de provenance, het gehele proces eigenlijk.
Zou je het goed willen doen, dan zou de onderzoeker al bij de opzet van het onderzoek het hergebruik in ogenschouw moeten nemen, en contact opnemen met de data scientist / librarian / archivist om af te spreken wat de beste procedure is om het geheel te archiveren. en dat vergt wel een cultuuromslag …
En dan dat hergebruiken: gaat iemand dat eigenlijk wel doen?

Love your data and let others love them too

Je hebt een betrouwbare infrastructuur nodig om dat te stimuleren, een infrastructuur waar digitale bibliotheken deel van uitmaken.
Data kan trouwens van alles zijn: het hangt van de omstandigheden af wat er als data gezien wordt. Iemands aantekeningen is voor de een ruis, voor de andere bron van onderzoek, en dus data.

Artikelen

Een artikel alleen is niet voldoende, je hebt er dus ook de data en de procesbeschrijving van het onderzoek bij nodig.
Maar daarnaast zou je ook het artikel kunnen annoteren en voorzien van triples: dat maakt het gemakkelijker terug te vinden en daarmee gemakkelijker citeerbaar.
Dat vergt alleen wel een andere manier van publiceren omdat de meeste uitgevers de triples eraf zullen strippen, maar in instituutsrepositories zou dat zeker wel gaan.
Wat bibliometrie betreft: alleen de citaties worden geteld, maar eigenlijk is vermelden in een tweet ook een citatie, en die worden niet geteld. Commentaren bij blogs ook niet.

Visualisatie

Nadeel van zoeken is dat je keywords nodig hebt: wat als je een plaatje wilt zoeken, of niet echt een term weet?
Je zou een soort Google Maps kunnen maken van onderwerpen waarop je kunt inzoomen. (zie blogtekst over het Paths project )

Gebruikers

We doen het allemaal voor de gebruiker: en die willen soms andere dingen dan de profs denken.
Ze willen bijvoorbeeld dat het systeem hen daadwerkelijk helpt, niet alleen een help button.
Men wil graag veel opties voor het manipuleren van de zoekactie en om de resultaten te tonen, maar het systeem moet wel duidelijk zijn.
Gebruikers willen best Advanced search gebruiken maar hebben minder interesse in technische metadata.
Search filters zijn gebruikelijk, maar worden ze ook gebruikt? Uit een eye tracking studie blijkt dat ze veel gebruikt worden. Dus ze zijn zeker zinvol ja.
En last but not least: we zijn op weg naar een echte cyberinfrastructure maar face to face contact blijft belangrijk.

Infrastructuren

In Europa is een woud van acroniemen bezig met het opzetten en onderzoeken van e-infrastructuren. (blogpost)
Het is nogal ondoorzichtig allemaal wie nou precies wat doet, en laten we hopen dat ze het zelf weten. En allemaal in projecten: wat gebeurt er als die afgelopen zijn?
OpenAIRE is bijv wel een heel belangrijke: dat is een basis en daarop kun  je  speciale applicaties voor speciale toepassingen bouwen. De OpenAIREplus versie verbindt publicaties met data (zie het Dlib artikel.)
Wat wel uit deze presentatie kwam is dat het belangrijk is dat men vanuit Europa zelf voeling houdt met de ‘basis’: de catalogiseerders en de afzonderlijke collecties.  Als die niet het idee hebben dat ze met samenwerken wat kunnen bereiken, en dat Europa ze alleen maar werk kost waar ze zelf niets aan hebben, verlies je ze.
Het ontbreekt dus niet alleen aan duidelijkheid, maar ook aan communicatie naar de basis.
Het is ook allemaal erg highbrow: hebben we eigenlijk niet simpele tools voor curatie nodig in plaats van specialistische ITers?
De standaardisatie komt vanuit Europa, maar van belang is ook dat we weten in hoeverre de datasets te vertrouwen zijn: certificatie en audit? Of liever appraisal? De Europese heren en dame weten het ook niet dus er komt weer een project voor …

Aanrader

Een hele leuke Google Scholar plugin voor Firefox en Chrome: de Google Scholar H-index Calculator.

Conclusie

De Digitale Bibliotheek heeft een toekomst en is de toekomst.
Maar het levert nog wel veel vragen op….
Wat wel een duidelijke zaak is dat je ‘als bibliotheek’ je zeker moet gaan bemoeien met de opslag van data, hoe moeilijk dat ook is.
En het koppelen van de data aan de publicatie.
Want daarin ligt de toekomst voor de bibliotheek.

Presentaties

Defining Digital Library #TPDL2013

Laat een reactie achter

Defining Digital Library. (€) Armand Brahaj, Matthias Razum, and Julia Hoxha

This paper reflects on the range of the definitions of digital libraries demonstrating their extent. We analyze a number of definitions through a simplified intensional definition method, through which we exploit the nature of the definitions by analyzing their respective genera and attributes. The goal of this paper is to provide a synthesis of the works related to definitions of digital library, giving a fine-grained comparative approach on these definitions. We  conclude that, although there are a large number of definitions, they are defined in overlapping families and attributes, and an inclusive definition is possible.

Armand vindt dat Digital Libraries een verkeerde term is, omdat wat je ermee bedoeld erg afhangt van de context waarin je het gebruikt.

Collectie, service, organisaties of systeem bijv.
Dit zijn de resultaten van hun onderzoek :

Hij ziet bibliotheek dus meteen als een online systeem ;-).

(Hij heeft een aardige mindmap gemaakt, maar die was te snel van het scherm, hij heeft hem op mijn verzoek even getweet 🙂

E-books in Swedish Public Libraries: Policy Implicaties #TPDL2013

Laat een reactie achter

E-books in Swedish Public Libraries: Policy Implications (€)

The aims of the paper are: review the situation of e-books delivery in the Swedish public libraries (as it looked at the end of 2012); identify the barriers that public libraries encounter in providing access to e-books; highlight the policy-related problems of e-book provision through public libraries. A survey was carried out in October, 2012 of all public libraries in Sweden. 291 questionnaires were issued. 185 were completed, response rate was 63.3%. The provision of an e-book service has arisen as a result of either demand or an
ideological belief that the ethos of democratic values and equality of access requires libraries to offer material in all media. Librarians find the situation of e-books provision through libraries unsatisfactory: the provider of titles removes them from the catalogue without warning or explanation, there are too few titles for children and students, and access to popular titles is delayed.

Bijna alle huishoudens in Zweden hebben internet, en ze lezen ook echt veel, maar er leest maar 1% ebooks. Heeft ook met aanbod in het Zweeds te maken, dat is heel erg beperkt. Toch bieden 95% van de OBs in Zweden ze wel aan. De bibliotheken in Zweden zijn erg gericht op kwaliteit en aanbod voor have-and-havenots gelijk te krijgen. Ze hebben ze dus ook echt op aanvraag van gebruikers, maar er zijn de bekende beperkingen voor bibliotheken.
Bovendien is er daar een pay per use dat maakt het duurder – ebooks worden zo duurder duurder naarmate ze meer gebruikt worden, duurder dan print- en tamelijk onbeheersbaar.
Beperking van markt maakt t aanbod beperkt. Kinderen komen met ipad en willen ebooks, maar er zijn er geen. De Zweedse leverancier geeft ook geen vertalingen uit. Ze hebben wel geld gekregen voor dit project.
Er komt een nieuwe wet aan.
Mensen willen wel ebooks lezen, maar er eigenlijk niet voor betalen.
Nb dit project gaat niet alleen over de openbare bibliotheek, maar over alle bibliotheken.

Hun Blog http://projectebooks.wordpress.com/

Extension voor Google Scholar Bibliometrics #TPDL2013

Laat een reactie achter

A Domain Meta-wrapper Using Seeds for Intelligent Author List Extraction in the Domain of Scholarly Articles. (€) Francesco Cauteruccio and Giovambattista Ianni

In this paper we investigate about automated extraction of author lists in the domain of scientific digital libraries. It is given a list of known “seed” authors and we aim to extract complete lists of co-authors from Web pages in arbitrary format. We adopt a methodology embedding domain knowledge in a unique “meta-wrapper”, not requiring training, with negligible maintenance costs and based on the combination of several extraction techniques. Such methods are applied at the structural level, at the character level and at the annotation level. We describe the methodology, illustrate our tool, compare with known approaches and measure the accuracy of our techniques with proper experiments

Ze hebben een hele leuke Google Scholar plugin voor Firefox en Chrome gemaakt: de Google Scholar H-index Calculator.
Ze kregen daar veel feedback op.
Ziet er echt heel handig uit.

Scholar laat maar een stukje van de informatie die beschikbaar is, bijv, maar een paar van de auteurs.
Met hun tool kun je die opvragen.
In dit paper beschrijven ze hoe ze dat gedaan hebben.
Ze hebben een meta-wrapper gemaakt a la DIADEM.

De resultaten zijn echt vrij goed :

What can Linked Data do for Digital Libraries? #TPDL2013

Laat een reactie achter

Keynote Address by Soren Auer
What can Linked Data do for Digital Libraries?
Chaired by Trond Aalberg
Hall: Grand Ballroom

The paradigm of publishing and interlinking structured data on the Web got quite some traction recently. In this talk we will give an overview on recent developments in the Linked Data realm. We will have a look on how Linked Data can contribute to making Digital Libraries and the rich, qualitative content therein more accessible, inter-connected and attractive. As the Web evolves from a medium for document exchange to increasingly facilitating data exchange, Digital Libraries will also evolve from document repositories to knowledge hubs. We will discuss some challenges and opportunities on that road.

Sören schrijft veel: ‘Sören is author of over 80 peer-reviewed scientific publications resulting in a H-index of 20’
Jeetje.
‘He aims to combine strong theoretical results with high-impact practical applications’ kijk dat is een goed idee.

Sören deed altijd al wat ‘digital library stuff’ maar noemde het niet zo.

Waarom hebben we een Data Web nodig?
Van sommige dingen heb je al geleerd dat je ze niet via Google kunt vinden, al is die informatie wel aanwezig, de reden is dat de integratie er niet is: de achtergrond informatie is dan niet, of niet gestructureerd, aanwezig.
Het is van belang nieuwe strategieën daarvoor te ontwerpen.

De informatie is er nl wel en zelfs gestructureerd, maar dan in databases zelf.
Via RDF kun je informatie uit diverse bronnen integreren.

RDF data model met triples.
Triples komen uit de natuurlijke taal, je kunt er allerlei informatie in kwijt.
Dat kun je op web zetten, de machine vindt de triples en de mens zelf zoekt.
Als je dat in een relatated database doet wordt het erg rommelig.

Pragmatische ontwikkeling van het semantische web.

Het paatje ‘Emerging Web of Data’ van twee jaar geleden werkt intussen niet meer: het web is intussen zo groot geworden dat je het niet meer in een enkel plaatje kwijt kunt.

LOD2 project lifecycle Linked Data.
Extractie uit gestructureerde en semi- gestructureerde bronnen.
Opslaan van triples in Triples stores.

Authoring: iedereen zou informatie moeten kunnen toevoegen.
Linking en interlinking: dat wil je niet handmatig doen, dus heb je op basis van heuristics systemen nodig die dat doen, maar die hebben wel een menselijke verificatie nodig, dus niet puur automatisch.
Verrijking: er zijn upper levels structuren van de basis gegevens van ontologieen nodig.
Kwaliteitsanalyse: data web heeft ook grote variëteit in kwaliteit. Op zich is dat niet erg, maar we moeten wel weten wat de kwaliteit van een bepaalde dataset is. Het ligt aan je doel of de kwaliteit van een bepaalde set voldoende is of niet.
Evolutie van de data : web moet dynamisch zijn
Exploring data: het web staat nog in de kinderschoenen, er zijn betere tools nodig.

Diverse componenten van Lod2 zijn al beschikbaar of  komen op korte termijn ter beschikking.

Wat is een digital library?
‘Zoeken naar ‘stuff’ en ernaar kijken’ is wat een gewone bibliotheek doet.
Een digitale bibliotheek doet hetzelfde en geeft ook toegang tot digitale items, althans, dat zou je in eerste instantie zeggen, maar dat is niet het enige, noch is het voldoende.
Een digitale bibliotheek zou ook een methode moeten geven om naar nieuwe wegen van informatie te kijken. Knowledge Hubs. Kennis delen op het web. Nieuwe technologieën, dat geeft ook nieuwe toepassingen.

Artefacten: zijn bij voorbeeld ook thesauri, data, semantic network, etc.
Nieuwe vormen van samenwerking zouden onderzocht moeten worden en nieuwe artefacten als Linked Data, mashups, wikis, courseware, etc ingevoerd
Dingen waar we eerder niet aan dachten.

Ontowiki (lijkt nu even niet online te zijn -later wel-, maar wel online is http://semanticweb.org/wiki/OntoWiki)

Een voorbeeld is dit:

Ontwiki

 

Cortex : semantic digital library search backend.
Alles zit in de database: alle Europeana informatie is in triples ingevoerd in die database.
De response erg goed. Voorbeeld https://www.deutsche-digitale-bibliothek.de/

Slidewiki :
Platform open access voor presentaties per slide (vanaf vandaag toegankelijk).
Je kunt steeds de presentaties updaten, de vertaling gaat automatisch.
Er is een lijst met mensen die er aan bijgedragen hebben, zoals bij Wikipedia.
Iedereen kan vragen stellen, en die zijn gekoppeld aan de slide zelf.
Voor Prezi werkt het ook.

Voorbeeld van slidewiki:

Slidewiki

 

SemanticPapers
Gestructureerd noteren van wetenschappelijke informatie. Onderzoekers zijn veel tijd kwijt met informatie in tekst te zetten. Kan dat eenvoudiger?
Annoteren van papers op een semantische manier.
RDF triples koppelen aan stukjes tekst. (is dit minder werk? lijkt me behoorlijk ingewikkeld – of veel werk- om te doen als ze dat zelf moeten doen ). Sören zegt dat reviewers toch moeten annoteren. Als ze dat gedaan hebben kun je wel meteen zoeken in de database naar ‘Similar papers’ . Dat is wel een voordeel. (vraag is wel hoe goed ze dat dan doen: is wel een methode om onder water wat ‘onzin’ toe te voegen.)

Authoring semantic annotated annotaties text.

Extract informatie uit bestaande repositories.

Digital Libraries moeten nieuwe typen gestructureerde artefacten ondersteunen en interacties mogelijk maken.

Wauw, interessante tools, leuk praatje .


Opmerking uit de zaal: Annoteren doen mensen zelf achteraf niet, daar hebben ze geen tijd voor, maar voor studenten zou het een mooie tool zijn.
Antw: Voordeel is ook dat als je gemakkelijker te vinden bent je vaker geciteerd wordt, en door deze semantische verrijking wordt je sneller gevonden.
Mogelijk kun je het crowdsourcen of automatisch laten doen.
Opm van Christine Borgman :
de traditionele uitgevers strippen dat er gelijk af en maken er een pdf van.
We moeten dan naar andere manier van publiceren.
Antw :
je kunt ook buiten uitgevers om je artikel opslaan in Google docs, kleine OA tijdschriften of een repository.

Slides presentatie