NVB Jaarcongres 2011: web 3.0 het semantische web deel 1 #nvb11

Web 3.0 – ook wel het semantische web genoemd – is dichterbij dan iedereen denkt.

Ivo Zandhuis

 Wat wordt nou precies verstaan onder ‘Semantisch Web’? Sir Tim Berners-Lee, de grondlegger van het World Wide Web, heeft het ooit gedefinieerd als “a web of data that can be processed directly and indirectly by machines”. Maar er zijn ook andere definities, waarvan sommige eerder thuishoren in de wereld van de science fiction dan dat ze gebaseerd zijn op science faction. Ivo Zandhuis (zelfstandig consultant) leidt het debat. Edgar Meij (Universiteit van Amsterdam) gaat in op de ontwikkelingen van information retrieval. Lukas Koster (Bibliotheek van de Universiteit van Amsterdam) belicht het fenomeen Linked Open Data. En studenten van IDMdenhaag presenteren een praktijkvoorbeeld van semantic networks bij IDM.

Zo, de studenten van de IDM wel … dit is eigenlijk iets waar ik al een poosje meer van wil weten. Zou eigenlijk wel een cursusje Semantisch web/zoeken willen volgen (GO??). Worden we wijzer vandaag?

Ivo Zandhuis heeft een eigen bedrijf en twittert.
Over het proefschrift van Edgar Meij schreef de Automatiseringsgids in 2010: Promovendus maakt zoekmachines slimmer . Aldoor al van plan om dat te gaan lezen, maar is er maar steeds niet van gekomen. (luiheid natuurlijk).
Lukas kennen we natuurlijk als  Tweep en als blogger (en bierdrinker).

Mollema en drie studenten.
———————

Het live verslag.

Ivo heet ons welkom.
Eerst drie kwartier discussie en daarna drie prestaties van een half uur. (Die doe ik apart denk ik)

………
Meeste mensen uit zaal komen uit de academische bibliotheek, een deel uit de bedrijfsbibliotheek, paar OB, paar erfgoedinstellingen en enkele ICTers.

Stellingen om uit te zoeken hoe we er in staan:

1) web is goed zoals het is. hoeft niet verandert.
Niemand onderschrijft dat.
Laten we voorbij catalogus denken, het gaat om toegang tot informatie waar die ook vandaan komt.
Bekende kreet: ‘Geen collectie maar connectie’. Lucas is het daar niet mee eens. juiste wel collectie, maar een andere invulling aan het woord collectie geven.
Computer trainen om je te begrijpen.

2) Linked data is voor techneuten, daar heb ik niets mee te maken, hoef ik niets van te weten.
Deze sessie is niet voor techneuten.
Vraag uit de zaal: zeg eerst eens waar het over gaat.

Anwoord: Relatie tussen dataelementen leggen, connecties leggen tussen je catalogus en informatie elders.

Zelfs techneuten hebben soms moeite het te volgen als het over linked data/semantische web gaat, zegt een van hen.
Dit onderwerp heeft een belangrijke technologische component, maar op zich kun je eigenlijk nu ook al relaties leggen.
Rol IPer gaat erom te weten wat er kan.

3), Linked data is nog te prematuur

Vraag uit de zaal: keer t programma om, laten we eerst presentaties houden, dan weten we waar we het over hebben.

____________________

Edgar Meijaan het woord.
Wat betekent semantisch zoeken.
‘gewoon’ zoeken via Google, maar Bing, Yahoo.
‘watson’ zoeken: vraag op antwoord geven, maar Watson is niet altijd even slim.

Zoeken
Verbetering wordt steeds moeilijker te realiseren : snelheid, de nadruk ligt op rekenkracht.
Uitdaging : begrip van cognitie, hoe pakken mensen probleem aan, begrip op.
Dieper begrip van queries en content
Verschil Paris Hilton is dat een persoon of een hotel in Parijs.

Nu krijg je al vaak een interpretatie van je zoekvraag als je bv zoekt naar Wenen, Oostenrijk  komt de zoekmachine met een kaart, en met suggestie wat er te doen is.
De zoekmachine moet al vrij zeker weten wat men wil, anders werkt het contraproductief en gaat vraagsteller weg naar een ander systeem.

Nieuwe zoeken
Rijker zoeken heeft semantisch zoeken nodig.
De onderdelen:

  • Aggregatie
  • voorspellingen
  • semantische profielen
  • semantische queries
  • complexere taken.

Combinatie zoekvraag en documenten

Vertaling van queries naar andere presentatie.
Snap to grid. Bv  Starbucks Schiphol =  Het bedrijf en de locatie

Je ziet dat nu al als je naar Reehorst Ede zoekt in google, dan krijg je al aggregatie waardoor het resultaat op een bepaalde manier wordt gepresenteerd: de map, de prijs van een kamer etc.
Harrison Ford zoeken in Yahoo geeft ook iets vergelijkbaars: hij weet dat t een filmster is, foto’s films, persoonsgegevens.

Semantisch web
Gaat om link van data linked data en RDFa (Resource Description Framework)
Grote instellingen gebruiken Linked data.
RDFa de opmaak in XML bijv een persoon met onderliggende gegeven als naam, adres, land, beroep.
rNews  (embedded data in online news) is de  nieuwe standaard als specificatie voor RDFa: hoe geef je in je artikel aan waar het precies om gaat. Zo wordt het voor een machine gemakkelijk om gegevens aan elkaar te koppelen.

Schema.org
Gestandaardiseerde RDFa.

Wat kun je er zelf mee?
Zoekvraag komt binnen, zoeken, ranking, presentatie aan gebruiker.
Impliciete data is data die jijzelf toe kunt voegen aan documenten.
Informatie extractie.
Er zijn tools die in de tekst als ze dit soort info vinden dat kunnen linken aan een ander bestand bijv persoonsnaam aan wikipedia.
Fietstas bijv, dat is tool dat ze in Amsterdam gebruiken als text analyse tool.

Vraag: wat een bibliotheek bijdragen?
Data. Mankracht.
We zijn teruggekomen bij kennisindeling.
Een goed onderhouden thesaurus is van groot belang. Met name voor obscure collecties.
Bibliotheek weet veel van gebruik van collectie.

Nexis : verslag van een demonstratie

Nexis is het vlaggenschip van LexisNexis

LexixNexis is een vooraanstaande leverancier van op kennis en informatie gebaseerde oplossingen voor professionals in verschillende sectoren, zoals de zakelijke markt, juridische markt, overheid, hogescholen en universiteiten en risicobeoordeling (compliance).

Nexis bevat Nieuws (dagbladen, kranten, weekbladen), Bedrijfsinformatie en Marktinformatie.
Als je op de link klikt van NexisNL krijg je de Duitse versie: dat komt omdat zowel Deutsch als Dutch met een D begint zeiden ze me, maar dat wordt aangepast en bij de volgende oplevering van de software is dat eruit.
In verband met copyright wordt wel de tekst van de krantenartikelen opgeladen, maar niet de foto’s: daar gelden weer andere regelingen voor.
Ook free-lancers die voor een krant werken hebben vaak afzonderlijke regelingen en vallen niet altijd onder de beschikbare informatie in Nexis.
Publisher: De gegevens uit Nexis mag je in verband met copyright niet op je intranet plaatsen, die uit publisher -apart abonnement- wel.  Dan krijg je ook de artikelen als PDF: inclusief foto’s.
Media coverage analyser
is een product van LexisNexis,  maar helaas is op de site niet meteen de brochure te vinden die ik hier wel heb  (da’s niet zo handig van ze) ;-) .  Je kunt dat gebruiken om mooie tabellen en grafische informatie over je bedrijfscommunicatie te krijgen. Evt in combinatie met publisher.  De kosten hiervoor zijn 750/mnd voor beperkte zoekactie, oplopend tot 1500.

Als je problemen hebt met zoeken of vinden van de juiste info:  er is een  Service desk en die kun je vragen om hulp bij zoeken.

Nieuws
Landelijke dagbladen worden ‘s nachts opgeladen, om zo snel mogelijk beschikbaar te zijn.  Het buitenlandse nieuws (engels) wordt automatisch geïndexeerd, het Nederlandse nog niet helemaal. Geindexeerde informatie is -ook- via een thesaurus doorzoekbaar.

Er is een algemeen Zoekformulier op de beginpagina en een Nieuwszoekformulier na een klik. In deze laatste zitten  iets meer opties:  het is gesteund zoeken met uitklapmenuutjes voor de meest voorkomende velden en al ingevulde operatoren.  De term :  ‘Min 3x ‘  slaat op het aantal keer  dat een zoekterm wordt genoemd in een artikel.

Zoeken
Paar bijzonderheden:

  • Koppelteken  wel of niet gebruiken maakt niet uit
  • 2 termen achter elkaar moeten ook in die volgorde voorkomen
  • geen vaste volgorde: w/5 is binnen 5 woorden voorbeeld:  (term1 w/5 term2)
  • wel vaste volgorde, term 1 voor term 2: Pre/5 binnen 5 woorden.
  • ! is truncatie teken: staat voor onbeperkt aantal letters. Advies: altijd trunceren in Nederlandse zoekacties
  • Atleast2(term) ; de Term moet tenminste 2x voorkomen
  • je kunt  ook op lengte van de artikelen zoeken
  • operatoren hoeven niet met hoofdletters
  • je kunt trouwens wel (actief) zoeken op hoofdletters

“Voeg toe”: met deze optie kun je een dossier opbouwen, deze items blijven 24 uur staan, vgl ‘MyList’ in Scopus.

Vraag over de periode: periode is dat ‘tot’ of ‘tot en met’? (Er staat ‘tot’  in het pull-down menu, maar volgens mij zoekt-ie ‘tot en met’ ).  Ze kijken het na.

Kosten
Nexis is een dure database. Je kunt de kosten afkopen voor een vast bedrag: dan heb je een soort flat fee, waarvan het gebruik wel wordt bijgehouden: incidenteel eroverheen gaan is niet erg, maar als dat vaak gebeurd word je aan je jasje getrokken. Voor de gebruiker is het wel tamelijk weinig inzichtelijk hoe het er met je gebruik voorstaat:  daar schijnt een optie voor te zijn die al dan niet aangezet kan worden.
Je kunt  ook Pay-as-you-go werken; dan betaal je voor wat je doet.
Indicatie: 1 artikel = 2,75.

Berekend wordt de zoekactie zelf en de downloads (=printen of saven).  Tonen van een full-text op het scherm is gratis.
Als je een zoekactie gedaan hebt, kun je die zonder kosten inperken (verfijnen) . Advies is dan ook: neem een ruime zoekactie en een ruime datum periode en perk daarna in.
De hoogte van het verbruik hangt ook af van de gebruikte bronnen: je hebt een brongroep waar een apart tarief voor geldt: bijv alle Nederlandse kranten samen. Je kunt ook op afzonderlijke kranten zoeken, maar een combinatie van een paar kranten is al snel duurder dan zoeken  op alle kranten tegelijk.
Advies is hier ook: kies voor de brongroep -in een ruime periode-  neem geen losse bronnen, en perk daarna eventueel in op afzonderlijke kranten, of verfijn op onderwerpen of op periode.
Printen van een uitgebreide lijst is net zo duur als van een enkel artikel full-text 2,75.

Resultaten groep
In een cluster links op het scherm worden de soort bronnen + de aantallen hits daarin getoond en daarop kun je sorteren.
Een zoekactie kun je ontdubbelen over diverse editie van een bron: een persbericht telt dan bijvoorbeeld ook maar eenmaal.
In de resultaten groep blijft het aantal niet-ontdubbelde hits staan, terwijl bovenaan het scherm het aantal wel ontdubbelde staat: ikzelf vind dat wat verwarrend.
Van de zoekset kun je-via verfijnen-  een subset maken, deze wordt ook niet geteld als zoekactie.
Het opbouwen en verfijnen van zoekacties na de initiële  moet je wel doen door gebruik maken van booleaanse operatoren in de  commandotaal, dan heb je niet de keuze voor een vooringevuld zoekformulier.

Attendering
Als je een zoekvraag regelmatig gebruikt kun je je laten attenderen op nieuwe hits: die komen dan in je e-mail. Een attendering is goedkoper dan elke keer een zoekactie doen omdat  de kosten anders liggen:  zijn afhankelijk  van de gekozen frequentie, (dagelijks/wezenlijk) plus de printkosten  (saven en downloaden) van documenten.
Een attendering zoekt wat er nieuw is bijgekomen vanaf de oorspronkelijke zoekactie: als je dus een maandelijkse alert wil van wat er die maand is binnengekomen, worden ook de items die retrospectief zijn toegevoegd -horen immers bij de set die die maand is toegevoegd- getoond. Netjes.

Engelstalig nieuws.
De algemene brongroep van alle engelstalige bronnen ‘All english language news’ is erg groot: dan krijg je ook allerlei kleinere Amerikaanse krantjes, die kun je uitselecteren door te kiezen voor  Major world publ (english).
De Engelstalige items worden automatisch geïndexeerd: er zit een uitgebreide thesaurus achter.  Via de optie  Indextermen krijg je dan op het algemene zoekscherm de ‘Broader terms’ .  Daar zitten natuurlijk veel specifiekere onder: de thesaurus kent een automatische Explode functie, daar hoef je niet om te vragen, maar je kunt hem ook niet uitzetten zo te zien.
Elk artikel krijgt een aantal termen, bij die termen wordt ook de mate van relevantie van die term voor dit artikel aangegeven. Die techniek is ontwikkeld door LexisNexis zelf.
Bij het zoeken kun je vragen om artikelen met hoge relevantie: dan gaan ze meer dan 85% over het onderwerp.
Je kunt Verfijnen door te klikken op een van de Narrower terms om het zoekresultaat in te perken: dat hoort nog tot dezelfde zoekactie.
Hoger in hiërarchie kun je gaan via een zoekactie in de Indextermen, dan krijg je blik in systeem en kun je ook bovenliggende termen vinden.  Dat is uiteraard een nieuwe zoekactie.
Een belangrijk deel van die Indextermen zijn namen van Bedrijven en Markten: als je een zoekactie in de thesaurustermen hebt gedaan kun je voor een van die opties kiezen.
Best indrukwekkend zo op ‘t eerste gezicht.

Nederlandse Bedrijfsinformatie
Denk bij het zoeken eraan om ook de naam met alternatieve spelling of  in meerdere woorden los van elkaar te gebruiken met OR relatie.
Je kunt ook zoeken op adres en telefoonnummer.
Het hangt van omvang van het bedrijf af wat er voor informatie beschikbaar is: wat er wordt geleverd zijn alle Kvk gegevens, aandeelhouders en de adresgegevens met een extra controle of toevoeging. De bestuurders staan er niet bij, maar die zijn wel te vinden via Dun & Bradstreet.
De database wordt  maandelijks geactualiseerd.

Internationale bedrijfsinformatie
Behalve de Nederlandse hebben ze ook bedrijfsinformatie voor verschillende andere landen afzonderlijk, en er is uiteraard een algemene bron die ze allemaal combineert. Een bron is bijv Dun & Bradstreet market identifiers. Deze bron verwijst naar ‘boven’, naar het moederbedrijf en  hier vind je ook de namen van bestuurders. Zo kun je ook vinden wie waar en in welke board zit.

Marktinformatie
Marktrapporten zijn erg duur en hebben allemaal dezelfde structuur:  LexisNexis heeft deze in losse onderdelen opgeknipt en in het bestand opgenomen. Bv data monitoring report.
Je zoekt dus in de informatie binnen een rapport.
Je betaalt per pagina, maar dat is wel veel voordeliger dan het hele rapport aan te schaffen. De grafieken zitten er als tabellen in, en die zijn dus via excel weer uit te voeren als diagram. (download table).

Personen
Via de optie ‘Personen’ zoek je naar Captains of industry en politieke leiders.
Het is handiger om via Bedrijfsinformatie op namen van personen zoeken: daar kun je vinden wie waar werkt of waaraan verbonden is.

Je zoekt steeds in dezelfde bronnen, maar op een andere manier.

—-

Presentatie over media-analyses: http://www.lexisnexis.nl/dutch/media-portal.aspx

Oxford Journals schept verwarring met gewijzigde titels

Een van mijn laatste Scopus zoek alerts leverde een stel oude titels op uit de 80er jaren en op zich is daar niet mis mee.  Maar dezelfde titels stonden al in mijn bestand onder een andere tijdschrifttitel. Hoe kan dat nu?
Zoeken in ScienceDirect leverde me niet veel redenen op over hoe dit kwam: daar zat gewone de oude titel in.

Voorbeeld: Toxicol0gical sciences is een tijdschrift dat tot 1997 door Elsevier werd uitgegeven als Fundamental and applied toxicology. Nu wordt het uitgegeven door Oxford university press. Daarna veranderde de titel naar Toxicological Scioences en in 1999 nam  Oxford die van Elsevier over. De Oxford website geeft de recente, maar ook de oude artikelen onder de nieuwe naam, dus je kunt Elsevier er niet scheef om aankijken.

Wat blijkt:  als een titel gewijzigd is, geeft Scopus  de oude artikelen weer met de nieuwe tijdschriftnaam. De rest (volume, pagina’s titel etc) is hetzelfde, want het artikel is immers hetzelfde.

Het is erg verwarrend als die oude artikelen ineens onder  de nieuwe naam verschijnen, al kun je dan wel via de DOI -die wel anders is- de info en de  link naar de full-text wel vinden ….

Picarta maakt het de aanvrager moeilijk

Picarta heeft de manier gewijzigd waarop ze naar de full-text en de aanvraagmodule linken, met de onderstaande gevolgen:

  • We missen regelmatig de optie ‘fotokopie’ bij de titelbeschrijving van een tijdschrift: je hebt soms alleen nog de keuze tussen ‘afleveringen’ en ‘alle artikelen’:  maar hele oude jaren die niet onder de  ‘alle artikelen’ vallen (die van voor 1992) kun je niet gemakkelijk meer aanvragen zo, bovendien is het plaatsen van IBLen veel omslachtiger geworden;
  • We willen alleen de full-text optie als als we er zelf bij kunnen, of als deze gratis is: maar nu krijgen we vaak links naar titels waar we niet bij kunnen, en is het plaatsen van een IBL aanvraag bijna onmogelijk;
  • Als het al zo is dat sommige titels alleen naar de elektronische versie verwijzen en anderen naar de gedrukte: dan nog is deze layout onhandig. Vooral voor de Eindgebruikers met een eigen account is deze situatie heel verwarrend;
  • Van allerlei titels waar we WEL bij kunnen, krijgen we weer geen link naar de full-text….
We catalogiseren niet in het GGC, dus konden we onze linkresolver ook niet koppelen, hoorden we een paar jaar geleden. In het verleden hebben we wel een trial met Swets gedaan: doorlinken vanuit Picarta op basis van onze eigen titels die in SwetsWise staan naar de full-text: na de trial zouden ze dat definitief regelen. Dat loopt na 3 jaar nog steeds niet helemaal goed, en het wordt al met al steeds rommeliger.

De gewenste situatie:

alleen linken naar de full-text waar wij bij kunnen,  liefst via de LinkSolver, maar anders alleen via Swetswise naar onze eigen bestanden.
———–
Voorbeeldjes:
1) Onderstaande titel hebben we wel elektronisch (via Ovid), maar daarvan is geen link bij Picarta. Er zijn wel opties om zowel via afleveringen / alle artikelen als algemeen een fotokopie aan te vragen. (Terwijl we het hele tijdschrift full-text toegankelijk hebben…)  Jammer dat we geen link naar full-text hebben, maar desnoods akkoord.
Dit geeft een beeld van de oude situatie.
2) Onderstaand tijdschrift hebben we wel full-text en deels inderdaad bij de plaats waar de link naar is (ingentaconnect) Ze linken ook naar de ‘afleveringen’ en de ‘alle artikelen’, maar niet naar ‘fotokopie’: dus hoe een artikel uit 1990 of eerder op te vragen?
picartatitel2
3) Onderstaande titel linkt alleen naar full-text: daar hebben wij helemaal  GEEN abonnement op, is ook niet gratis en ‘volledige tekst’ verwijst naar de uitgever (Springer in dit geval): ze hebben wel een enkel nummer gratis, maar niet alles.
Hoe moet je hier een artikel uit opvragen…?
picartatitel3

… en als je dan via een omweg toch kans ziet om het artikel aan te vragen, krijg je deze in beeld:

picartadialoog

Als je hier op Fulltext klikt kom je bij Swetswise terecht, en die vertellen  je dat  je er niet bij kun.

Dat schiet allemaal niet op Picarta!!

PS: en waarom die Google Books link onderaan al die tijdschriften?  Een tijdschrift is geen boek: dat weten jullie toch wel?

Scopus en het verschil in de H-index: deel 3

Het wordt steeds vreemder met het geval van een van onze auteur die voor dezelfde set van Elsevier de ene keer een h-index van 9 krijgt, en de andere keer 16.

Voordat hij zijn auteursgegevens in Scopus had laten aanpassen, had hij aanvankelijk voor de opgetelde auteursvarianten samen een 16, maar omdat niet iedereen aan dat optellen doet, kun je ze laten samenvoegen: toen was hij gezakt naar 9, en daar niet blij mee.  We kregen al een sussend mailtje van Elsevier dat die h-index echt 16 is, maar dat het even duurde voor het effect had. Akkoord, is te begrijpen, niet fijn, maar alla.

Maar nu, ruim een maand later, is dat nog niet aangepast, gisteren dus weer een mailtje gestuurd en eigenlijk meteen antwoord gekregen. Letterlijk zeggen ze dit:

I can confirm that author’s H-index is 16. Because Scopus’ main focus concerns publications after 1996, we leave out all pre-96 articles when calculating this H-index. That is what makes the H-index is this author 9 when looking on his author details page.
Considering all his articles his H-index remains 16.

That is why there will be a discrepancy in H-index, when calculating this from an Author Profile, or via an advanced author search which can find results for pre-1996 content

Maar het is niet alleen de Advanced Search die een discrepantie geeft: de ‘citation tracker‘  geeft het verschil. Was het maar waar, dat de oudere artikelen meegeteld werden, dat zouden onze medewerkers graag zien, maar bij de ‘citation tracker‘ staat met koeieletters boven dat ze pas vanaf 1996 tellen:

Het wordt nl.  nog vreemder:

  • als ik bij de auteur ‘details‘ meteen op de ‘citation tracker‘ klik: dan komt hij uit op 9
  • als ik bij dezelfde set die daar 9 geeft, eerst klik op show en daarna (dezelfde set) op ‘citation tracker’: dan wordt het 16

Dus hetzelfde systeem levert voor exact dezelfde set documenten in dezelfde databse op dezelfde dag met gebuikmaking van dezelfde techniek twee verschillende antwoorden. Daar klopt iets niet Elsevier!

Zouden ze ons echt naar Web of Science willen hebben?  Overigens is zijn h-index daar 13: hij publiceert nogal in congresverslagen en een aantal daarvan worden in Scopus wel en in WoS niet meegeteld, vandaar dat hij daar lager dan 16 uitkomt. Bij WoS heeft hij 63 artikelen, bij Scopus 75.  Van die dingen  dus ;-) .

Aanvulling:  Via Scopus kun je ook de h-index berekenen door op de auteur te zoeken, ze te  sorteren ze op citaties en vervolgens de linkerkolom het H-index cijfer af te lezen. Maar als je via het  Authortabblad naar de auteur zoekt, zie je bij de details meteen het cijfertje van de h-index en de meeste mensen kijken niet verder.  Maar dit systeem blijkt dus niet goed te werken! Elsevier doe er wat aan!.

September aan de hand van de Tweets

In september heb ik twee van mijn Twitter accounts samengevoegd tot een: eigenlijk ben ik gewoon te lui om mijn privé en werk uit elkaar te houden denk ik ;-) of ik werk altijd, dat kan ook natuurlijk.

Wat mij betreft waren er drie hoofdthema’s deze maand:

  1. Ik heb me enorm geamuseerd met Blip.fm: It’s like Last FM and Twitter had a baby ;-) : je leert veel nieuwe muziek kennen en communiceert met mensen all-over-the world..
  2. Wowter is begonnen met een blogkermis met als thema het bloggen zelf. Nu vind ik dat ‘blogkermis’ een raar woord, maar de gedachte is erg leuk en de meeste posts heb ik ook gelezen: een feest van herkenning
  3. Belangrijke aanwinst afgelopen maand was de Chrome browser van Google, maar die moet je downloaden, en daar ik over meerdere computers werk is dat onhandig, dus heb ik daar dan ook niets over te melden ;-) . Wel kan ik, als je met meerdere computers werkt, Symbaloo als startpagina aanbevelen: dat in combinatie met de toolbar van Conduit bijvoorbeeld zorgt dat je op alle computers eenzelfde toegang hebt.

Verder zijn onderstaande zaken in mijn Twitter filter blijven hangen:

Bibliotheekpraktijk:

Databases:

  • Ovid linkt in hun database naar de Full-text waar je toegang toe hebt, maar die noemen ze niet overal zo:  bij PsycBooks bijvoorbeeld heten de links ‘ Ovid PDF Database’ en daar kijk je snel overheen. Als je de links ook ‘Links’ wilt laten noemen, moet je de ‘Link Target Set’ aanpassen. Dat kun je zelf doen, maar moet je wel weten dat dat daar kan. Het heeft wel meteen effect. September 15, 2008
  • Een RSS feed op de Narcis kon je al een poosje maken, maar de  zoekresultaten waren onhandig te bekijken. Het geheel is beter geworden schreef ik op 12 September 2008, maar vandaag (5 oktober) zie ik dat er al een maand lang niets op is binnen gekomen… hum.
  • In Scopus mag je in veld ‘Authors’ geen 2 auteursnamen tegelijk intikken: het resultaat wordt dan 0, ook al zijn er artikelen waar beide auteurs aan hebben geschreven in de database.  … Raar eigenlijk om dan wel de meervoudsvorm voor de veldnaam te gebruiken. September 08, 2008
  • Bij Scopus kun je uiteenlopende naamsvarianten van jezelf bij elkaar laat schrapen en onder een ingang laat zetten, maar dan blijkt de H-index niet gelijk mee te lopen. Het duurt een hele tijd voor dat doorkomt. Antwoord van Elsevier: je kunt auteur gerust kunnen stellen dat zijn H-index toch niet is gezakt van 16 naar 9, maar eind september was nog steeds de juiste notering niet op alle plaatsen toegankelijk.  September 08, 2008

Lezen:

Wetenschap / citaties

Zoeken

Overige Internet tips

  • Listmixer lijkt me mooi ‘anti-clutter middel’: bewaart je bookmarks maar 30 dagen; zijn ze dan nog niet gelezen: dan worden ze verwijderd.  September 16, 2008
  • WIKINDX free bibliographic + quotations/notes management and article authoring syst. September 14, 2008
  • The Googling deel V is uit: , grappige serie filmpjes die Google maps op hak neemt (the vacationeers). September 14, 2008
  • Gmail ‘clipped’ lange mails. Als je ze dan Forward, zijn ze ook geclipt. En als je ze helemaal bekijkt, kun je niet Forwarden … 02:08 PM September 09, 2008
  • 23 en nog veel meer dingen (Stephen Abrams) is al van februari, maar toch nog wel de moeite September 05, 2008
  • Karin Blakeman heeft weer een nieuw lijstje met top 10 business research tips gepubliceerd: Twitter nu ook erbij. 08:27 AM September 05, 2008
  • 50 Ideas on Using Twitter for Business van Chris Brogan. September 12, 2008

Scopus en het verschil in de H-index: deel 2

Vorige week schreef ik over het verschil in h-index via de Details en het traject: ‘All documents> citation tracker ‘. In het ene geval kreeg ik er 9 uit, en in het andere geval 16, voor exact dezelfde titels.  Alleen als je dan op ‘Exclude Self citations of all authors’ klikte , kwam er weer 9 uit. Dat kan natuurlijk, maar het verschil leek me wel groot.

Elsevier gevraagd en zij bevestigden dat de H-index van de betreffende  auteur 16 was: het had mogelijk te maken met de korte termijn dat het geleden was dat de samenvoeging plaats vond.

Als ik vandaag exact hetzelfde doe, krijg ik in er weer precies hetzelfde uit: Detail = 9, All documents = 16. Maar nu levert het uitsluiten van de zelf-citaties geen verschil op en blijft het 16 ….  die zelf-citaties waren daar dus het probleem niet.

Deze ga ik in de gaten houden: wanneer worden de details nu ook 16?

BTW: zou Elsevier zich realiseren wat een consternatie ze hiermee veroorzaken bij de auteur? Maar ik was wel blij met hun snelle reactie op mijn vraag.

Scopus en het verschil in de H-index

Ik heb al vaker bericht over Scopus en de H-index, en in een van die postjes heb ik gezegd dat je je klanten moet stimuleren om Elsevier feedback te geven wanneer er naamsvarianten in de database voorkomen. Zodat Elsevier die kan samenvoegen onder een hoofd- auteursingang en als je dan op ‘Details’ van een auteur klikt, heb je alle gegevens van een persoon bij elkaar. Waarmee deze dus in een keer ook de juiste H-index aanklikbaar heeft.

Daar heb ik me lelijk mee in de vingers gesneden lijkt het wel.

Een van onze onderzoekers kwam 3x voor: hij publiceert nogal wat, maar op een of andere manier is het toch altijd weer lastig voor database exploitanten om te weten of een publicatie nou van dezelfde persoon is of niet. En in dit geval had hij heeft (nog) geen DAI.

Als je naar de naamsingang keek met de meeste publicaties, kwam hij op een H-index van 9. Maar als je de twee andere opzocht, en die samenvoegde in een enkele zoekactie, kun je daar de H-index van opvragen via de ‘Citation tracker’. Daar het om een zoekactie van een  bepaalde persoon ging, en de publicaties ook echt van die persoon zijn, ging ik ervan uit dat wat dan volgt , de echte H-index is. In mijn voorbeeld kwam dat op 16 uit: een mooi getal.

Dus ik adviseerde hem om Elsevier te vragen om zijn naamsvarianten onder een noemer te zetten, en dat hebben ze gedaan.

Met als gevolg dat hij n u een H-index van … 9 heeft: precies als voorheen, alleen nu met het juiste aantal (73) publicaties.

Hoe kan dat nou?

Hij baalt, en ik baal ook. Heb ik wat verkeerd gedaan met mijn ‘berekening’?

Voor alle zekerheid heb ik via de Auteursindex zijn naam gezocht, geklikt op ‘alle documents’ bij zijn naam (die dus H-index 9 oplevert), en naar de Show van al die documenten gegaan. Daar heb ik vervolgens geklikt op ‘Citation tracker’ en dan zie ik tot mijn verbazing een H-index van … 16.  Over dezelfde 73 documenten.
Nou begrijp ik het niet meer …

Ik heb ‘t Elsevier maar gevraagd, ben benieuwd naar hun reactie.

(Ik bedenk me ineens dat dat misschien wel ligt aan de zelfcitaties die er de ene keer wel en en de andere keer niet uit gehaald worden?)

Zoekresultaatverschil bij gebruik van een Scopus alert

Een zoekactie in Scopus kun je bewaren en je kunt je voor toezending van de nieuwe resultaten daarvan opgeven via een alert: dan krijg je elke week (of maand, afhankelijk van wat je hebt aangegeven) een mail toegestuurd met daarin de laatste resultaten van die zoekactie. In die mail zitten maar een deel van de resultaten: er zit een link bij en als je daarop klikt, start hij Scopus op en doet de hele zoekactie, beperkt tot die tijdsperiode, opnieuw. Vanuit die zoekset  kun je ook doorklikken naar de full-text, en krijg je je Linkresolver icoontje in beeld.

Het was ons opgevallen dat het voor kan komen dat er in de link staat: “Access all xxx new results”  maar als je daar op klikt krijg je soms minder hits dan die xxx in beeld. Hoe kan dat nu?

In de link die je meegestuurd krijgt zit een tijdsperiode. Heb je opgegeven dat je wekelijks een alert wilt, dan zit in die link ook een periode van een week: zeg maar van maandag tot maandag, in deze vorm:

ORIG-LOAD-DATE AFT 1216897671 AND ORIG-LOAD-DATE BEF 1217502381

Deze datumcodering staat voor een periode tussen 24 juli 2008 13.07 en 31 juli 2008 13.06 uur GMT+2. Daarmee wordt voorkomen dat alerts elkaar overlappen: de alerts kun je immers bewaren en later aanklikken: dan krijg je per alert toch de resultaten van die periode te zien. Dat resultaat hoort altijd stabiel te zijn, tenzij er een artikel dubbel ingevoerd is en uit de database is verwijderd, dat kan een enkele keer voorkomen.

Maar het is ons herhaaldelijk overkomen dat men bij een aangekondigd resultaat van zeg maar 19, er maar 15 vindt, en dat verschil is wel groot.

Ik heb Elsevier naar een verklaring daarvan gevraagd, en die blijkt erin te zitten dat van sommige titels de pre-publicaties (Articles in press)  zijn opgenomen. Heb je dan een e-alert op bijv de inhoudsopgave van een tijdschrifttitel, dan kan het voorkomen dat er veel pre-pubs van die speciale titel in het bestand zitten. En als de titels inmiddels zijn uitgekomen, worden de pre-pubs uit het bestand verwijderd: ziedaar de reden van het grote schil tussen aangekondigde en daadwerkelijk gevonden titels.

Elsevier en de Remote Access

Voorheen kon je als ‘Admin’ van het Elsevier ScienceDirect en Scopus account de login’s van je klanten desgewenst ook open stellen voor de ‘Remote access’.  Dat ging simpel door een vakje van NEE in JA te veranderen. En de persoon in kwestie kon dan met de login die hij/zij gebruikte ook buiten het areaal van het eigen IP adres om in Scopus zoeken en bij de full-text van de ScienceDirect tijdschriften.  De andere tijdschriften die op IP zijn waren dan wel geblokkeerd, maar je kon zo toch heel wat.

De default toegang van ons systeem wil ik graag op ‘alleen via ons IP adres’ houden: alleen op aanvraag krijgt men een externe toegang, en dan nog met een einddatum. Wij hebben vele studenten en tijdelijke gebruikers, en dat lijkt me een logische handelswijze.

Onlangs is dat veranderd. Je kunt nu een bestaand login niet meer van een Remote Access toegang voorzien. Iedereen die al toegang had, houdt dat , maar van de rest kun je het gebruikersprofiel wat dit betreft niet veranderen.
Elsevier zegt wel:

If you wish to grant an existing user Remote Access, go to Search, View and Modify Users and enable the Remote Access setting within their user profile.

maar dat kun je dus helemaal niet doen: er is simpelweg geen mogelijkheid om dat te wijzigen. Wat je wel kunt, is een nieuwe registratie voor die persoon aanvragen, die dan ook buiten het eigen IP adres om erbij kan. Daar ben ik niet  blij mee, want meestal hebben mensen al zaken  geregeld via hun login: seaches, zoekacties, alerts, instellingen. Dat moeten ze dan weer opnieuw doen.

De ‘Remote access’ is nu ook gekoppeld aan een groep. Maar ik wil de bestaande groep, waar praktisch al onze klanten inzitten, helemaal niet wijzigen wat dat betreft, en ik kan me ook niet voorstellen dat de bedoeling is van Elsevier.

Dus heb ik nu maar een nieuw groep ‘Remote access’ in het leven geroepen. Die groep kan ik dan toevoegen aan het profiel van de bestaande gebruiker, zodat deze met hetzelfde account ook buiten het IP adres om kan inloggen.
Alleen krijgt deze dus, ook intern, steeds weer de vraag op welke groep hij/zij zich wil inloggen… :-( .

Hum, geen vooruitgang Elsevier ….

—————-

Aanvulling 15 augustus 2008:

Elsevier heeft geantwoord op mijn gemopper. Wat je nu dus moet doen om aan een bestaande user Remote Access toe te voegen is inderdaad opnieuw dat registratieverzoek aan hem/haar te sturen, en als deze zich dan opnieuw registreert wordt er ook gevraagd of er al een bestaande registratie is:

If you create a registration ID for a user, they will activate it as before. But there is an additional step in the process; during the activation a user is asked whether he/she already has a username. If so, then they log in with their existing username and an association between their username and your account is created. So they get to keep their own username and they get access to your entitlements.

Volgens Elsevier is dat gemakkelijker voor de eindgebruiker zodat deze zich bij verschillende instanties kan inschrijven.