NVB10 : Bertus Douwes – De meertalige trefwoordenthesaurus

De ondertitel van deze presentatie is Wat onzichtbaar is, zichtbaar maken … kijk dat ‘triggert’ de nieuwsgierigheid

Albertus Douwes is werkzaam als projectleider kenniscentrum bij Bibliotheekservice Fryslân (BSF), waar hij zich bezig houdt met de coördinatie van vernieuwings- en veranderingstrajecten, zoals het coördineren van de optimalisatie van de logistiek van het Fries Bibliotheken Netwerk.

Onder de noemer ‘Collectie Fryslân’ worden via de Friese provinciale Aquabrowser de bibliotheekcollecties ontsloten van Tresoar (Fries historisch en letterkundig museum), de basisbibliotheken van het Fries Bibliotheken Netwerk, het Historisch Centrum Leeuwarden, Historisch Informatiecentrum Noordoost Fryslân en de landelijke databanken. Collectie Fryslân is een meertalige collectie maar de toegang is taalgebonden. Dat wil zeggen dat in het Nederlands gestelde zoekvragen resulteren in Nederlandstalige titels en omgekeerd in het Fries gestelde zoekvragen resulteren Friestalige titels. Daarmee is een deel van de beschikbare informatie niet direct zichtbaar voor de bezoeker. Voor het zichtbaar maken van deze informatie is een vertaalservice ontwikkeld die, bij het muteren/indexeren van de provinciale Aquabrowser, de sleutelwoorden van een Nederlandstalige titel aanvult met de Friese vertaling daarvan en omgekeerd een Friestalige titel aanvult met Nederlandstalige de sleutelwoorden. Het klinkt eenvoudig en dat is het eigenlijk ook, maar er zijn altijd zaken die extra aandacht vragen. Bijvoorbeeld voor ambigue woorden is de vertaalservice aangevuld met contextafhankelijk vertaling. Wat de methodiek van de vertaalservice extra interessant maakt, is dat het ook te gebruiken is voor andere taalgebieden en daarmee breder inzetbaar is dan de huidige combinatie van Nederlandse en Friese taal.

De collectie bestaat uit 900.00 records!

Dit gereedschap kan ook op andere talen toegepast worden, zolang het maar een Europese schrijfwijze heeft.
Je hebt een terminologie beheersysteem nodig.
Woorden zijn echt een op een vertaald, zonder opmerkingen erover.
Met 15.000 termen hadden ze de meeste van de meestvoorkomende termen vertaald. De 15.000e kwam nog maar 5x voor, de rest zijn beetje eenlingen.

Termen gebruiken die in moderne tijd -niet voor de ‘permafrost friezen’ usance zijn, daarvoor heeft Fryske Akademy geholpen.

Ambiguïteitsoplosser is nodig om homoniemen uit elkaar te houden: bv “vliegen” is dat “fleane” of ‘miggen’, heeft het met beestje of met piloten te maken. Deze oplosser kijkt dus naar de context waarin een woord gebruikt wordt. De ambiguiteitsoplosser kan getraind worden.

Vertaalserver aanroepen met XML communicatieprotocollen. Cachen is mogelijk door deel op je eigen systeem hebben en bij aanroep updaten, dan hoef je niet steeds over het internet.

Taalherkenner: wat is typisch voor een taal? De  Y komt bijv veel in het Fries voor, de sch in het Nederlands.

Elke keer als iets wordt aangeboden, wordt het meteen in twee talen aangeboden: dus ook recente artikelen uit de krantenbank, die aangeboden worden via Aquabrowser.

Er worden niet hele teksten vertaald, alleen woorden. Zoeken op ‘ielguozzen”  geeft in de aquabrowser:

Uw zoekopdracht is uitgebreid met ‘Aalscholvers’

Je kunt dat aan en uitzetten.

Dit systeem wordt overgedragen aan bibliotheek.nl

Probeer het zelf op ontdekdebieb.nl

Bertus is beetje een droogkomiek ;-)

Je kunt dat aan en uitzetten.

Rijksoverheid.nl

De Ministeries van BZK, Justitie en VenW zijn overgegaan op Rijksoverheid.nl. Vanaf 12 juli 2010 zijn de websites  Minbzk.nl, Justitie.nl en Minvenw.nl uit de lucht,  in het derde kwartaal gaan ook de ministeries van VROM en SZW over en eind 2010 volgen Buitenlandse Zaken, Defensie, Financiën en LNV.
Het is een strakke website geworden, en de alert die ik had lopen is overgenomen.
Maar ik miste wel de mogelijkheid om een Magazine dat BKZ full-text had (Magazine Nationale Veiligheid en Crisisbeheersing)  te raadplegen.

Ze hebben een tabblad met Documenten en publicaties, maar daar staan geen ‘Magazines’ of ‘Tijdschriften’ als type publicaties bij.
Via zoeken op ‘trefwoord’  Magazine kwam ik wel bij  een cryptische aanduiding Magazine NVCB met een link naar de inhoudsopgave van inderdaad het gewenste tijdschrift.  Die inhoudsopgave, dat is al te mager.  De overheid publiceert veel, en het is een goede zaak als ze dat ook full-text op het internet wil zetten, het zou jammer zijn als ze daarmee ophouden.
Het op deze manier -via ‘trefwoord- moeten zoeken is ook niet handig: je vindt gauw veel te veel. Zeker als de andere ministeries daar bij komen, is het wel zaak om dat verder aan te pakken.

Ik heb ze een reactie gestuurd en ze antwoordden per omgaande dat ze ernaar zouden kijken:  netjes.
En een paar dagen later al:  als je nu zoekt op ‘Magazine’ vindt je  Magazine Nationale Veiligheid en Crisisbeheersing mei-juni 2010 de complete naam met een link naar de full-text!  Mooi zo.

Nu nog een rubriek ‘Magazine’  en een overzichtspagina van alle oudere magazines  bij elkaar, liefst per jaar en ik ben weer helemaal tevreden.

Bibliotheken en het online leven in April 2010

Een koude Pasen en een hete Vulkaanuitbarsting in  IJsland : dat laatste was  een drama voor het vliegverkeer, maar het levert mooie plaatjes op.

Bibliotheek

April, de maand van de congressen: U Game U Learn is gehouden zie blogs van Michael Edson en Blogpartyned. En ikzelf mocht, met nog 8 andere Nederlandse collega’s naar de emtacl10 in Noorwegen.
De CIL2010 was deels te volgen via tweets en de lifestreem. Paar quotes die ik opgepikt heb:

Marshall: we live in a post-metadata age
Peter Webster: Put everything on Google if that’s where People want to Search
In the digital age, everything is saved and little is preserved

Sommige collega’s worden door het werk voorgehouden dat werk=werk en privé=privé …  Die P&O afdelingen hebben a) het nieuwe Werken niet begrepen,  b)  niet begrepen dat een goede informatiespecialist eigenlijk een soort huisvrouw is: je werk is nooit klaar.
Streven wij naar ander imago komt Keith Richards met: It’s only books n shelves but i like it.
Verder van / over bibliotheken:

Databases

  • ACM digital library heeft een bar slechte uitvoer naar RIS. De gevonden items daar plak ik in Scholar, of in Scopus en voer ze dan via een Direct Export in Refworks in.
  • Scopus geeft tegenwoordig na een search alert ook de verwijzingen in die alert die nog niet in Scopus stonden. Ze staan op je scherm, maar je kunt er niet op klikken of ze via output bewaren. Prima dat ze die geven, maar buitengewoon irritant dat je ze niet kunt inlezen in een Reference manager systeem
  • Has EBSCO become the new evil empire?

Google

Online leven

Kopieerbescherming verpest vertrouwen in de markt, maakt boeken instabiel, schoffeert consumenten en levert auteurs niets extras op

Research / citaties

  • Biomedexperts  Explore & expand your personal scientific network
  • Scientists Embrace Openness (Science)   ‘challenge of opening up your data
  • Je kunt een RSS feed in Refworks plaatsen (een Scopus alert bv) en dan de records vandaar inlezen… dat is gemakkelijk! Je hoeft ze niet automatisch in te voeren: kun je ook weer selecteren, daarmee is het beheersbaar. Maar in de praktijk werkt t toch een beetje raar: hoe kun je nu die feeds op ‘gelezen’ zetten als je ze niet wilt inlezen? Daar is geen opdracht voor.  En hij leest er altijd 21 in, dat is ook raar. Misschien voorlopig toch maar met ‘gesavede’ zoekacties uit Scopus blijven werken
  • Rapport Veerman: Nederlandse wetenschap mist aansluiting wereldtop Maar waarom staat dat rapport niet online?

Web 2.0Happy foursquare day

Zoeken

Pluim

Bibliotheken, Informatie en het Online Leven in Maart 2010

Plaatje van Wikipedia

Tussilago farfara - klein hoefblad

Het klein hoefblad bloeit: het is lente en waarneming.nl heeft een mobiele versie waarmee je rechtstreeks in het veld kunt inventariseren.
Door de  steenslag op de wegen vanwege het door de vorst  beschadigde asfalt zijn heel wat autoruiten gesneuveld: een dorp is zo slim geweest de gaten in de weg te willen verkopen.
Veder is het kabinet is gevallen, was het natuurlijk ook weer boekenweek, is Twitter 4 jaar  (schoolrijp?) en heeft Bruna Geluksnijntjes (alleen niet voor boeken, dat is wel typisch voor een boekwinkel, maar verder vind ik ze geweldig).

Er is weer zoveel interessants langs gekomen, dat ik niet de illusie heb ook maar enigszins volledig te zijn, maar hier volgt dan wat mij deze maand is, onder vele andere zaken, is opgevallen:

Bibliotheek

Without libraries what have we? We have no past and no future.” ~Ray Bradbury
In  The death of the library book (‘what’s the use of libraries – really?’) maakt het Salon artikel het verschil pijnlijk duidelijk tussen wat gebruikers – wie dat dan ook zijn- willen en wat de architecten / bestuurders / managers doen Cambridge has a gleaming new main building, but something’s missing — and closing local branches won’t help.

what does happen to the network of public libraries once we stop leaving our homes to download books or access collections? Does reading and research become a less social activity? Or does the public aspect of ideas, knowledge, and research shift somewhere online? (bigmoney)

Databases

  • De website van Narcis is vernieuwd: weinig Web 2.0, en de cloud is nu weg, maar achter de zoekoptie zit nog wel RSS. Er is wel een NARCIS openSearch plugin
  • Gaat het wel goed met Elsevier?  Er gebeuren rare dingen, bijv met de Scopus search  alerts. Op een dag in maart kromp de set steeds meer:

set 1=8 docs set 2=14 docs in de alert mails. Maar als je  doorklikt naar het web:
set 1=7 docs, set 2=13 docs
set 1 OR set 2 = 12 docs
als je dan set 2 gaat bekijken krimpt hij ineens van 13 naar 12  … wat gebeurt daar?
set 1 (7 docs dus) in List gezet, set 2 (nu 12 docs) ook
daarmee handmatig een OR relatie gemaakt dus. Nu is die OR relatie ineens 13!

  • Een week later vertelde de  Scopus search alert mail dat er 11 hits zijn, maar de link naar de site toonde er 13. Hoe kan dat? Minder kan ik begrijpen (artikelen in press die uitgekomen zijn) maar meer: dat kan niet
  • Scopus heeft een ‘download’knop bovenaan de toon-artikel pagina’s geplaatst. Alleen moet je dan eerst de document manager Quosa installeren:  soms mag dat niet van de ICT.  Die klanten zien dus een download knop die ze niet kunnen gebruiken, en die Elsevier niet wil/kan verbergen :  dan moet je via de Linksolver doorklikken naar de full-text, maar dat moet je maar weten …
  • Scopus geeft de DOIs van artikelen in-press niet (altijd) goed weer: ik heb t aangekaard bij ze en mogelijk is het nu verbeterd. Let ook op de auteur met tussenvoegsels in de naam
  • Scopus life chat was onbemand: je kon ze mail sturen met je vraag:  daarvan kreeg ik wel bevestiging maar nooit antwoord

Google

Internet / Online leven

Het is leven is ingewikkeld geworden:

Van foksuk.nl

HNW: Het Nieuwe Werken (15 procent ict, 15 procent werkplek en 70 procent mindset) is ‘in’ : vluchten kan niet meer. De waarde van het Nieuwe Werken zit ‘m in het samenwerken (Frankwatching) aha: ik ben een generatie Y! Wordt  Wijzer met informatie (blog ‘Het nieuwe Werken)  en daarmee vindt Jos van  Dijk meteen maar de Informatiespecialist opnieuw uit als informatiecoach. Weer een nieuwe naam … zucht… a rose by any other name

Overall, college students use Wikipedia. But, they do so knowing its limitation. They use Wikipedia just as most of us do — because it is a quick way to get started and it has some, but not deep, credibility.

Wetenschap / research / Citaties / Peer review

Op Wowters blog RSS op een rijtje:

RSS overzicht van Wowter

Web 2.0 / Twitter

Als je je Plaxo account verwijdert (P voegt echt niets meer toe) voelt dat wel als een opluchting. Al weet je niet precies meer wanneer iedereen jarig is, je hoort het vanzelf via Twitter

Zoeken

Jammer

  • update naar Android 2.1  zou al in februari komen, nu pas eind april (verwacht)
  • Om een nieuw Delicious account aan te maken moet je eerst een nieuw Yahoo account aanmaken, en dat valt niet mee, Yahoo = echt vervelend gedoe

Pluim

Bibliotheken, Google en zoeken in Februari 2010

Deze maand bestaat mijn blogje 3 jaar en is zij over de 50.000 clicks heen gegaan. Ik blijf het toch verbazingwekkend, indrukwekkend en erg leuk vinden allemaal. Dank jullie allen voor ‘t bezoek!

Bibliotheken

Databases

  • Scopus heeft een Youtube kanaal, oa: – How to calculate the h-index
  • Alert bewaren in Scopus met een AND NOT erin is tricky: de alert krijg je wel, maar bij ‘bewaarde zoekties’ klopt de link niet
  • IEEE Explore heeft een nieuwe site opgezet, en daarmee vervallen ook alle e-alerts. Je moet ze handmatig weer zelf opzetten: konden ze blijkbaar niet automatisch overzetten. Voorheen kon je op naam en email adres alerts krijgen: nu moet je je eerst registreren. Dat verschil zorgt voor veel verwarring

Google

Google is echt niet goed bezig de laatste tijd: nu weer Buzz (soort Twitter in Wave versie gekoppeld aan Gmail) met Phil Bradley vind ik het Very annoying, volgens Eric Sieverts valt Google beetje van zijn voetstuk. Google is in fors gevecht met Facebook oa over de hegemonie van de sociale netwerken en informatie wereld als geheel. Maar mail is echt iets anders dan deze status updates / openbare discussietjes en Google kwam er al snel op terug: We May Remove Buzz From Gmail (Searchengineland)  en  The judgment errors in Google Buzz AND Google Books project explained. Veel mensen die al een aantal sociale netwerken hebben vinden het allemaal wat veel worden: het is wel tijd voor een aggregator en dat zal Google best willen worden, maar je moet er toch niet aan denken wat een macht / kennis ze dan hebben: niet alleen alle inhoud, maar ook alle connecties daartussen en tussen mensen. Toch wel beangstigend.
Nu publiceer je je Google Reader shared items automatisch als buzz-post,  net als je materiaal in je Flickr, Picasa etc accounts. Als je commentaar op een buzz bericht geeft krijg je dat ook nog eens als Email binnen: niet fijn, uitzetten dus #buzzoff!  Bullet Point: Dear Google, you too need to talk to librarians.
Er is nogal wat stampij geweest over de privacy: men kan nl zo in je profiel kijken, en daarmee ook je volgers zien. Ook dat kun je uitzetten, maar niet zo gemakkelijk.
With Buzz, Google takes another giant step towards turning into Microsoft (Guardian)  : ‘Bill Gates once said that Google was the only company that reminded him of Microsoft in its early days. How right he was’ Inclusief het hinderlijke voor-jou-denken: Disable Google Buzz and Lose your Google Profile.
(
Overzichtje van Pandia.)
Verder over Google deze maand oa:

Internet / online leven

Research / Citaties

Web 2.0 / Twitter

Zoeken

Jammer

  • De Twitter teller klopt niet erg: halverwege de maand werden de getallen ineens met 4 vermenigvuldigd. Even werd er zelfs teruggeteld, later weer rechtgetrokken
  • Facebook tijden kloppen ook niet: ‘vandaag’ bij hen, is ‘gisteren’ bij mij
  • Probeer een oude zonnet e-mail adres op te heffen. Dat valt nog niet mee… moet perse per telefoon
  • WordPress was 110 minuten down en met hen ook 10 miljoen weblogs…
  • KPN heeft het gepreseerd een halve dag een aantal sociale netwerken als Twitter / Foursquare niet door te laten. Via de Storingspagina was dat niet te vinden, maar door contacten van Tweeps met elkaar konden we achterhalen dat andere netwerken Twitter ed wel doorlieten. Ikzelf had een KPN verbinding naar mijn werk (dus geen Twitter) en al thuiswerkend via Surf kon ik er wel bij . Heel vreemd. Het wil dus echt zeggen dat ze websites selectief kunnen (en zullen) blokkeren.

Pluim

3 miljoen per minuut dacht ik gelezen te hebben, maar dat kan ik niet meer terugvinden, dus klopt vast niet ;-) ….

Mobiele app: RefWorks

RefWorks is ook in mobiele variant te krijgen: er zijn geen speciale apps voor, maar het werkt zowel op de iphone als op de  Android (en ook op een telefoon met en internet toegang). Je kunt de site benaderen via http://www.refworks.com/mobile/ : dan zie je ook meteen hoe hij overkomt op de mobiel.

Je moet altijd met de Groupscode inloggen. De mogelijkheden:

  • zoeken alleen de quick search, niet de advanced
  • references en attachments kun je bekijken
  • folders toevoegen
  • zoek / bekijk per folder
  • de notes kun  je toevoegen
  • de folders kun je bekijken, toevoegen en wijzigen
  • via SmartAdd kun je referenties zoeken en toevoegen

Wat niet kan zijn de connecties met Word onderhouden, sorteren, settings aanpassen, records zelf wijzigen e.d. Uiteraard kun je ook geen file inlezen: daarvoor heb je de ‘full-version’ nodig.

Toevoegen van referenties gaat via ‘SmartAdd:

With SmartAdd, users simply enter basic identifying information for a publication, such as ISBN number, digital object identifier (DOI) number, partial title, or author and publication year, and SmartAdd searches the Internet for the reference and import it to RefWorks..

Als je gegevens via auteur + jaar invoert, krijg je soms een aantal mogelijke titels waar je uit kunt kiezen.  Het kan wel voorkomen dat de gewenste titel er niet bij zit: -ook bij zoeken op DOI-  in dat geval moet je ze via de full-versie toevoegen. Het is mijn ervaring dat niet alle artikelen die bijv. in Scopus zitten ook op deze manier te vinden zijn: waar RefWorks de titels vandaan haalt is me niet helemaal duidelijk -ik vermoed uit een Proquest database- , maar als hij ze vindt, zijn ze wel erg compleet.

Het werkt goed. Indien  je een foutje maakt wordt je zoekboxje roodomrand.
In mijn  testen is er een lichte discrepantie tussen wat het systeem via de ‘Quick search’ in de ‘full-version’ vindt en wat hij vindt in de mobiele versie, maar eigenlijk bleek de mobiele de juiste resultaten te geven. Prima dus.

Zie verder info van RefWorks:

Bibliotheken, Google en zoeken in Januari 2010

V0lgens Forrester wordt 2010 wordt het jaar van de smartphone -  “Smart Phone”: It’s a Computer, not a Phone (RWW)  – misschien, maar januari was zeker al de maand van deze wondertjes: Google lanceerde de Nexus, en ikzelf kocht een eerste eigen HTC Hero, waar ik blij als blik mee ben! Over e-books en mobiele formaten is van alles te doen @Lukask schreef bijv over het verschil in benadering van Mobile Reading bijNRC en Het Parool en het ‘mobiele browsen’ in het algemeen. Een van die gevolgen daarvan is bijv dat er niet meer naar een bepaalde pagina gerefereerd kan worden, omdat die in elk ‘device‘ anders kan zijn. Ook de bieb is te raadplegen op de mobiel:  Accessing library catalogue & databases on your Mobile phone (Musings about librarianship), Worldcat en LibraryThing bijvoorbeeld.
En dan natuurlijk het Appel geweld met de ipad, ibooks en ichat, waar heel erg reikhalzend naar werd uitgezien, maar die wel een beetje tegenviel geloof ik: ik bemoei me er maar niet mee.

Bibliotheek

Surf verblijde ons -niet echt-  op 1 januari met de mededeling dat de SURFmailinglijsten per 1 jan 2011 ‘ uitgefaseerd’ zouden worden en daarnaast houdt Surfgroepen per 1-1-2012 op te bestaan met als een mogelijk vervolg de Collaboration Infrastructure (COIN).  Laten we hopen dat Surfnet de lijsten niet gaat vervangen door een ander tegenvallend product:  de Google Wave (ze hebben er nl wel onderzoek naar gedaan: Google Wave for Research and Education).
Ikzelf gebruik al jaren geen discussielijsten meer, maar hele volksstammen zijn voor hun informatie daar nog wel van afhankelijk. Nedbib-L heeft wel een blog, maar alleen als feed generator, en ze hebben nu als experiment een Google Groups gemaakt.
Dat Surft stopt met die lijsten kan ik billijken -is echt wel uit de tijd- maar dat ze de archieven wegdoen, dat is echt vernietigen van uniek materiaal en al zitten er weinig spelden in de hooiberg, het zou toch jammer zijn die zomaar te rooien.

Over het GII symposium, waar het GGC-wiel opnieuw is uitgevonden,  schreven Jan Klerk  Symposium Gemeenschappelijke Informatie Infrastructuur en Mark Deckers:  Meneer Deckers, wilt u de zaal verlaten en het einde van het IBL en de eigen catalogus.

Google

Google’s strength is not that it introduces new information but rather that it helps researchers find and communicate what is already out there. To scientists who are routinely drowning in data, that is incredibly valuable. Google has made access to data as simple as a conventional Web search—and that, in its own small way, is a scientific revolution

Informatie

Henk Blanken is een serie begonnen over informatie overload. 1: Informatie overload is een mythe 2: Ik heb internet uit 3 Informatiecrisis: we weten samen te weinig (aardig artikel met halverwege een rare draai) 4:  Het informatiegat: Shirky’s filter failure

Internet / mobiele leven

Wetenschap / Al dan niet Open Access / Publiceren

Zoeken

But we are solving the problem, through our aggregation. We’ve reduced the fear of missing something important because we share “controlled serendipity” with others and they with us. And without this collective discovery online, I couldn’t imagine trying to cull the tens of thousands of new links and stories that appear in the looking glass on a daily basis.
We are all human aggregators now.

UITSMIJERS:

Spijtig / onhandig:

  • Jammer dat in de 2.0 versie van PBworks de ‘magic url’ niet meer werkt, was juist zo handig om het voor een groep prive te houden
  • WordPress.com weblogs kun je private stellen maar alleen voor users met een account: voor groepen is dat niet handig
  • Onbeperkt internetten van KPN is beperkt tot zoveel-x gemiddeld gebruik …
  • ScienceDirect wil perse direct invoeren in RefMan, ook als je bewust kiest voor opslaan van file en NIET voor de Direct Import

Pluimpjes

  • Ha, de ‘Google code‘ is binnen: nog net laatste ex voor-ie uitverkocht is denk ik ;-) Ziet er leuk uit, leest lekker: Pre-Recensie van Wowter
  • @KroosSara “Balkenenditiaans gezegde: Met de kennis van nu, was de vriend van toen, al lang een kennis van nu”
  • Ovid auteurs truncatie met een * mag nu ook
  • True colors of Twitter
  • I love / hate / think / wish /believe mooie visualisatie van twistori
  • Interactive history timeline (British Library)  prachtig!

Proximity operatoren

De nabijheidsoperatoren zijn een onderdeel van de relationele operatoren en veel minder bekend dan de  Booleaanse AND OR en NOT. Hoe staat het met deze proximity, welke zijn er en wie gebruikt wat?

Webopedia zegt:

A type of operator used by some search engines to improve search constraints by instructing the search to look for words that are within a short distance of each other in a document. For example, using a search engine that supports proximity operators, querying the phrase “cable NEAR modem” will instruct the search engine to look in documents for instances of the words “cable” and “modem” that are near each other. Different search engines will specify different distances that the words must be within.

Het gaat dus om niet alleen om de verhouding tussen meerdere zoektermen -hoe dicht staan ze bij elkaar-  maar ook of de volgorde uitmaakt.
Je komt ook wel de term  Adjacency (ADJ)  of NEAR operator tegen. Meestal is er een maximum aan het getal dat je kunt gebruiken om te zeggen hoeveel woorden ertussen mogen staan (Pandia: the NEAR operator) : de getallen ertussen betekenen soms “tot en met”  (Picarta) en andere keren weer “tot” (Ovid).
Soms  kun je tekens (koppelteken, apostrophe, komma of punt) ook als ADJ zien, nl als ze midden in een woord voorkomen. Dat hangt wel van de vertaaltabel van de database af.
Bij NEAR – soms zelfs bij WITHIN- is meestal de volgorde niet van belang, maar niet elke database ziet dat zo, dus daar kun je niet van uitgaan.

Over het algemeen zoek je met deze operatoren in hetzelfde veld: je kunt dus geen auteur en woord uit de titel -als die in verschillende veldne staan tenminste- met elkaar matchen op deze manier,  en stopwoorden en interpunctie worden niet meegeteld bij het aantal tussenwoorden dat je opgeeft.

CCL

Maakt gebruik van de symbolen !  (volgorde maakt uit) en % (volgorde maakt niet uit) al dan niet in combinatie met een getal:

  • dogs !5 cats (eerst dogs dan max 5 woorden, dan cats)
  • dogs % cats (dogs en cats voor of na elkaar met niets ertussen)

CQL

Maakt gebruik  van de operator “prox”  “adj”  en ‘within” maar in de vorm zoals ze het beschrijven – ADJ “heart attack”- zie je het als eindgebruiker meestal niet, is echt computer taal. Het aantal woorden ertussen kun je vastleggen in je vraag.

——————————–

Tot zover over de standaarden: hoe is het in het gebruikt? Het is een ratjetoe!
Er zijn een paar handige sheets van bibliotheken beschikbaar die er een duidelijk overzichtje van geven zoals deze Truncation and proximity van de  Colorado State universities .

Ovid SP gebruikt Adjacent Adj (in de advanced mode) met een max van 2-99 woorden ertussen:

  • Volgorde maakt niet uit
  • Syntax: ADJ5 (nb er kunnen dus 0 – 4 woorden tussen staan)
  • Vb: dogs ADJ5 cats

Picarta heeft het toch een kunst verheven: ik neem de helptekst maar min of meer integraal op

  • ?, * willekeurig aantal woorden er tussen; van links naar rechts.
    VB: gebruik ? drugs vindt ‘gebruik van drugs’, maar ook ‘gebruik van verschillende soorten drugs’.
  • #  nul of één woord; van links naar rechts
    VB:  gebruik # drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • ! t één woord;  van links naar rechts.
    VB  gebruik ! drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • %  woordvolgorde niet is aangegeven.
    VB: john % kennedy vindt ‘John Kennedy’, maar ook ‘Kennedy, John’. Zorgt ervoor dat een operator die standaard van links naar rechts zoekt, tevens van rechts naar links kan zoeken. Bijvoorbeeld : john #% kennedy vindt niet alleen John Kennedy en John F. Kennedy, maar ook Kennedy, John en Kennedy, John F.
  • BIJ, NEAR, ~  1e zoekterm binnen drie woorden van de volgende zoekterm wordt aangetroffen; zoekt twee richtingen op.
    VB: geld BIJ uitgeven twee of minder woorden ertussen
    Vb: geld BIJ/3 uitgeven drie of minder woorden

Web of Science / BIOSIS

Gebruikt SAME en SENT, ze doen hetzelfde. Het is wel volstrekt on-intuïtief als je dat zo moet intikken ;-)

  • Volgorde niet van belang
  • Vb: dogs same cats

Scopus gebruikt Precedes by (PRE) en Within (W)

Met een max van 255 woorden ertussen, 0 mag ook, getal is ook echt het aantal woorden dat ertussen mag.  Niet in combinatie met Booleaanse operatoren.

Precedes by: 1e woord gaat vooraf aan het tweede

  • Syntax: PRE/5
  • Vb: dogs PRE/5 cats
  • heart PRE/0 = “heart attack”

Within: volgorde maakt niet uit.

  • Syntax W/5
  • Vb: dogs W/5 cats

Worldcat

Kent geen proximity search in de webversie,  via connexion client wel:

Type proximity operators with (w) or near (n) with numbers (1 to 25) to find multiple terms in one index that have a specified number of intervening words.

—————————————

Zie verder

Maskeren oftewel middentruncatie

“Iets of niets” dat is de vraag bij het maskeren, ofwel: een maskeringsteken hoort voor 0  of 1 teken te staan in mijn ogen. Maar is dat wel zo? Hoe hoort het eigenlijk? Even op onderzoek uit…

Maskeren -ook wel middentruncatie genoemd- en trunceren zijn beiden ‘wildcards’ ofwel jokers en worden nogal eens door elkaar gebruikt. En er worden ook dezelfde tekens voor gebruikt: #  $  ?  * :  sommigen noemen ook een % maar die laatste (%) ben ik als wildcard niet tegengekomen, wel als proximity operator.

Trunceren =

  • het deel aan het uiteinde van een woord vervangen door een teken dat staat voor alles wat erna (resp ervoor) kan komen.
  • er bestaat rechtstruncatie (alles wat erachter komt) en linkstruncatie (alles wat ervoor komt)
  • dat laatste zie je minder en kost vaak ook meer tijd
  • Vb: bibliot?
  • ?bibliotheek

Maskeren =

  • het vervangen van 1 letter door 0 of 1 teken dat van alles kan betekenen midden in een woord
  • de meeste systemen staan “0 of 1″ teken toe
  • sommige systemen staan  precies 1 teken toe, geen 0
  • sommige systemen staan toe dat je dat teken herhaald: voor elke letter moet je dan het symbool zetten
  • soms betekent het symbool ‘alle tekens die ertussen kunnen’
  • Vb: wom#n

CCL:

Ooit werd hoe het hoort vastgelegd in de  Common Command Language (CCL) (Wikipedia duitse versie), waaruit in 1993 de ISO 8777 volgde en in 2004 de Common Query Language ook wel Contextual Query language CQL genoemd.  In die CCL worden allerlei commando’s  vastgelegd, ook de wildcards.
Zoals ik over truncatie al heb geroepen, vult elk systeem dat helaas weer anders in, maar volgens de universele richtlijnen van de CCL is de standaard voor truncatie een ? en voor maskeren een # . En als je de duitse wiki mag geloven, staat die maskering voor 0 of 1 teken, en niet voor 1 teken precies, zoals vaak aangehaald. Dat “1 teken precies” wordt dan aangegeven met een uitroepteken (!). De ISO 8777   is helaas niet full-text op ‘t net, dus ik kan niet nakijken of het daar ook in staat, maar ik vermoed van niet (kan iemand erbij? Geef t even door svp).
Koha heeft een uitgebreid verhaal over de CCL, maar heeft vreemd genoeg als truncatie dan weer een * ingevoerd.
CCL is dus:

  • ? =  alles
  • # = 0 of 1 teken
  • ! = 1 teken

CQL:

De CQL is een systeem dat probeert CCL en SQL te combineren. Op de CQL homepage (van de LoC) wordt niets over trunceren / maskeren gezegd, maar in Pattern Matching’ van A gentle introduction to CQL wordt aangegeven hoe de wildcards  er uit zien:

  • ? = 1 teken
  • * =  alles
  • mogen overal voorkomen en herhaald worden
  • Vb: ?in?s*r

Mooi is dat … hebben we 2 afwijkende standaarden: geen wonder dat allerlei systemen dat anders aanpakken.

————————————–

Wat doen de grote databases  trouwens? (T = trunceren M = maskeren)

Ovid (PsycInfo):

Ovid heeft een uitgebreide helptekst, en hier zie ik weer een nieuwe, die je bij Worldcat ook terugvindt:

Limited truncation specifies a maximum number of characters that may follow the root word or phrase. For example, the truncated search dog$1 retrieves results with the words dog and dogs; but it does not retrieve results with the word dogma

In hun lijstje truncatie symbolen zie ik er ook een die ik nog niet eerder als truncatieteken was tegengekomen:  een  colon (:). Je mag nu al deze truncaties ook bij auteurs gebruiken.

  • T = $  *   :
  • M = ? 0 of 1
  • M = # 1 teken, mag vaker gebruikt, moet meer dan 1 letter aan vooraf gaan:
  • Vb: wom#n mag, d#g niet
  • wagenaar*.au.

Pica

Picarta heeft vrij op t net een oude tekst zoekhulp met info over wildcards (handleiding) maar binnen Picarta is deze tekst aangepast.  (update 16/1: op t net staat ook een nieuwere:  Picarta handleiding zoeken)

Binnen een zoekterm kunnen wildcards gecombineerd worden.

  • T = ? en *
  • M= ! 1 teken
  • M= #  0 of 1 teken
  • M = ? en * vervangt dan alle letters (je mag geen aantal toevoegen)
  • Vb: spa#n,g?
  • Vb: gebruik! vindt gebruikt, maar niet gebruik of gebruiker.
  • micro?p* vindt microcomputer, microscope, microprocessor, etc.
  • micro!p* vindt microsphere, microoptics, etc
  • 199#

Worldcat:

Search help (zoek voor Wildcards) / Quick reference card.

  • T = ? en *  je mag er ook cijfer aan toevoegen dat aantal te vervangen letters aangeeft
  • M= ! 1 teken (uitzetten rechtstruncatie: kan ik niet op de referencecard terugvinden, maar werkt wel)
  • M= #  1 teken
  • M = ? met aantal te vervangen letters
  • Vb: bu?2er = butterfly, burner
  • Vb: colo?1r = color, colour, maar niet colonizer

Scopus:

Only one wildcard can be included in a single term”

  • T = * (links en rechts)
  • M = ? 1 teken
  • M = * 0 of 1
  • Vb: he*moglobin vindt hemoglobine, haemoglobin maar ook hemidemiphosphorylmontotremoglobin

WOS:

  • T = *
  • M = ? 1 teken
  • M = $ 0 of 1

Mijn  eigen bibliotheeksysteem volgt de ISO 8777 met als gevolg dat een ? staat voor een truncatie, een # voor 1 teken als maskering.
0 of 1 kan in mijn syteem niet met een # : en daar kom ik weer met het colour/ color probleem. Ze hebben voor dezelfde oplossing gekozen voor dat “niets of iets” als Scopus, maar dan met een ? middenin het woord.
Maar dan vind je ook alles wat ertussen kan, dus

colo?r = color, colour, colorectal,  colonoscopistentekort ( ivm automatische rechtstruncatie)

en daar kan ik niet tegen … dus heb ik onze leverancier gevraagd er iets aan te doen: maak van # de keuze uit 0 of 1,  of verzin iets anders desnoods, maar die ? middenin een woord is niet handig.
Wat vinden jullie?

———————

Zie verder:

Google zoeken en bibliotheken in december 2009

Na een warme november ineens kou en overdreven veel sneeuw: onze bobtail vond het heerlijk!

Bibliotheek

Het blijft zorgelijk in de hele bibliotheek wereld, is ook  de openbare bibliotheek met uitsterven bedreigd? (Webgrrlnl). We hebben er de mond vol van dat de bibliotheek moet veranderen (al 20 jaar trouwens) en die verandert ook, maar dan gaan we certificeren en vervolgens kiezen we DOK, een niet-gecertificeerde. tot beste bibliotheek (Kaldenbach) – geheel terecht overigens.  Met  Wowter kun je om DOK Delft blijven lachen, maar ‘t is toch een waterig lachje: wat zijn we toch met zijn allen aan ‘t doen….
De veranderingen kun je zien aan de topics van Issues Science Technology Librarianship (fall 2009) we zijn bezig met:  Open Access, E-books,  Technoly reference books chemistry, Data en Cross-disciplinary research. Of met Web 2.0:  Cilips heeft een Guide to Using Web 2.0 in Libraries uitgegeven.
Maar die rol veranderen vergt wel wat Programming skills (Research Information) van de mensen en dat merkte ik ook toen ik bezig was met een oud 90er jaren bestand uit InMagic te converteren en in te lezen in de huidige catalogus ;-) .
Uiteraard blijven we met catalogi bezig  Online Catalogs: What Users and Librarians Want  (OCLC) en daar laten we het niet bij: Beyond bibliographic records (Lorcan Dempsey’s weblog).

Citaties / peer review

Databases

Google

Met de personalised search is niet iedereen blij:  Google Now Personalizes Everyone’s Search Results This “service” is OPT-OUT not opt-in en Google’s Personalized Results: The “New Normal” That Deserves Extraordinary Attention Normal search = dead . Karen Blakeman zegt zelfs: Your Google results are about to get weirder.

Is Google het spoor bijster?  Zijmo twijfelt: Google in de bocht! of toch niet? Of gaan ze zelfs helemaal  Moving In The Wrong Direction? ( Lisa Barone (Outspoken media) “Keep It Simple, Stupid. Such a great rule. Google seems to have forgotten it.“  Maar in elk geval: Google is not perfect (VocabControl) Waarom nog steeds classificatie nodig is.
En al bedenken ze soms maffe fade-in opties voor de homepage Now you see it, now you don’t,  bereidwillig zijn ze wel: How Google Can Help Newspapers (Wall Street Journal) en ze maken zelfs voor News A Concession To Whining Publishers: Only First Five Clicks Are Free (TechCrunch).
Met Privacy heeft google niet veel op:  Privacy is not Google’s issue but yours says Schmidt (Searchcowboys) zo kun je ‘t ook bekijken: “If you do something “bad” and it’s being out on the web, don’t start complaining, you shouldn’t have done it in the first place” . en dan krijg je bijv ook dit: Google en Amazon schenden privacy van ebook-lezers: informationeel zelfbeschikkingsrecht  (MJ Klaver, NRC)

Google Wave

De hype lijkt alweer een beetje over: mijn eigen waves zijn allemaal stilgevallen,  en  Krafty Librarian: What is Google Wave and Why Should I Care?
Wat het is vind je bijv op de  Google Wave Cheat Sheet en Surf heeft onderzocht of het te gebruiken is for Research and Education doeleenden. Een enkeling zoals Jason Kob, is erg enthousiast: The Usefulness of Waves Over Time. Hij gebruikt Waves als een soort website, of in combinatie met een website

Internet / online leven

Internet tips / websites

Maatschappij / cultuur

De kersttoespraak van onze vorstin heeft nogal wat beroering verwekt. Met Keen ziet ze een grotere individualisering optreden, met alle nadelen van dien. De Twitteraars hopen haar ook op wat voordelen te kunnen wijzen:  een brief van het slijterijmeisje bijv, een alternatieve kerstoespraak, Tweetmeets op de dam o.a.  Evengoed vonden deze tweetmeets toch al plaatst, oa door ons groepje bibliotwitteraatrs dat naar Teylers ging voor een rondgang door de historische bibliotheek

Onderzoek / Research / Wetenschap

The report’s key finding is that access is still a major concern for researchers. Although researchers report having no problems finding content in this age of electronic information, gaining access is another matter due to the complexity of licensing arrangements, restrictions placed on researchers accessing content outside of their own institution and the laws protecting public and private sector information

Publicaties / boeken / tijdschriften / open access

  • Laura Briggs Open Access Concept Map

Het Landelijk Overleg Onderwijs Wetenschappelijke Informatie (LOOWI)heeft kortgeleden de Amerikaanse standaard op dit gebied vertaald, die opgesteld is door de American Association of College and Research Libraries.

Twitter en web 2.0

Zoeken

Allemaal een heel goed jaar toegewenst, en wat was het -deze fractie van wat er zich voordeed-  weer veel deze maand he?
Maar nu is het tijd voor de echt belangrijke dingen: een wandeling in de sneeuw!