Bibliotheken, Informatie en het Online Leven in Maart 2010

1 Reactie
Plaatje van Wikipedia

Tussilago farfara - klein hoefblad

Het klein hoefblad bloeit: het is lente en waarneming.nl heeft een mobiele versie waarmee je rechtstreeks in het veld kunt inventariseren.
Door de  steenslag op de wegen vanwege het door de vorst  beschadigde asfalt zijn heel wat autoruiten gesneuveld: een dorp is zo slim geweest de gaten in de weg te willen verkopen.
Veder is het kabinet is gevallen, was het natuurlijk ook weer boekenweek, is Twitter 4 jaar  (schoolrijp?) en heeft Bruna Geluksnijntjes (alleen niet voor boeken, dat is wel typisch voor een boekwinkel, maar verder vind ik ze geweldig).

Er is weer zoveel interessants langs gekomen, dat ik niet de illusie heb ook maar enigszins volledig te zijn, maar hier volgt dan wat mij deze maand is, onder vele andere zaken, is opgevallen:

Bibliotheek

Without libraries what have we? We have no past and no future.” ~Ray Bradbury
In  The death of the library book (‘what’s the use of libraries – really?’) maakt het Salon artikel het verschil pijnlijk duidelijk tussen wat gebruikers – wie dat dan ook zijn- willen en wat de architecten / bestuurders / managers doen Cambridge has a gleaming new main building, but something’s missing — and closing local branches won’t help.

what does happen to the network of public libraries once we stop leaving our homes to download books or access collections? Does reading and research become a less social activity? Or does the public aspect of ideas, knowledge, and research shift somewhere online? (bigmoney)

Databases

  • De website van Narcis is vernieuwd: weinig Web 2.0, en de cloud is nu weg, maar achter de zoekoptie zit nog wel RSS. Er is wel een NARCIS openSearch plugin
  • Gaat het wel goed met Elsevier?  Er gebeuren rare dingen, bijv met de Scopus search  alerts. Op een dag in maart kromp de set steeds meer:

set 1=8 docs set 2=14 docs in de alert mails. Maar als je  doorklikt naar het web:
set 1=7 docs, set 2=13 docs
set 1 OR set 2 = 12 docs
als je dan set 2 gaat bekijken krimpt hij ineens van 13 naar 12  … wat gebeurt daar?
set 1 (7 docs dus) in List gezet, set 2 (nu 12 docs) ook
daarmee handmatig een OR relatie gemaakt dus. Nu is die OR relatie ineens 13!

  • Een week later vertelde de  Scopus search alert mail dat er 11 hits zijn, maar de link naar de site toonde er 13. Hoe kan dat? Minder kan ik begrijpen (artikelen in press die uitgekomen zijn) maar meer: dat kan niet
  • Scopus heeft een ‘download’knop bovenaan de toon-artikel pagina’s geplaatst. Alleen moet je dan eerst de document manager Quosa installeren:  soms mag dat niet van de ICT.  Die klanten zien dus een download knop die ze niet kunnen gebruiken, en die Elsevier niet wil/kan verbergen :  dan moet je via de Linksolver doorklikken naar de full-text, maar dat moet je maar weten …
  • Scopus geeft de DOIs van artikelen in-press niet (altijd) goed weer: ik heb t aangekaard bij ze en mogelijk is het nu verbeterd. Let ook op de auteur met tussenvoegsels in de naam
  • Scopus life chat was onbemand: je kon ze mail sturen met je vraag:  daarvan kreeg ik wel bevestiging maar nooit antwoord

Google

Internet / Online leven

Het is leven is ingewikkeld geworden:

Van foksuk.nl

HNW: Het Nieuwe Werken (15 procent ict, 15 procent werkplek en 70 procent mindset) is ‘in’ : vluchten kan niet meer. De waarde van het Nieuwe Werken zit ‘m in het samenwerken (Frankwatching) aha: ik ben een generatie Y! Wordt  Wijzer met informatie (blog ‘Het nieuwe Werken)  en daarmee vindt Jos van  Dijk meteen maar de Informatiespecialist opnieuw uit als informatiecoach. Weer een nieuwe naam … zucht… a rose by any other name

Overall, college students use Wikipedia. But, they do so knowing its limitation. They use Wikipedia just as most of us do — because it is a quick way to get started and it has some, but not deep, credibility.

Wetenschap / research / Citaties / Peer review

Op Wowters blog RSS op een rijtje:

RSS overzicht van Wowter

Web 2.0 / Twitter

Als je je Plaxo account verwijdert (P voegt echt niets meer toe) voelt dat wel als een opluchting. Al weet je niet precies meer wanneer iedereen jarig is, je hoort het vanzelf via Twitter

Zoeken

Jammer

  • update naar Android 2.1  zou al in februari komen, nu pas eind april (verwacht)
  • Om een nieuw Delicious account aan te maken moet je eerst een nieuw Yahoo account aanmaken, en dat valt niet mee, Yahoo = echt vervelend gedoe

Pluim

Advertenties

Proximity operatoren

Laat een reactie achter

De nabijheidsoperatoren zijn een onderdeel van de relationele operatoren en veel minder bekend dan de  Booleaanse AND OR en NOT. Hoe staat het met deze proximity, welke zijn er en wie gebruikt wat?

Webopedia zegt:

A type of operator used by some search engines to improve search constraints by instructing the search to look for words that are within a short distance of each other in a document. For example, using a search engine that supports proximity operators, querying the phrase “cable NEAR modem” will instruct the search engine to look in documents for instances of the words “cable” and “modem” that are near each other. Different search engines will specify different distances that the words must be within.

Het gaat dus om niet alleen om de verhouding tussen meerdere zoektermen -hoe dicht staan ze bij elkaar-  maar ook of de volgorde uitmaakt.
Je komt ook wel de term  Adjacency (ADJ)  of NEAR operator tegen. Meestal is er een maximum aan het getal dat je kunt gebruiken om te zeggen hoeveel woorden ertussen mogen staan (Pandia: the NEAR operator) : de getallen ertussen betekenen soms “tot en met”  (Picarta) en andere keren weer “tot” (Ovid).
Soms  kun je tekens (koppelteken, apostrophe, komma of punt) ook als ADJ zien, nl als ze midden in een woord voorkomen. Dat hangt wel van de vertaaltabel van de database af.
Bij NEAR – soms zelfs bij WITHIN- is meestal de volgorde niet van belang, maar niet elke database ziet dat zo, dus daar kun je niet van uitgaan.

Over het algemeen zoek je met deze operatoren in hetzelfde veld: je kunt dus geen auteur en woord uit de titel -als die in verschillende veldne staan tenminste- met elkaar matchen op deze manier,  en stopwoorden en interpunctie worden niet meegeteld bij het aantal tussenwoorden dat je opgeeft.

CCL

Maakt gebruik van de symbolen !  (volgorde maakt uit) en % (volgorde maakt niet uit) al dan niet in combinatie met een getal:

  • dogs !5 cats (eerst dogs dan max 5 woorden, dan cats)
  • dogs % cats (dogs en cats voor of na elkaar met niets ertussen)

CQL

Maakt gebruik  van de operator “prox”  “adj”  en ‘within” maar in de vorm zoals ze het beschrijven – ADJ “heart attack”- zie je het als eindgebruiker meestal niet, is echt computer taal. Het aantal woorden ertussen kun je vastleggen in je vraag.

——————————–

Tot zover over de standaarden: hoe is het in het gebruikt? Het is een ratjetoe!
Er zijn een paar handige sheets van bibliotheken beschikbaar die er een duidelijk overzichtje van geven zoals deze Truncation and proximity van de  Colorado State universities .

Ovid SP gebruikt Adjacent Adj (in de advanced mode) met een max van 2-99 woorden ertussen:

  • Volgorde maakt niet uit
  • Syntax: ADJ5 (nb er kunnen dus 0 – 4 woorden tussen staan)
  • Vb: dogs ADJ5 cats

Picarta heeft het toch een kunst verheven: ik neem de helptekst maar min of meer integraal op

  • ?, * willekeurig aantal woorden er tussen; van links naar rechts.
    VB: gebruik ? drugs vindt ‘gebruik van drugs’, maar ook ‘gebruik van verschillende soorten drugs’.
  • #  nul of één woord; van links naar rechts
    VB:  gebruik # drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • ! t één woord;  van links naar rechts.
    VB  gebruik ! drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • %  woordvolgorde niet is aangegeven.
    VB: john % kennedy vindt ‘John Kennedy’, maar ook ‘Kennedy, John’. Zorgt ervoor dat een operator die standaard van links naar rechts zoekt, tevens van rechts naar links kan zoeken. Bijvoorbeeld : john #% kennedy vindt niet alleen John Kennedy en John F. Kennedy, maar ook Kennedy, John en Kennedy, John F.
  • BIJ, NEAR, ~  1e zoekterm binnen drie woorden van de volgende zoekterm wordt aangetroffen; zoekt twee richtingen op.
    VB: geld BIJ uitgeven twee of minder woorden ertussen
    Vb: geld BIJ/3 uitgeven drie of minder woorden

Web of Science / BIOSIS

Gebruikt SAME en SENT, ze doen hetzelfde. Het is wel volstrekt on-intuïtief als je dat zo moet intikken 😉

  • Volgorde niet van belang
  • Vb: dogs same cats

Scopus gebruikt Precedes by (PRE) en Within (W)

Met een max van 255 woorden ertussen, 0 mag ook, getal is ook echt het aantal woorden dat ertussen mag.  Niet in combinatie met Booleaanse operatoren.

Precedes by: 1e woord gaat vooraf aan het tweede

  • Syntax: PRE/5
  • Vb: dogs PRE/5 cats
  • heart PRE/0 = “heart attack”

Within: volgorde maakt niet uit.

  • Syntax W/5
  • Vb: dogs W/5 cats

Worldcat

Kent geen proximity search in de webversie,  via connexion client wel:

Type proximity operators with (w) or near (n) with numbers (1 to 25) to find multiple terms in one index that have a specified number of intervening words.

—————————————

Zie verder

Maskeren oftewel middentruncatie

Laat een reactie achter

“Iets of niets” dat is de vraag bij het maskeren, ofwel: een maskeringsteken hoort voor 0  of 1 teken te staan in mijn ogen. Maar is dat wel zo? Hoe hoort het eigenlijk? Even op onderzoek uit…

Maskeren -ook wel middentruncatie genoemd- en trunceren zijn beiden ‘wildcards’ ofwel jokers en worden nogal eens door elkaar gebruikt. En er worden ook dezelfde tekens voor gebruikt: #  $  ?  * :  sommigen noemen ook een % maar die laatste (%) ben ik als wildcard niet tegengekomen, wel als proximity operator.

Trunceren =

  • het deel aan het uiteinde van een woord vervangen door een teken dat staat voor alles wat erna (resp ervoor) kan komen.
  • er bestaat rechtstruncatie (alles wat erachter komt) en linkstruncatie (alles wat ervoor komt)
  • dat laatste zie je minder en kost vaak ook meer tijd
  • Vb: bibliot?
  • ?bibliotheek

Maskeren =

  • het vervangen van 1 letter door 0 of 1 teken dat van alles kan betekenen midden in een woord
  • de meeste systemen staan “0 of 1” teken toe
  • sommige systemen staan  precies 1 teken toe, geen 0
  • sommige systemen staan toe dat je dat teken herhaald: voor elke letter moet je dan het symbool zetten
  • soms betekent het symbool ‘alle tekens die ertussen kunnen’
  • Vb: wom#n

CCL:

Ooit werd hoe het hoort vastgelegd in de  Common Command Language (CCL) (Wikipedia duitse versie), waaruit in 1993 de ISO 8777 volgde en in 2004 de Common Query Language ook wel Contextual Query language CQL genoemd.  In die CCL worden allerlei commando’s  vastgelegd, ook de wildcards.
Zoals ik over truncatie al heb geroepen, vult elk systeem dat helaas weer anders in, maar volgens de universele richtlijnen van de CCL is de standaard voor truncatie een ? en voor maskeren een # . En als je de duitse wiki mag geloven, staat die maskering voor 0 of 1 teken, en niet voor 1 teken precies, zoals vaak aangehaald. Dat “1 teken precies” wordt dan aangegeven met een uitroepteken (!). De ISO 8777   is helaas niet full-text op ’t net, dus ik kan niet nakijken of het daar ook in staat, maar ik vermoed van niet (kan iemand erbij? Geef t even door svp).
Koha heeft een uitgebreid verhaal over de CCL, maar heeft vreemd genoeg als truncatie dan weer een * ingevoerd.
CCL is dus:

  • ? =  alles
  • # = 0 of 1 teken
  • ! = 1 teken

CQL:

De CQL is een systeem dat probeert CCL en SQL te combineren. Op de CQL homepage (van de LoC) wordt niets over trunceren / maskeren gezegd, maar in Pattern Matching’ van A gentle introduction to CQL wordt aangegeven hoe de wildcards  er uit zien:

  • ? = 1 teken
  • * =  alles
  • mogen overal voorkomen en herhaald worden
  • Vb: ?in?s*r

Mooi is dat … hebben we 2 afwijkende standaarden: geen wonder dat allerlei systemen dat anders aanpakken.

————————————–

Wat doen de grote databases  trouwens? (T = trunceren M = maskeren)

Ovid (PsycInfo):

Ovid heeft een uitgebreide helptekst, en hier zie ik weer een nieuwe, die je bij Worldcat ook terugvindt:

Limited truncation specifies a maximum number of characters that may follow the root word or phrase. For example, the truncated search dog$1 retrieves results with the words dog and dogs; but it does not retrieve results with the word dogma

In hun lijstje truncatie symbolen zie ik er ook een die ik nog niet eerder als truncatieteken was tegengekomen:  een  colon (:). Je mag nu al deze truncaties ook bij auteurs gebruiken.

  • T = $  *   :
  • M = ? 0 of 1
  • M = # 1 teken, mag vaker gebruikt, moet meer dan 1 letter aan vooraf gaan:
  • Vb: wom#n mag, d#g niet
  • wagenaar*.au.

Pica

Picarta heeft vrij op t net een oude tekst zoekhulp met info over wildcards (handleiding) maar binnen Picarta is deze tekst aangepast.  (update 16/1: op t net staat ook een nieuwere:  Picarta handleiding zoeken)

Binnen een zoekterm kunnen wildcards gecombineerd worden.

  • T = ? en *
  • M= ! 1 teken
  • M= #  0 of 1 teken
  • M = ? en * vervangt dan alle letters (je mag geen aantal toevoegen)
  • Vb: spa#n,g?
  • Vb: gebruik! vindt gebruikt, maar niet gebruik of gebruiker.
  • micro?p* vindt microcomputer, microscope, microprocessor, etc.
  • micro!p* vindt microsphere, microoptics, etc
  • 199#

Worldcat:

Search help (zoek voor Wildcards) / Quick reference card.

  • T = ? en *  je mag er ook cijfer aan toevoegen dat aantal te vervangen letters aangeeft
  • M= ! 1 teken (uitzetten rechtstruncatie: kan ik niet op de referencecard terugvinden, maar werkt wel)
  • M= #  1 teken
  • M = ? met aantal te vervangen letters
  • Vb: bu?2er = butterfly, burner
  • Vb: colo?1r = color, colour, maar niet colonizer

Scopus:

Only one wildcard can be included in a single term”

  • T = * (links en rechts)
  • M = ? 1 teken
  • M = * 0 of 1
  • Vb: he*moglobin vindt hemoglobine, haemoglobin maar ook hemidemiphosphorylmontotremoglobin

WOS:

  • T = *
  • M = ? 1 teken
  • M = $ 0 of 1

Mijn  eigen bibliotheeksysteem volgt de ISO 8777 met als gevolg dat een ? staat voor een truncatie, een # voor 1 teken als maskering.
0 of 1 kan in mijn syteem niet met een # : en daar kom ik weer met het colour/ color probleem. Ze hebben voor dezelfde oplossing gekozen voor dat “niets of iets” als Scopus, maar dan met een ? middenin het woord.
Maar dan vind je ook alles wat ertussen kan, dus

colo?r = color, colour, colorectal,  colonoscopistentekort ( ivm automatische rechtstruncatie)

en daar kan ik niet tegen … dus heb ik onze leverancier gevraagd er iets aan te doen: maak van # de keuze uit 0 of 1,  of verzin iets anders desnoods, maar die ? middenin een woord is niet handig.
Wat vinden jullie?

———————

Zie verder:

Zoeken in januari 2009

1 Reactie

Er is natuurlijk altijd heel veel nieuws over zoeken te vertellen: kijk maar naar de blogs van o.a. Pandia. We hebben net een raar akkefietje gehad met Google: ineens werden allerlei sites als ‘gevaarlijk’ aangeduid. Het geeft wel weer aan hoe afhankelijk we worden van een enkele ‘leverancier’.
Aan Google deze maand heb ik een apart logje gewijd,  hieronder een lijstje van wat me verder opgevallen is over zoeken in het algemeen:

Google producten op een rij

7 Reacties

22 dec 2008: Aangepaste, en aan te passen, pagina helemaal bovenaan gezet als tabblad, onderstaande tekst wordt niet bijgewerkt

Het is nog niet zo gemakkelijk een overzicht te krijgen van alles wat Google eigenlijk doet. De cursus van vorige week zetten me op het spoor van het vertalen van zoekvragen, Jan had het over Google woordenboek, en dan vertelde Letty ook al dat het zo lastig is om een overzicht te krijgen.  Een aantal bronnen, en wat info:

Tijd om eens alles op een rijtje te zetten wat ik kan vinden, er waren er ook bij die ik nu pas voor het eerst zie, en de Nederlandse en Engelse versie kunnen afwijken.  Ik laat het er zo even bij, lijkt me wel een pagina die regelmatig aanpassing behoeft 😉 .

Adsense Adsense Google
advertenties op je pagina blog: inside adsense
Adsense Adwords Dienst
voor adverteerders api blog / inside adwords blog
Agenda Agenda / Calendar
Uw planning organiseren en gebeurtenissen delen met vrienden
Alerts Alerts / Meldingen
Receive news and search results via email
Analytics Analytics
Statistieken en analyses van eigen websites: je moet je eerst inloggen en een code op de pagina’s plaatsen
Base Base
A free Google service that helps you publish virtually any kind of information — be it your latest riveting screenplay or a listing for your slightly dented 1989 Honda Accord — on Google Base or other Google properties.
Blog Search Blog Search
Zoek naar weblogs
Blogger (in het Engels) Blogger
Maak uw eigen weblog, de weblog hiervan: buzz
Zoeken naar boeken Book Search / Zoeken naar boeken
Doorzoek alle informatie uit boeken
Bookmarks Bookmarks
Google Browsers en software: Ga direct naar startpagina met Google
zoekbalk van: Linux / Microsoft / Mac / Firefox / BSD /
Agenda Catalogs
Diverse online product catalogi
Checkout Checkout
Soort
creditcard service
Code Code
Download APIs and open source code
Code Search Code Search
Zoek in oopenbare broncode (let op taal)
CSE Custom Search Engine
Maak je eigen zoekmachine met de kracht van Google en beperkt dat tot de keuze van je eigen sites
Desktop Desktop
Doorzoek uw eigen computer webblog hierover
CSE Dictionary
Woordenboek in diverse talen
Directory Directory / Gids
Browse the web by topic
Docs Documenten
Create and share your online documents, presentations, and spreadsheets
Earth
Basis voor Google maps: software om te downloaden
Feedburner Feedburner

News feed management services, including feed traffic analysis and advertising facilities

Finance Finance
Market summary
Gears Gears

A Firefox and Internet Explorer extension that allows to navigate on compatible websites offline and synchronize when going back online.

Friend connect
Geen ‘about’ pagina. Zie wat TechCrunch errvan zegt op 4 dec 2008.
Google Chrome Google Chrome

A browser built for speed, stability and security

Grandcentral Grandcentral
Telefoon methode
Groups Groups / Discussiegroepen
Create mailing lists and discussion groups
Hot tends Hot Trends
The top 100 fastest-rising search queries right now (U.S. only). Updates throughout the day.
iGoogle
Gepersonaliseerde startpagina
Images Images
Search for images on the web
hierbij ook de Image labeler
Hot tends Insights for Search
A deeper dive into search query data for marketers and power users. Create your own lists of “most popular” and “fastest rising” queries for different geographic regions over time and by topic.
Jaiku Jaiku
Micro-blogging systeem vergelijkbaar met Twitter
Jobs
Knol Knol
Wiki met wetenschappelijke ambities
Labs Labs

Probeer de nieuwste Google producten uit

Gmail Mail
Maps Maps
Bedrijven zoeken, routes plannen en lokale informatie vinden blog
Maps voor mobiel Maps voor mobiel
Bedrijven zoeken, adressen vinden en routes plannen op uw mobiel
m.google.nl/maps
Mars.
Google maps voor Mars
Mobile Mobile
Use Google on your mobile phone
Maan Moon
Google maps voor de Maan
MaanFilms Movies
Zoek (in de VS) op postcode naar films
Muziek Music
Google music search: Zoek naar liedjes, artiest, album
News News – now with archive search / Nieuws NL
Search thousands of news stories. Let op taal!
Kladblok Notebook / Kladblok
Informatie knippen en verzamelen terwijl u zoekt op het web
Orkut Orkut
Ontmoet nieuwe mensen en blijf in contact met vrienden
Pack Pack
Een gratis verzameling essentiële software
Patenten Patents
Zoeken naar patenten
Picasa Picasa
Foto’s vinden, bewerken en delen
Pinyin IME
Voor installatie chinese lettertekens
Product search / shopping
Helps shoppers find and buy products across the web. As a seller, you can submit your products to Google Product Search, allowing shoppers to quickly and easily find your site.
Google Reader Reader RSS feed
reader blog
Rekenmachine Rekenmachine en andere tips van Google
Haal meer uit uw zoekopdrachten
Scholar Research
Niet erg actieve Research Blog. Publications bij Googlers en Tech Talks: There are a large number of technical talks at Google. Many of these are videotaped, and some are made available for external viewin
Sketchup Ride finder
Zoek een taxi, in de VS
Scholar Scholar / Wetenschap
Search scholarly papers / Zoek naar wetenschappelijke artikelen
Sites Sites
Maak je eigen website, wiki-achtig
Sketchup SketchUp
You can use Google SketchUp to create, modify and share 3D models.
Sky
Google maps voor de sterren
SMS
Stuur berichten en krijg antwoord via SMS: werkt alleen in de VS
Google Talk Talk
Chat en bel met vrienden via je computer
blog
Toolbar Toolbar
Voeg het Google zoekveld toe aan uw browser
Transit
Plan je reis, maar NL zit er nog niet in
Translate Translate / Vertaal
View web pages in other languages.
Maar ook link naar het vertalen van de zoekvraag
Hot tends Trends
For a broad look at search query data, enter up to five search terms to see relative popularity over time.
Trends for Websites
Google Trends for website traffic data. Type in a website address to see visitors by region and related sites visited
Universities
Google’s University Search enables you to narrow your search to a specific school website. Try it for things like admissions information, course schedules, or alumni news. To get into your target school, just click
the name below.
Video Video
Zoek video’s en voeg je eigen video’s toe blog
Web Search Web Search
Search over 8 billion web pages. Taal maakt uit waarin je zoekt, land ook
Web Search Web Search History
Log in en het systeem onthoudt waar je geweest bent
Webmastercentrum
Inside sitemaps: webmaster central blog
Websiteoptimizer
YouTube YouTube
Video’s bekijken, uploaden en delen
Zeitgeist Zeitgeist home / Zeitgeist per land per maand
Search patterns, trends and surprises, omvat een aantal van bovengenoemde sites: Trends, Trends for websites, Hot trends en Insights
Zoek naar:

  • link:www.google.nl (wie linkt naar …)
  • car site:www.google.nl (informatie -car- binnen een bepaalde site
    – google- )
  • car filetype:pdf (zoekt naar pdf’s met -car- )

Internet masterclass zoektechniek

13 Reacties

Op 12 december 2008 heb ik, met 12 collega’s, de GO masterclass zoektechnieken gevolgd. Jeroen Bosman was de docent en hij deed het leuk, met een goede mix tussen plenaire sessies en hands-on oefenen: afwisselend eerst de theorie en daarna voor ieder een eigen computer met een aantal oefeningetjes.

Hoofdzaak
Natuurlijk weet ik best wel wat van zoektechnieken, van bestanden en zoekmachines, maar eigenlijk grijp ik in de dagelijkse praktijk teveel terug op Google en denk te weinig aan andere mogelijkheden.  Van de anderen hoorde ik eenzelfde reden om deze cursus te volgen: verder denken dan alleen standaard Google.
Eigenlijk is dat ook van groot belang voor succesvol zoeken: het proces dat zich in je hoofd afspeelt!
De meeste zoekmachines en behandelde websites kende ik al, maar ik heb toch weer wat belangrijke zaken geleerd:

  • Translated Search kende ik niet en daar ga ik nog een aparte post aan wijden,
  • het enorme verschil dat op kan treden bij de wijze van aanpak, gebruik van en de toevoegingen aan zoektermen,
  • een paar sites die ik al een poos niet gebruikt had heb ik opnieuw in ere hersteld,
  • paar tips opgedaan voor manipuleren met termen die ik niet kende,
  • gebruik van Thumbshots ranking als illustratie bij training in informatievaardigheden,
  • het was goed er eens een hele dag mee bezig te zijn geweest.

en als huiswerk heb ik het dan hieronder samengevat, voor mezelf natuurlijk, en op verzoek van Laika en Wowter 😉 :

Zoekexpert
Een zoekexpert heeft kennis van het onderwerp, van bronnen en zoektools, weet met taal en logica om te gaan, en vooral: reflecteert op het eigen zoekproces.
Als zoekexpert hou je rekening met recall-killers (verkeerde bron, ontbrekende elementen, woordvariant- en spellingfouten) – en precision-killers (verkeerde termen, ontbrekende inhoudelijke relatie, metatags).
Je weet van webzoekmachines en hoe ze werken:

  • dat de positie van je zoekterm op de pagina uitmaakt,
  • dat de indexen gedistribueerd zijn opgeslagen,
  • dat taal en land interfaces van enorme invloed zijn,
  • evenals de taal of het land van de bron
  • of de taal van de zoekvraag,
  • net als eventueel bewaarde zoekacties als je ingelogd bent,
  • en dat de resultaten in de loop van de tijd sterk kunnen afwijken.

Over deze taal en land afwijkingen had Karen Blakeman het ook tijdens de ILI2007 en deze onduidelijkheden worden de laatste tijd groter.

Kies bij voorkeur altijd voor de  ‘Advanced Search’. Eigenlijk is dat de verkeerde naam: voor gebruik van een enkel zoekvakje moet je eigenlijk veel meer van het systeem weten, niet minder 😉 .

Webzoekmachines
Zoekmachines vertellen nooit hoe ze precies werken, ze laten ook niet meer dan 1000 hits zien.
Google indexeert nog steeds niet alles volledig: aan PDFs kun je soms via de in de cache opgeslagen html code zien tot hoever ze geïndexeerd zijn.  Google herindexeert wel, maar eenmaal in de index opgenomen zullen PDFs niet snel opnieuw geïndexeerd worden.
Denk eraan dat er gezocht wordt in een pagina, niet in een website: een onderwerp kan verspreid over meerdere pagina’s staan, dat beïnvloedt het resultaat.
Dat de meesten van ons standaard Google gebruiken is niet erg: het is nog steeds de beste algemene zoekmachine, en de eerste keus in vele gevallen .
Meer dan 15% van de webpagina’s (let wel, dat is dus het zichtbare web)  zit in geen enkele zoekmachine, Google komt maximaal aan ca 75%, de dekking is zeer ongelijkmatig. Via een website als Thumbshot ranking kun je zien hoe zoekvragen zich verhouden tussen de verschillende zoekmachines maar ook binnen een zoekmachine met lichtelijk afwijkende termen. Zoek maar eens naar:  “climate change” vs “changing climate” alletwee in Google en kijk naar (het ontbreken van) de overlap,  of vul twee woorden in omgekeerde volgorde in (bv  China Netherlands vs Netherlands China): schokkend te zien hoe de ranking daarmee anders wordt . En de meeste mensen kijken niet verder dan de eerste paar pagina’s.
De grote aantallen die zoekmachines geven zijn schattingen: hoe groter, des te grover.

Zoektermen
Probeer te denken welke termen in het document dat je wilt vinden zullen staan, denk aan spellingsvarianten, voeg synoniemen toe, denk aan truncatie (in Exalead). Maak gebruik van thesauri om het juiste woord te vinden, eventueel kun je ook van je tekstverwerker synoniemen te weten komen, gebruik slang, of kijk naar wat er gesuggereerd wordt.
Gebruik een proximity operator (NEAR bij Exalead) of een wildcard (* bij Google en Yahoo!) of een wildcard.
Weet wanneer je wel en wanneer je beter geen quootjes  om een phrase kunt zetten.
Bij systemen die Booleaans of probabilistisch werken kun je ongestraft meer termen invoeren (“any of the terms”).
Een methode is ook om een aantal termen op de sommen om zo generiek te zoeken.
De laatste paar maanden is er wat raars aan de hand met Yahoo! : ook dit keer hadden we een zoekactie waarvan het resultaat meer dan 10x zo groot was als Google, dat kan niet kloppen.

Leestekens en datum
Je kunt voorkomen dat een fuzzy zoekmachine trunceert door er “” omheen te zetten, of een + ervoor.
In Google  kun je  zoeken op een range: 100..200,  voor bedragen bijv ook met  $ ervoor: $100..$150 werkt wel, maar met de euro gaat het niet goed €100..€150 levert niet echt een goed resultaat.
Je kunt deze optie ook gebruiken om op jaartallen te zoeken:
1999..2008. Erg goed werkt het niet trouwens, want deze getallen staan misschien wel in de pagina maar hoeven helemaal niet op jaren te slaan.
Elke pagina heeft een datum wanneer deze is geïndexeerd en die wordt vaak genoteerd via de juliaanse kalender: daar valt op te zoeken bij Google met daterange: (biblioblogs daterange:2454251-2454830). Maar dan heb je dus wel de datum dat Google hem geïndexeerd heeft: dat wil dus helemaal niet zeggen dat dat ook de datum is waarop de pagina is gemaakt. Exalead heeft netjes een veld daarvoor.
Getallen werken net als woorden, maar gebruik als decimaal geen komma (=spatie), punt mag wel.
Zoeken naar leestekens zelf kan niet.

Backlinks
Wie verwijst er naar een bepaalde site? Dat zegt wat over die site. Daar kun je achter komen door bij Google of Yahoo! in het zoekvakje in te vullen:  link:nlbiblioblogs.pbwiki.com/ .
Uiteraard heeft Google Scholar, en in enige mate Google Books, ook een citatie optie: dat zijn ook backlinks.

Andere zoekmachines
In wezen bestaat Google tegenwoordig uit een groot aantal afzonderlijke zoekmachines: voor web, images, video, blogs (Jeroen wijst erop dat we uit blogs ook wetenschappelijk nieuws kunnen halen 😉 ), news, etc. Ze zijn lang niet allemaal opgenomen in de web module.
Er zijn nog wel metasearchmachines, maar eigenlijk raak je daarmee alle geavanceerde opties kwijt: gebruik ze om de speld in de hooiberg te vinden. Ixquick is er een uit Nederland die prijzen heeft gewonnen: ik vind hem er niet zo mooi uitzien, en bovendien zit Google er niet bij, maar je zou hem als aanvulling daarop kunnen zien. Zelf gebruik ik nog steeds bij voorkeur PolyMeta, maar ook maar heel zelden.
Als je zoekt naar plaatjes is het wel aan te bevelen om meer zoekmachines te gebruiken. Plaatjes zoeken blijft wel een probleem: misschien moet je het in de ”content based’ zoekmethode van  Tiltoma proberen, maar dat werkt ook lang niet perfect.
Echt gespecialiseerde zoekmachines zijn bijv Scirus (vink de Elsevier artikelen uit en je houdt websites over) en  Scientific Commons, of je kunt er zelf een maken met Google CSE, zoals onze nl biblioblogs (glim glim) .
En tot mijn schande was ik Intelways vergeten:  wat handig toch, al die opties bij elkaar, hij staat nu weer op mijn linkbalk!

Diepe / onzichtbare web
Er is veel meer onzichtbaar dan zichtbaar, ofwel klikkend dan zoekend.  Sommigen zeggen dat het zichtbare web maar 1% van het totaal is, andere schatten dat op 20%. Feit blijft dat het grootste deel niet zonder meer vindbaar is, en dat wil je ook niet. Stel je voor dat alle bibliotheekcatalogi in een Google zoekactie gevonden zouden worden:  dat kan dan beter afgevangen worden door een enkel resultaat in Worldcat bijv.
Kortgeleden is Deepdyve gelanceerd als diepe-web zoekmachine: dat is veelbelovend, maar op dit moment nog niet voldoende.
Zelf mag ik graag Science.gov gebruiken: die is erg goed tegenwoordig.

Google tips

  • zet bij de preferences de resultaten op 100: hoef je niet zoveel door te klikken
  • gebruik Booleaanse operatoren altijd met hoofdletters
  • je kunt in G wel Booleaanse operatoren binnen een phrase gebruiken “fiets OR rijwiel” meestal is dat niet toegestaan
  • de volgorde van de woorden is van invloed op de ranking
  • gebruik tijdens zoekactie meermalen hetzelfde woord om de ranking te beïnvloeden  (vgl “amsterdam amsterdam amsterdam bibliotheek” en “amsterdam  bibliotheek”)
  • taal instellen: via advanced search maar 1, doe dat dus bij voorkeur bij preferences: dan kun je er meer dan een nemen
  • zoek naar synoniemen door een ~ voor het woord te zetten: let wel, dat kan wel erg breed opgevat worden
  • searchwiki: als je ingelogd bent kun je zoekresultaten sorteren

Tot slot
Waarom dit nu  weer ‘masterclass’ genoemd?  Bij die term denk ik eerder aan een bekende muzikant die leerlingen laat voorspelen, en dat dan bespreekt …  Voor de muziek een goede term, maar in ons vak lijkt me niet: zeg maar gewoon cursus, of desnoods, workshop 🙂 . En ik kan hem aanbevelen.

September aan de hand van de Tweets

Laat een reactie achter

In september heb ik twee van mijn Twitter accounts samengevoegd tot een: eigenlijk ben ik gewoon te lui om mijn privé en werk uit elkaar te houden denk ik 😉 of ik werk altijd, dat kan ook natuurlijk.

Wat mij betreft waren er drie hoofdthema’s deze maand:

  1. Ik heb me enorm geamuseerd met Blip.fm: It’s like Last FM and Twitter had a baby 😉 : je leert veel nieuwe muziek kennen en communiceert met mensen all-over-the world..
  2. Wowter is begonnen met een blogkermis met als thema het bloggen zelf. Nu vind ik dat ‘blogkermis’ een raar woord, maar de gedachte is erg leuk en de meeste posts heb ik ook gelezen: een feest van herkenning
  3. Belangrijke aanwinst afgelopen maand was de Chrome browser van Google, maar die moet je downloaden, en daar ik over meerdere computers werk is dat onhandig, dus heb ik daar dan ook niets over te melden 😉 . Wel kan ik, als je met meerdere computers werkt, Symbaloo als startpagina aanbevelen: dat in combinatie met de toolbar van Conduit bijvoorbeeld zorgt dat je op alle computers eenzelfde toegang hebt.

Verder zijn onderstaande zaken in mijn Twitter filter blijven hangen:

Bibliotheekpraktijk:

Databases:

  • Ovid linkt in hun database naar de Full-text waar je toegang toe hebt, maar die noemen ze niet overal zo:  bij PsycBooks bijvoorbeeld heten de links ‘ Ovid PDF Database’ en daar kijk je snel overheen. Als je de links ook ‘Links’ wilt laten noemen, moet je de ‘Link Target Set’ aanpassen. Dat kun je zelf doen, maar moet je wel weten dat dat daar kan. Het heeft wel meteen effect. September 15, 2008
  • Een RSS feed op de Narcis kon je al een poosje maken, maar de  zoekresultaten waren onhandig te bekijken. Het geheel is beter geworden schreef ik op 12 September 2008, maar vandaag (5 oktober) zie ik dat er al een maand lang niets op is binnen gekomen… hum.
  • In Scopus mag je in veld ‘Authors’ geen 2 auteursnamen tegelijk intikken: het resultaat wordt dan 0, ook al zijn er artikelen waar beide auteurs aan hebben geschreven in de database.  … Raar eigenlijk om dan wel de meervoudsvorm voor de veldnaam te gebruiken. September 08, 2008
  • Bij Scopus kun je uiteenlopende naamsvarianten van jezelf bij elkaar laat schrapen en onder een ingang laat zetten, maar dan blijkt de H-index niet gelijk mee te lopen. Het duurt een hele tijd voor dat doorkomt. Antwoord van Elsevier: je kunt auteur gerust kunnen stellen dat zijn H-index toch niet is gezakt van 16 naar 9, maar eind september was nog steeds de juiste notering niet op alle plaatsen toegankelijk.  September 08, 2008

Lezen:

Wetenschap / citaties

Zoeken

Overige Internet tips

  • Listmixer lijkt me mooi ‘anti-clutter middel’: bewaart je bookmarks maar 30 dagen; zijn ze dan nog niet gelezen: dan worden ze verwijderd.  September 16, 2008
  • WIKINDX free bibliographic + quotations/notes management and article authoring syst. September 14, 2008
  • The Googling deel V is uit: , grappige serie filmpjes die Google maps op hak neemt (the vacationeers). September 14, 2008
  • Gmail ‘clipped’ lange mails. Als je ze dan Forward, zijn ze ook geclipt. En als je ze helemaal bekijkt, kun je niet Forwarden … 02:08 PM September 09, 2008
  • 23 en nog veel meer dingen (Stephen Abrams) is al van februari, maar toch nog wel de moeite September 05, 2008
  • Karin Blakeman heeft weer een nieuw lijstje met top 10 business research tips gepubliceerd: Twitter nu ook erbij. 08:27 AM September 05, 2008
  • 50 Ideas on Using Twitter for Business van Chris Brogan. September 12, 2008