Op 12 december 2008 heb ik, met 12 collega’s, de GO masterclass zoektechnieken gevolgd. Jeroen Bosman was de docent en hij deed het leuk, met een goede mix tussen plenaire sessies en hands-on oefenen: afwisselend eerst de theorie en daarna voor ieder een eigen computer met een aantal oefeningetjes.
Hoofdzaak
Natuurlijk weet ik best wel wat van zoektechnieken, van bestanden en zoekmachines, maar eigenlijk grijp ik in de dagelijkse praktijk teveel terug op Google en denk te weinig aan andere mogelijkheden. Van de anderen hoorde ik eenzelfde reden om deze cursus te volgen: verder denken dan alleen standaard Google.
Eigenlijk is dat ook van groot belang voor succesvol zoeken: het proces dat zich in je hoofd afspeelt!
De meeste zoekmachines en behandelde websites kende ik al, maar ik heb toch weer wat belangrijke zaken geleerd:
- Translated Search kende ik niet en daar ga ik nog een aparte post aan wijden,
- het enorme verschil dat op kan treden bij de wijze van aanpak, gebruik van en de toevoegingen aan zoektermen,
- een paar sites die ik al een poos niet gebruikt had heb ik opnieuw in ere hersteld,
- paar tips opgedaan voor manipuleren met termen die ik niet kende,
- gebruik van Thumbshots ranking als illustratie bij training in informatievaardigheden,
- het was goed er eens een hele dag mee bezig te zijn geweest.
en als huiswerk heb ik het dan hieronder samengevat, voor mezelf natuurlijk, en op verzoek van Laika en Wowter 😉 :
Zoekexpert
Een zoekexpert heeft kennis van het onderwerp, van bronnen en zoektools, weet met taal en logica om te gaan, en vooral: reflecteert op het eigen zoekproces.
Als zoekexpert hou je rekening met recall-killers (verkeerde bron, ontbrekende elementen, woordvariant- en spellingfouten) – en precision-killers (verkeerde termen, ontbrekende inhoudelijke relatie, metatags).
Je weet van webzoekmachines en hoe ze werken:
- dat de positie van je zoekterm op de pagina uitmaakt,
- dat de indexen gedistribueerd zijn opgeslagen,
- dat taal en land interfaces van enorme invloed zijn,
- evenals de taal of het land van de bron
- of de taal van de zoekvraag,
- net als eventueel bewaarde zoekacties als je ingelogd bent,
- en dat de resultaten in de loop van de tijd sterk kunnen afwijken.
Over deze taal en land afwijkingen had Karen Blakeman het ook tijdens de ILI2007 en deze onduidelijkheden worden de laatste tijd groter.
Kies bij voorkeur altijd voor de ‘Advanced Search’. Eigenlijk is dat de verkeerde naam: voor gebruik van een enkel zoekvakje moet je eigenlijk veel meer van het systeem weten, niet minder 😉 .
Webzoekmachines
Zoekmachines vertellen nooit hoe ze precies werken, ze laten ook niet meer dan 1000 hits zien.
Google indexeert nog steeds niet alles volledig: aan PDFs kun je soms via de in de cache opgeslagen html code zien tot hoever ze geïndexeerd zijn. Google herindexeert wel, maar eenmaal in de index opgenomen zullen PDFs niet snel opnieuw geïndexeerd worden.
Denk eraan dat er gezocht wordt in een pagina, niet in een website: een onderwerp kan verspreid over meerdere pagina’s staan, dat beïnvloedt het resultaat.
Dat de meesten van ons standaard Google gebruiken is niet erg: het is nog steeds de beste algemene zoekmachine, en de eerste keus in vele gevallen .
Meer dan 15% van de webpagina’s (let wel, dat is dus het zichtbare web) zit in geen enkele zoekmachine, Google komt maximaal aan ca 75%, de dekking is zeer ongelijkmatig. Via een website als Thumbshot ranking kun je zien hoe zoekvragen zich verhouden tussen de verschillende zoekmachines maar ook binnen een zoekmachine met lichtelijk afwijkende termen. Zoek maar eens naar: “climate change” vs “changing climate” alletwee in Google en kijk naar (het ontbreken van) de overlap, of vul twee woorden in omgekeerde volgorde in (bv China Netherlands vs Netherlands China): schokkend te zien hoe de ranking daarmee anders wordt . En de meeste mensen kijken niet verder dan de eerste paar pagina’s.
De grote aantallen die zoekmachines geven zijn schattingen: hoe groter, des te grover.
Zoektermen
Probeer te denken welke termen in het document dat je wilt vinden zullen staan, denk aan spellingsvarianten, voeg synoniemen toe, denk aan truncatie (in Exalead). Maak gebruik van thesauri om het juiste woord te vinden, eventueel kun je ook van je tekstverwerker synoniemen te weten komen, gebruik slang, of kijk naar wat er gesuggereerd wordt.
Gebruik een proximity operator (NEAR bij Exalead) of een wildcard (* bij Google en Yahoo!) of een wildcard.
Weet wanneer je wel en wanneer je beter geen quootjes om een phrase kunt zetten.
Bij systemen die Booleaans of probabilistisch werken kun je ongestraft meer termen invoeren (“any of the terms”).
Een methode is ook om een aantal termen op de sommen om zo generiek te zoeken.
De laatste paar maanden is er wat raars aan de hand met Yahoo! : ook dit keer hadden we een zoekactie waarvan het resultaat meer dan 10x zo groot was als Google, dat kan niet kloppen.
Leestekens en datum
Je kunt voorkomen dat een fuzzy zoekmachine trunceert door er “” omheen te zetten, of een + ervoor.
In Google kun je zoeken op een range: 100..200, voor bedragen bijv ook met $ ervoor: $100..$150 werkt wel, maar met de euro gaat het niet goed €100..€150 levert niet echt een goed resultaat.
Je kunt deze optie ook gebruiken om op jaartallen te zoeken: 1999..2008. Erg goed werkt het niet trouwens, want deze getallen staan misschien wel in de pagina maar hoeven helemaal niet op jaren te slaan.
Elke pagina heeft een datum wanneer deze is geïndexeerd en die wordt vaak genoteerd via de juliaanse kalender: daar valt op te zoeken bij Google met daterange: (biblioblogs daterange:2454251-2454830). Maar dan heb je dus wel de datum dat Google hem geïndexeerd heeft: dat wil dus helemaal niet zeggen dat dat ook de datum is waarop de pagina is gemaakt. Exalead heeft netjes een veld daarvoor.
Getallen werken net als woorden, maar gebruik als decimaal geen komma (=spatie), punt mag wel.
Zoeken naar leestekens zelf kan niet.
Backlinks
Wie verwijst er naar een bepaalde site? Dat zegt wat over die site. Daar kun je achter komen door bij Google of Yahoo! in het zoekvakje in te vullen: link:nlbiblioblogs.pbwiki.com/ .
Uiteraard heeft Google Scholar, en in enige mate Google Books, ook een citatie optie: dat zijn ook backlinks.
Andere zoekmachines
In wezen bestaat Google tegenwoordig uit een groot aantal afzonderlijke zoekmachines: voor web, images, video, blogs (Jeroen wijst erop dat we uit blogs ook wetenschappelijk nieuws kunnen halen 😉 ), news, etc. Ze zijn lang niet allemaal opgenomen in de web module.
Er zijn nog wel metasearchmachines, maar eigenlijk raak je daarmee alle geavanceerde opties kwijt: gebruik ze om de speld in de hooiberg te vinden. Ixquick is er een uit Nederland die prijzen heeft gewonnen: ik vind hem er niet zo mooi uitzien, en bovendien zit Google er niet bij, maar je zou hem als aanvulling daarop kunnen zien. Zelf gebruik ik nog steeds bij voorkeur PolyMeta, maar ook maar heel zelden.
Als je zoekt naar plaatjes is het wel aan te bevelen om meer zoekmachines te gebruiken. Plaatjes zoeken blijft wel een probleem: misschien moet je het in de ”content based’ zoekmethode van Tiltoma proberen, maar dat werkt ook lang niet perfect.
Echt gespecialiseerde zoekmachines zijn bijv Scirus (vink de Elsevier artikelen uit en je houdt websites over) en Scientific Commons, of je kunt er zelf een maken met Google CSE, zoals onze nl biblioblogs (glim glim) .
En tot mijn schande was ik Intelways vergeten: wat handig toch, al die opties bij elkaar, hij staat nu weer op mijn linkbalk!
Diepe / onzichtbare web
Er is veel meer onzichtbaar dan zichtbaar, ofwel klikkend dan zoekend. Sommigen zeggen dat het zichtbare web maar 1% van het totaal is, andere schatten dat op 20%. Feit blijft dat het grootste deel niet zonder meer vindbaar is, en dat wil je ook niet. Stel je voor dat alle bibliotheekcatalogi in een Google zoekactie gevonden zouden worden: dat kan dan beter afgevangen worden door een enkel resultaat in Worldcat bijv.
Kortgeleden is Deepdyve gelanceerd als diepe-web zoekmachine: dat is veelbelovend, maar op dit moment nog niet voldoende.
Zelf mag ik graag Science.gov gebruiken: die is erg goed tegenwoordig.
Google tips
- zet bij de preferences de resultaten op 100: hoef je niet zoveel door te klikken
- gebruik Booleaanse operatoren altijd met hoofdletters
- je kunt in G wel Booleaanse operatoren binnen een phrase gebruiken “fiets OR rijwiel” meestal is dat niet toegestaan
- de volgorde van de woorden is van invloed op de ranking
- gebruik tijdens zoekactie meermalen hetzelfde woord om de ranking te beïnvloeden (vgl “amsterdam amsterdam amsterdam bibliotheek” en “amsterdam bibliotheek”)
- taal instellen: via advanced search maar 1, doe dat dus bij voorkeur bij preferences: dan kun je er meer dan een nemen
- zoek naar synoniemen door een ~ voor het woord te zetten: let wel, dat kan wel erg breed opgevat worden
- searchwiki: als je ingelogd bent kun je zoekresultaten sorteren
Tot slot
Waarom dit nu weer ‘masterclass’ genoemd? Bij die term denk ik eerder aan een bekende muzikant die leerlingen laat voorspelen, en dat dan bespreekt … Voor de muziek een goede term, maar in ons vak lijkt me niet: zeg maar gewoon cursus, of desnoods, workshop 🙂 . En ik kan hem aanbevelen.
Vind ik leuk:
Vind-ik-leuk Laden...