Proximity operatoren

Laat een reactie achter

De nabijheidsoperatoren zijn een onderdeel van de relationele operatoren en veel minder bekend dan de  Booleaanse AND OR en NOT. Hoe staat het met deze proximity, welke zijn er en wie gebruikt wat?

Webopedia zegt:

A type of operator used by some search engines to improve search constraints by instructing the search to look for words that are within a short distance of each other in a document. For example, using a search engine that supports proximity operators, querying the phrase “cable NEAR modem” will instruct the search engine to look in documents for instances of the words “cable” and “modem” that are near each other. Different search engines will specify different distances that the words must be within.

Het gaat dus om niet alleen om de verhouding tussen meerdere zoektermen -hoe dicht staan ze bij elkaar-  maar ook of de volgorde uitmaakt.
Je komt ook wel de term  Adjacency (ADJ)  of NEAR operator tegen. Meestal is er een maximum aan het getal dat je kunt gebruiken om te zeggen hoeveel woorden ertussen mogen staan (Pandia: the NEAR operator) : de getallen ertussen betekenen soms “tot en met”  (Picarta) en andere keren weer “tot” (Ovid).
Soms  kun je tekens (koppelteken, apostrophe, komma of punt) ook als ADJ zien, nl als ze midden in een woord voorkomen. Dat hangt wel van de vertaaltabel van de database af.
Bij NEAR – soms zelfs bij WITHIN- is meestal de volgorde niet van belang, maar niet elke database ziet dat zo, dus daar kun je niet van uitgaan.

Over het algemeen zoek je met deze operatoren in hetzelfde veld: je kunt dus geen auteur en woord uit de titel -als die in verschillende veldne staan tenminste- met elkaar matchen op deze manier,  en stopwoorden en interpunctie worden niet meegeteld bij het aantal tussenwoorden dat je opgeeft.

CCL

Maakt gebruik van de symbolen !  (volgorde maakt uit) en % (volgorde maakt niet uit) al dan niet in combinatie met een getal:

  • dogs !5 cats (eerst dogs dan max 5 woorden, dan cats)
  • dogs % cats (dogs en cats voor of na elkaar met niets ertussen)

CQL

Maakt gebruik  van de operator “prox”  “adj”  en ‘within” maar in de vorm zoals ze het beschrijven – ADJ “heart attack”- zie je het als eindgebruiker meestal niet, is echt computer taal. Het aantal woorden ertussen kun je vastleggen in je vraag.

——————————–

Tot zover over de standaarden: hoe is het in het gebruikt? Het is een ratjetoe!
Er zijn een paar handige sheets van bibliotheken beschikbaar die er een duidelijk overzichtje van geven zoals deze Truncation and proximity van de  Colorado State universities .

Ovid SP gebruikt Adjacent Adj (in de advanced mode) met een max van 2-99 woorden ertussen:

  • Volgorde maakt niet uit
  • Syntax: ADJ5 (nb er kunnen dus 0 – 4 woorden tussen staan)
  • Vb: dogs ADJ5 cats

Picarta heeft het toch een kunst verheven: ik neem de helptekst maar min of meer integraal op

  • ?, * willekeurig aantal woorden er tussen; van links naar rechts.
    VB: gebruik ? drugs vindt ‘gebruik van drugs’, maar ook ‘gebruik van verschillende soorten drugs’.
  • #  nul of één woord; van links naar rechts
    VB:  gebruik # drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • ! t één woord;  van links naar rechts.
    VB  gebruik ! drugs vindt ‘gebruik van drugs’, maar niet ‘gebruik van verschillende soorten drugs’.
  • %  woordvolgorde niet is aangegeven.
    VB: john % kennedy vindt ‘John Kennedy’, maar ook ‘Kennedy, John’. Zorgt ervoor dat een operator die standaard van links naar rechts zoekt, tevens van rechts naar links kan zoeken. Bijvoorbeeld : john #% kennedy vindt niet alleen John Kennedy en John F. Kennedy, maar ook Kennedy, John en Kennedy, John F.
  • BIJ, NEAR, ~  1e zoekterm binnen drie woorden van de volgende zoekterm wordt aangetroffen; zoekt twee richtingen op.
    VB: geld BIJ uitgeven twee of minder woorden ertussen
    Vb: geld BIJ/3 uitgeven drie of minder woorden

Web of Science / BIOSIS

Gebruikt SAME en SENT, ze doen hetzelfde. Het is wel volstrekt on-intuïtief als je dat zo moet intikken 😉

  • Volgorde niet van belang
  • Vb: dogs same cats

Scopus gebruikt Precedes by (PRE) en Within (W)

Met een max van 255 woorden ertussen, 0 mag ook, getal is ook echt het aantal woorden dat ertussen mag.  Niet in combinatie met Booleaanse operatoren.

Precedes by: 1e woord gaat vooraf aan het tweede

  • Syntax: PRE/5
  • Vb: dogs PRE/5 cats
  • heart PRE/0 = “heart attack”

Within: volgorde maakt niet uit.

  • Syntax W/5
  • Vb: dogs W/5 cats

Worldcat

Kent geen proximity search in de webversie,  via connexion client wel:

Type proximity operators with (w) or near (n) with numbers (1 to 25) to find multiple terms in one index that have a specified number of intervening words.

—————————————

Zie verder

Maskeren oftewel middentruncatie

Laat een reactie achter

“Iets of niets” dat is de vraag bij het maskeren, ofwel: een maskeringsteken hoort voor 0  of 1 teken te staan in mijn ogen. Maar is dat wel zo? Hoe hoort het eigenlijk? Even op onderzoek uit…

Maskeren -ook wel middentruncatie genoemd- en trunceren zijn beiden ‘wildcards’ ofwel jokers en worden nogal eens door elkaar gebruikt. En er worden ook dezelfde tekens voor gebruikt: #  $  ?  * :  sommigen noemen ook een % maar die laatste (%) ben ik als wildcard niet tegengekomen, wel als proximity operator.

Trunceren =

  • het deel aan het uiteinde van een woord vervangen door een teken dat staat voor alles wat erna (resp ervoor) kan komen.
  • er bestaat rechtstruncatie (alles wat erachter komt) en linkstruncatie (alles wat ervoor komt)
  • dat laatste zie je minder en kost vaak ook meer tijd
  • Vb: bibliot?
  • ?bibliotheek

Maskeren =

  • het vervangen van 1 letter door 0 of 1 teken dat van alles kan betekenen midden in een woord
  • de meeste systemen staan “0 of 1” teken toe
  • sommige systemen staan  precies 1 teken toe, geen 0
  • sommige systemen staan toe dat je dat teken herhaald: voor elke letter moet je dan het symbool zetten
  • soms betekent het symbool ‘alle tekens die ertussen kunnen’
  • Vb: wom#n

CCL:

Ooit werd hoe het hoort vastgelegd in de  Common Command Language (CCL) (Wikipedia duitse versie), waaruit in 1993 de ISO 8777 volgde en in 2004 de Common Query Language ook wel Contextual Query language CQL genoemd.  In die CCL worden allerlei commando’s  vastgelegd, ook de wildcards.
Zoals ik over truncatie al heb geroepen, vult elk systeem dat helaas weer anders in, maar volgens de universele richtlijnen van de CCL is de standaard voor truncatie een ? en voor maskeren een # . En als je de duitse wiki mag geloven, staat die maskering voor 0 of 1 teken, en niet voor 1 teken precies, zoals vaak aangehaald. Dat “1 teken precies” wordt dan aangegeven met een uitroepteken (!). De ISO 8777   is helaas niet full-text op ’t net, dus ik kan niet nakijken of het daar ook in staat, maar ik vermoed van niet (kan iemand erbij? Geef t even door svp).
Koha heeft een uitgebreid verhaal over de CCL, maar heeft vreemd genoeg als truncatie dan weer een * ingevoerd.
CCL is dus:

  • ? =  alles
  • # = 0 of 1 teken
  • ! = 1 teken

CQL:

De CQL is een systeem dat probeert CCL en SQL te combineren. Op de CQL homepage (van de LoC) wordt niets over trunceren / maskeren gezegd, maar in Pattern Matching’ van A gentle introduction to CQL wordt aangegeven hoe de wildcards  er uit zien:

  • ? = 1 teken
  • * =  alles
  • mogen overal voorkomen en herhaald worden
  • Vb: ?in?s*r

Mooi is dat … hebben we 2 afwijkende standaarden: geen wonder dat allerlei systemen dat anders aanpakken.

————————————–

Wat doen de grote databases  trouwens? (T = trunceren M = maskeren)

Ovid (PsycInfo):

Ovid heeft een uitgebreide helptekst, en hier zie ik weer een nieuwe, die je bij Worldcat ook terugvindt:

Limited truncation specifies a maximum number of characters that may follow the root word or phrase. For example, the truncated search dog$1 retrieves results with the words dog and dogs; but it does not retrieve results with the word dogma

In hun lijstje truncatie symbolen zie ik er ook een die ik nog niet eerder als truncatieteken was tegengekomen:  een  colon (:). Je mag nu al deze truncaties ook bij auteurs gebruiken.

  • T = $  *   :
  • M = ? 0 of 1
  • M = # 1 teken, mag vaker gebruikt, moet meer dan 1 letter aan vooraf gaan:
  • Vb: wom#n mag, d#g niet
  • wagenaar*.au.

Pica

Picarta heeft vrij op t net een oude tekst zoekhulp met info over wildcards (handleiding) maar binnen Picarta is deze tekst aangepast.  (update 16/1: op t net staat ook een nieuwere:  Picarta handleiding zoeken)

Binnen een zoekterm kunnen wildcards gecombineerd worden.

  • T = ? en *
  • M= ! 1 teken
  • M= #  0 of 1 teken
  • M = ? en * vervangt dan alle letters (je mag geen aantal toevoegen)
  • Vb: spa#n,g?
  • Vb: gebruik! vindt gebruikt, maar niet gebruik of gebruiker.
  • micro?p* vindt microcomputer, microscope, microprocessor, etc.
  • micro!p* vindt microsphere, microoptics, etc
  • 199#

Worldcat:

Search help (zoek voor Wildcards) / Quick reference card.

  • T = ? en *  je mag er ook cijfer aan toevoegen dat aantal te vervangen letters aangeeft
  • M= ! 1 teken (uitzetten rechtstruncatie: kan ik niet op de referencecard terugvinden, maar werkt wel)
  • M= #  1 teken
  • M = ? met aantal te vervangen letters
  • Vb: bu?2er = butterfly, burner
  • Vb: colo?1r = color, colour, maar niet colonizer

Scopus:

Only one wildcard can be included in a single term”

  • T = * (links en rechts)
  • M = ? 1 teken
  • M = * 0 of 1
  • Vb: he*moglobin vindt hemoglobine, haemoglobin maar ook hemidemiphosphorylmontotremoglobin

WOS:

  • T = *
  • M = ? 1 teken
  • M = $ 0 of 1

Mijn  eigen bibliotheeksysteem volgt de ISO 8777 met als gevolg dat een ? staat voor een truncatie, een # voor 1 teken als maskering.
0 of 1 kan in mijn syteem niet met een # : en daar kom ik weer met het colour/ color probleem. Ze hebben voor dezelfde oplossing gekozen voor dat “niets of iets” als Scopus, maar dan met een ? middenin het woord.
Maar dan vind je ook alles wat ertussen kan, dus

colo?r = color, colour, colorectal,  colonoscopistentekort ( ivm automatische rechtstruncatie)

en daar kan ik niet tegen … dus heb ik onze leverancier gevraagd er iets aan te doen: maak van # de keuze uit 0 of 1,  of verzin iets anders desnoods, maar die ? middenin een woord is niet handig.
Wat vinden jullie?

———————

Zie verder:

Enkele of dubbele aanhalingstekens in een phrase?

Laat een reactie achter

Als je zoekt met een phrase gebruik je aanhalingstekens om te zeggen dat meerdere woorden bij elkaar horen, bijvoorbeeld “motion sickness“. Als je die quootjes er niet omheen zet, zoekt de machine meestal op voorkomen van de losse woorden en wordt je set veel groter met veel onzin items erbij (ruis).

Maakt het uit of je enkele of dubbele aanhalingstekens gebruikt? Maakt het verschil of je zoekt op ‘motion sickness’ of “motion sickness” ?
Of de losse woorden zonder quootjes eromheen?
En wat als het om motion-induced sickness gaat?
Ik ga maar weer eens op zoek:

Google
In alle gevallen vind je in google.nl meer dan 9 miljoen hits. Dubbele of enkele/geen maakt wel zo’n 400.000 hits uit, maar wat maakt dat uit op die hoeveelheid 😉 .
In de google.com versie vind je er net zoveel, maar daar krijg je er ‘refine’ opties bij.

OvidSP PsycInfo 2000 – nu.
In de Basic search maakt het niet uit of je al dan niet quootjes gebruikt, en vind je er 172.
In de Advances Search (mapping uitgezet) ook niet, en vind je er 180.
Het zijn er inderdaad 8 meer, en die 8, dat is wel interessant, haalt hij uit de Key-concepts en de literatuurlijst. Dat wil dus zeggen dat de Key concepts niet doorzocht worden in de Basic Search, en dat is geen goede zaak 😦 : daar staan immers de kernwoorden van het artikel in! Positief is wel dat het in alle gevallen als een phrase wordt herkend, of het moet toeval zijn bij deze zoekactie.
In deze jaren komt ‘motion-induced sickness’ niet voor, wel als ik de jaren uitbreid. Dan vind ik er 4, waarvan 2 unieke, en die twee zijn wel relevant. Een van de twee heeft geen verbindingsstreepje, de andere wel, maar wel of geen koppelteken is voor Ovid geen probleem.

Basic search alle drie: 172
Advances search: alle drie: 180

Picarta
Enkele of dubbele aanhalingstekens maakt niet uit, maar zonder krijg je wel een heleboel … ‘Motion-induced sickness’ kwam hier helemaal niet voor trouwens.

3 390
zoeken [of](alle woorden)“motion sickness”
2 390
zoeken [of](alle woorden)‘motion sickness’
1 56709
zoeken [of](alle woorden)motion sickness

Scopus:
Het gebruiken van enkele tekens is hetzelfde als het weglaten ervan: gebruik van dubbele aanhalingstekens maakt wel uit. Binnen een phrase kun je sowieso niet trunceren, als we al eerder gezien hebben, dus theoretisch zou je ‘Motion-induced sickness’ ook niet vinden, maar dit komt in Scopus niet voor zonder dat ‘Motion sickness’ zelf voorkomt.

3. TITLE-ABS-KEY(“motion sickness”) 2.855
2. TITLE-ABS-KEY(‘motion sickness’) 2.991
1. TITLE-ABS-KEY(‘motion sickness’) 2.991

Web of Science: SSCI, A&HCI 1945-2007
Hierbij hoor je ook dubbele aanhalingstekens te gebruiken. In WoS zoekt de Topic search op de combinatie van woorden in Titel, Keywords en Abstract. De niet als frase gevonden titels zijn meestal niet relevant, maar je vindt soms ook ‘motion-induced’ sickness’ en dat hoort er wel bij. Die heb je dus niet met de andere acties gevangen.

4. 71 Topic=(motion sickness) not Topic=(“motion sickness”) 71
3. 1610 Topic=(“motion sickness”)
2. 1681 Topic=(‘motion sickness’)
1. 1681 Topic=(motion sickness)

Pikant detail
Een van de ‘motion-induced sickness’ titels heeft wel ‘motion sickness’ als trefwoord. Scopus en Ovid PsycInfo herkennen dat wel, WoS niet, terwijl WoS wel zegt ook in de Keywords te zoeken: maar daar bedoelen ze dus niet de Subject headings mee! Het gaat om deze titel:

Author(s): ARWAS, S; ROLNICK, A; LUBOW, RE
Title: CONDITIONED TASTE-AVERSION IN HUMANS USING MOTION-INDUCED SICKNESS AS THE US
Source: BEHAVIOUR RESEARCH AND THERAPY, 27 (3): 295-301 1989
ISSN: 0005-7967

Conclusie:
Bij het ene systeem worden enkele en dubbele tekens als elkaars gelijke gezien, en bij het andere systeem worden enkele aanhalingstekens gelijk gesteld aan geen quootjes. Het wordt de gebruiker toch echt niet gemakkelijk gemaakt!

Vergeet Alzheimer’s niet met zoeken

Laat een reactie achter

Behalve een apostrof in een auteursnaam, heb je hem hem ook in onderwerpen. Bij de auteur maakte het niet veel uit zagen we, maar bij onderwerpszoeken buiten een thesaurus om?
Aan ‘Sjögren’s Syndrome’ zal ik me niet wagen: dan heb je teveel variabelen :-).

Maar “Alzheimer’s disease”, dat moet lukken 🙂 .
De vraag is dus: maakt het zoeken op Alzheimer’s met en zonder apostrof uit?

Zoektermen in de titel en/of abstract: alzheimer, alzheimer’s, alzheimers, en voor de volledigheid ook maar getrunceerd: alzheimer*, alzheimer? of alzheimer$

Picarta: (titelwoorden)

17106 alzheimers
17106 alzheimer’s
23573 alzheimer
23815 alzheimer?

Google Scholar: (geavanceerd zoeken in de titel: allesintitel)

alzheimers 824
alzheimer’s 227.000
alzheimer 476.000
alzheimer* 449.000

Scopus: (titel, abstract, keyword)

alzheimers 371
alzheimer’s 48.656
alzheimer 61.447
alzheimer* 61.568

Web of Science: hier maakt het ook nog eens veel uit of je een Topic Search doet, of het beperkt tot de Titel (TI)

7 / 4207 alzheimers TI/TS
2124 / 4298 alzheimer’s TI /TS
2739 / 5426 alzheimer TI / TS
2746 / 7968 alzheimer* TI/TS

Ovid: (.mp in Psycinfo)

9084 alzheimers
9084 alzheimer’s
2116 alzheimer
9304 alzheimer$

Conclusie: bij zoeken op onderwerp (titelwoorden) maakt de apostrof wel degelijk verschil, behalve bij Picarta en Ovid.
Google Scholar leverde vandaag trouwens wel het dieptepunt in het zoeken naar alzheimer van de laatste paar dagen: 427.00 waren dat er ‘maar’. Voordeel was wel dat het twee seconden later weer 432.000 waren .

Mogen meer spaties in een phrase?

2 Reacties

Ik beken: ik ben een slordige typiste. Vorige week typte ik per ongeluk twee spaties tussen twee woorden in een phrase-zoekactie: daarna bedacht ik dat het aardig zou zijn om eens te bekijken of dat bij verschillende databases eigenlijk een probleem is.

Dus een voorbeeldje: “night vision” met een of twee spaties ertussen: maakt het verschil?

  • scopus: nee
  • web of science: nee
  • picarta: nee
  • google scholar: nee
  • ovid (PsycInfo): nee

Aanvankelijk gaf Google een verschil van 100 items aan, maar dat bleek niet aan de terminologie, maar aan de tijd te liggen: in een paar seconden bleken er ineens 100 meer te zijn. En dat bleef verder zo, ook een paar dagen later.

Is een auteursnaam met een apostrof een probleem?

Laat een reactie achter

Kan een apostrof in een naam ook voor problemen met zoeken zorgen? Taalavies.net zegt dit: over het gebruik van apostrof.

Een voorbeeld titel:

Generalizability Theory II: Application to perceptual scaling of speech naturalness in adults who stutter. S. O’Brian, A. Packman, M. Onslow, N. O’Brian. Journal of Speech, Language, and Hearing Research. Volume 46, Issue 3, June 2003, Pages 718-723

Hoe zoek je O’brian: met apostrof of aan elkaar vast? En vind je hem dan?

  • Scopus: zoeken O’brian of Obrian geen probleem
  • Ovid (PsycInfo): schrijft Obrian aan elkaar vast in de index, ook als je het met apostroph zoekt. Geen probleem dus. Notatie in resultaat is wel goed
  • Google Scholar: zoeken O’brian of Obrian geen probleem
  • Web of Science: O’brian wordt wel gevonden, Obrian niet. Maar zoekexample bovenaan de ‘ general search’ is ook: zoek O’brien OR Obrien
  • (toegevoegd:) Picarta: via zoeken in ‘alle velden’: geen probleem

Op de vraag of het een probleem is, is het antwoord dus: nee 🙂 .

(Behalve dan in Adlib en X-ref: daar maakt het wel uit)

Hoe vind je Müller?

Laat een reactie achter

Diakrieten zijn altijd lastig. Sommige systemen hebben bijzondere oplossingen om ermee om te gaan: DARE bijvoorbeeld alfabetiseert ze apart, en bij Europmaat van de SDU moet je een joker inzetten 🙂 maar voor een goed zoeksysteem hoort ‘boven of onder de streep’ niet mee te tellen bij een zoekactie.

Een umlaut verlengt een klank en kan (bijv) met een ü een u of een ue geschreven worden en in dat laatste geval heb je er een extra karakter bij.
Wat is het gevolg daarvan voor zoeken op Müller in diverse spellingvarianten?

Ik ben eens gaan kijken in een paar grote systemen met twee vragen:

1. Maakt het verschil of je zoekt op een van deze twee vormen:

Kröller-Müller
Kroller-Muller

2. Als je een titel, waarvan je weet dat hij erin staat, opnieuw gaat zoeken met achtereenvolgens drie variaties van de auteursnaam, vind je ze dan terug in het zoekresultaat?
Bijv deze titel ‘Visual search for size-defined target objects is modulated by the Ebbinghaus apparent-size illusion : Facilitatory and inhibitory effects of the context objects. Müller, Hermann J.; Busch, Astrid / In: Perception; vol. 35 (2006), afl. 5, pag. 671-700 (30) / 2006, vind je die terug als je zoekt met achtereenvolgens:

Müller, Hermann J (evt HJ)
Mueller, Hermann J (evt HJ)
Muller, Hermann J (evt HJ)

(+ wil zeggen gevonden – is niet gevonden)

Scopus: bij zoekactie 1 vind je bij beide varianten dezelfde titel. De Muller variatie met en zonder umlaut komt voor onder een auteursnaam: via de Author search zo gevonden. Ook in de zoekacties werkt het goed uit: zelfs zoeken op Mueller, die niet bij de auteursvarianten in de Author identifier staat, komt met dit artikel!

TITLE-ABS-KEY(kroller-muller) 1
TITLE-ABS-KEY(kröller-müller) 1

+ Müller, Hermann J
+ Mueller, Hermann J
+ Muller, Hermann J

Picarta: zoekactie 1 geeft maar een klein verschil:

484 zoeken [of] (alle woorden) Kroller-Muller
474 zoeken [of] (alle woorden) Kröller-Müller
484 Kroller-Muller OR Kröller-Müller
10 Kroller-Muller NOT Kröller-Müller

+ Müller, Hermann J
– Mueller, Hermann J
+ Muller, Hermann J

Ovid (PsycInfo): Wel Kroller-Muller gevonden, maar Kröller-Müller wordt niet geaccepteerd als term. Ook Müller als auteur niet. In de auteurindex komt wel Mueller als naam voor, maar niet Hermann J.

– Müller, Hermann J
– Mueller, Hermann J
+ Muller, Hermann J

Web of Science: Wel Kroller-Muller gevonden, maar Kröller-Müller wordt niet geaccepteerd als term. Ook Müller als auteur niet. In de auteurindex komt wel Mueller als naam voor, soms ook als HJ, en over hetzelfde onderwerp, maar niet dit artikel! (NB: M*ller HJ vindt hem wel :-))

7 kroller-muller (topic field / general search)

– Müller, Hermann J
– Mueller, Hermann J
+ Muller, Hermann J

Google Scholar: voor zoekactie 1 maakt het wel degelijk verschil, dat had ik voor Google eigenlijk niet verwacht.

162 Kröller-Müller
117 Kroller-Muller
151 Kröller-Müller -Kroller-Muller
268 Kröller-Müller OR Kroller-Muller

De naamsvarianten in Google gezocht op auteur + jaar + subject (NB met titelwoorden erbij vindt hij ze alledrie)
+ Müller, Hermann J
– Mueller, Hermann J
+ Muller, Hermann J