Context-Sensitive Ranking Using Cross-Domain Knowledge for Chemical Digital Libraries . Benjamin Kohncke and Wolf-Tilo Balke
Today, entity-centric searches are common tasks for information gathering. But, due to the huge amount of available information the entity itself is often not sufficient for finding suitable results. Users are usually searching for entities in a specific search context which is important for their relevance assessment. Therefore, for digital library providers it is inevitable to also consider this search context to allow for high quality retrieval. In this paper we present an approach enabling context searches for chemical entities. Chemical entities play a major role in many specific domains, ranging from biomedical over biology to material science. Since most of the domain specific documents lack of suitable context annotations, we present a similarity measure using cross-domain knowledge gathered from Wikipedia. We show that structure-based similarity measures are not suitable for chemical context searches and introduce a similarity measure combining entity- and context similarity. Our experiments show that our measure outperforms structure-based similarity measures for chemical entities. We compare against two baseline approaches: a Boolean retrieval model and a model using statistical query expansion for the context term. We compared the measures computing mean average precision (MAP) using a set of queries and manual relevance assessments from domain experts. We were able to get a total increase of the MAP of 30% (from 31% to 61%). Furthermore, we show a personalized retrieval system which leads to another increase of around 10%.
Veel informatie maar hoe krijg je die in een vraagstelling.
Methoden van onderzoek :
CAS heeft hoge kwaliteit, maar kost ook veel in onderhoud.
PubChem: Chemical entities data.
Veel gelijkenis in resultaten, vaak op fingerprint gebaseerd.
Hun achtergrond zorgt vaak voor een bepaalde search context.
Clusteren van die Chemical entities in een bepaalde context.
Als ze al geannoteerde waren – zoals MeSH- zou dat mooi zijn, maar in chemische domein is dat er niet.
We hebben wel Full – text, dat zou je kunnen filteren, maar dat werkt niet erg goed.
Vanuit Wikipedia hebben ze een profiel met chemische termen (er waren er 721) gehaald.
En op based daarvan een similarity measure gedaan voor 10% van de queries.
Daar nog wat andere meetmethoden aan toegevoegd om de personalisatie toe te voegen.
De entity en de termen in Wikipedia vergeleken.
Over 44k klinische studies onderzoek gedaan.
92% vonden ze toch in Wikipedia.
Met de Chemical entities werden de zoekacties 30 – 40 procent beter.
Leunt zwaar op de computing, maar veel van deze dingen kunnen preprocessed worden zodat de gebruiker alleen de zoektermen hoeft in te voeren. De personalisatie dient wel aangepast, dus als je een van hen in de buurt heb, of iemand die dat kan, dan is dat mogelijk.