wsdm 2017

Utilizing Knowledge Bases in Text-centric Information Retrieval (WSDM 2017)

The past decade has witnessed the emergence of several publicly available and proprietary knowledge graphs (KGs). The increasing depth and breadth of content in KGs makes them not only rich sources of structured knowledge by themselves but also valuable resources for search systems. A surge of recent developments in entity linking and retrieval methods gave rise to a new line of research that aims at utilizing KGs for text-centric retrieval applications, making this an ideal time to pause and report current findings to the community, summarizing successful approaches, and soliciting new ideas. This tutorial is the first to disseminate the progress in this emerging field to researchers and practitioners.

Utilizing Knowledge Bases in Text-centric Information Retrieval (ICTIR 2016)

General-purpose knowledge bases are increasingly growing in terms of depth (content) and width (coverage). Moreover, algorithms for entity linking and entity retrieval have improved tremendously in the past years. These developments give rise to a new line of research that exploits and combines these developments for the purposes of text-centric information retrieval applications. This tutorial focuses on a) how to retrieve a set of entities for an ad-hoc query, or more broadly, assessing relevance of KB elements for the information need, b) how to annotate text with such elements, and c) how to use this information to assess the relevance of text. We discuss different kinds of information available in a knowledge graph and how to leverage each most effectively.
Continue reading “Utilizing Knowledge Bases in Text-centric Information Retrieval (ICTIR 2016)” »

Semantic TED

Multilingual Semantic Linking for Video Streams: Making “Ideas Worth Sharing” More Accessible

Semantic TEDThis paper describes our (winning!) submission to the Developers Challenge at WoLE2013, “Doing Good by Linking Entities.” We present a fully automatic system – called “Semantic TED” – which provides intelligent suggestions in the form of links to Wikipedia articles for video streams in multiple languages, based on the subtitles that accompany the visual content. The system is applied to online conference talks. In particular, we adapt a recently proposed semantic linking approach for streams of television broadcasts to facilitate generating contextual links while a TED talk is being viewed. TED is a highly popular global conference series covering many research domains; the publicly available talks have accumulated a total view count of over one billion at the time of writing. We exploit the multi-linguality of Wikipedia and the TED subtitles to provide contextual suggestions in the language of the user watching a video. In this way, a vast source of educational and intellectual content is disclosed to a broad audience that might otherwise experience difficulties interpreting it.

  • [PDF] D. Odijk, E. Meij, D. Graus, and T. Kenter, “Multilingual semantic linking for video streams: making "ideas worth sharing" more accessible,” in Proceedings of the 2nd international workshop on web of linked entities (wole 2013), 2013.
    [Bibtex]
    @inproceedings{WOLE:2013:Odijk,
    Author = {Odijk, Daan and Meij, Edgar and Graus, David and Kenter, Tom},
    Booktitle = {Proceedings of the 2nd International Workshop on Web of Linked Entities (WoLE 2013)},
    Date-Added = {2013-05-15 14:09:58 +0000},
    Date-Modified = {2013-05-15 14:11:37 +0000},
    Title = {Multilingual Semantic Linking for Video Streams: Making "Ideas Worth Sharing" More Accessible},
    Year = {2013}}
linking open data datasets

Zoekmachines van de toekomst

Er bestaat enige discussie over wat de logische opvolger zal zijn van web 2.0, waarin user-generated content, het delen van informatie en interoperabiliteit centraal stonden. Hoewel meer ideeën de ronde doen, is er veel steun voor het idee web 3.0 gelijk te stellen aan het semantische web. Het sturende idee achter het semantische web is dat alle dingen op internet worden beschreven in speciale talen, zodat computers de informatie die ze aantreffen kunnen ‘begrijpen’. Een object kan bijvoorbeeld gekenmerkt worden als onderdeel van een voertuig, als persoon of als een fysieke plek op aarde. Zodra objecten op een dergelijke manier worden gekarakteriseerd, ontstaat een gigantisch netwerk van ‘linked data’ en kunnen computers verrassende en nuttige links ontdekken, die wellicht nooit door mensen ontdekt zouden zijn. Dit heeft de potentie een compleet nieuwe vorm van kunstmatige intelligentie mogelijk te maken.

Full coloured LOD cloud

Linking Open Data cloud diagram; datasets met gestructureerde computerleesbare data en daartussen aangebrachte links.

Maar zover zijn we nog (lang) niet. Er zijn een hoop redenen aan te dragen waarom het semantische web uit de visie van Berners-Lee het niet zal redden. Een van de belangrijkste redenen is het feit dat veelal een enkele centrale ontologie (‘model van de wereld’) wordt verondersteld. Ook is nog niet onomstotelijk vastgesteld dat dergelijke technieken werken in de open omgeving van het web. In specifieke omgevingen, toepassingen en taken worden successen behaald, maar deze vertalen zich nog niet naar breed toepasbare initiatieven. Desondanks bestaat er inmiddels een groeiende ‘wolk’ van datasets met machine-leesbare gegevens, die onderling gekoppeld worden (‘linking open data’ of LOD). Die wolk kan ingezet worden als semantische ruggengraat om allerhande taken aan te pakken.

Een andere reden is het feit dat bij alledaagse gebruikers van het web weinig animo bestaat om deel te nemen aan het toekennen van metadata aan objecten. We zijn dusdanig gewend geraakt aan het gebruik van zoekmachines om een weg door het web te vinden, dat geen dringende reden bestaat om bij te dragen aan de ontwikkeling van het semantische web––los van informele, ‘lichtgewicht’ semantiek in de vorm van persoonlijke bookmarks/tags of simpele annotaties op webpagina’s.

Onder de motorkap

Waar we inmiddels wel steeds meer voorbeelden van zien is het inzetten van semantiek in het zoekproces, bijvoorbeeld verkregen uit LOD.1 Wat houdt dat dan in? Recente ontwikkelingen maken het mogelijk dat computers begrijpen welke concepten gebruikt worden in stukken tekst, zoals webpagina’s, zoekmachine queries, tweets, et cetera. Dit begrijpen houdt niets meer in dan het linken van (delen van) tekst aan meer gestructureerde informatie––veelal in de vorm van zogenaamde entiteiten zoals je die bijvoorbeeld vindt in LOD.

Een veelvoorkomende definitie van een ‘entiteit’ omvat personen, bedrijven, producten, locaties, et cetera. Oftewel, alles wat een eigen Wikipedia pagina kan hebben. Exaleads zoekmachine voor Wikipedia geeft een goed voorbeeld van entiteiten. Zodra je daar een query intypt haalt de zoekmachine entiteiten op die gerelateerd zijn aan de query, die je vervolgens op een interactieve manier kan gebruiken om de resultaten aan te passen aan datgene wat je voor ogen had. In zekere zin is dit een moderne variant van faceted zoeken, waarbij metadata behorende bij of geëxtraheerd uit zoekresultaten, worden geanalyseerd en weergegeven, teneinde de zoekresultaten interactief te verbeteren. Een van de meest bekende voorbeelden hiervan is te vinden bij allerhande online winkels, waar je één of meer categorieën kan selecteren om de gevonden producten in te perken.

Wikipedia is uitgegroeid tot een aanzienlijke kennisbron en het aantal Wikipediapagina’s blijft nog steeds gestaag groeien. Een van de interessante eigenschappen van Wikipedia in de context van semantische zoekmachines is dat iedere entiteit geassocieerd is met een door mensen bewerkte beschrijving, zodat ze makkelijk gevonden en beschreven kunnen worden. Ook bevat Wikipedia structurele informatie in de vorm van (1) categorieën, (2) hyperlinks tussen artikelen en (3) infoboxes en sjablonen. Infoboxes zijn de elementen die bij sommige Wikipedia-artikelen aan de rechterhand worden weergegeven en vaak semi-gestructureerde informatie bevatten. Hetzelfde ‘soort’ Wikipedia-artikelen heeft veelal hetzelfde soort infoboxes, zoals steden, zangers, et cetera. Sjablonen lijken hier enigszins op en bevatten ook gestructureerde informatie die specifiek is voor een bepaald soort onderwerp, zoals medicijnen of vliegvelden. DBpedia is een initiatief dat als doel heeft deze informatie automatisch uit Wikipedia te extraheren en beschikbaar te stellen in LOD. Door zijn algemene aard speelt DBpedia hier een centrale rol.

Voorbeeld van Fietstas annotaties

Voorbeeld van Fietstas annotaties.

Methoden die tekst kunnen linken aan entiteiten gebruiken in belangrijke mate taaltechnologie in combinatie met machine leren, en zijn erop gericht om entiteiten, netwerken van entiteiten, profielen van entiteiten of relaties tussen entiteiten en hun relaties in teksten te herkennen. Aan de Universiteit van Amsterdam werken we sinds 2008 aan een gedistribueerde omgeving genaamd Fietstas (nu xTAS genaamd), die de vereiste functionaliteit als web service aanbiedt. Naast verschillende vormen van tekstnormalisatie biedt Fietstas ook semantische functionaliteiten zoals het herkennen van entiteiten en relaties, het normaliseren van entiteiten en het genereren van ‘profielen’ van entiteiten. Dit maakt het mogelijk willekeurige tekst aan te bieden en een lijst met gevonden entiteiten terug te krijgen. Zie de figuur voor een illustratie van het soort van documentannotaties dat daarbij door Fietstas gegenereerd wordt. Wat kunnen we met de ontdekte links tussen tekst en Wikipedia? Vanwege de directe koppeling tussen Wikipedia en DBpedia kunnen de tools voor semantisch linken (zoals Fietstas of Wikipedia-Miner) direct gebruikt worden om LOD-entiteiten te herkennen in willekeurige teksten, gebruikmakend van aanvullende informatie uit Wikipedia. Zodra entiteiten zijn herkend, kunnen we deze inzetten tijdens het zoekproces.

Semantisch zoeken en vinden

Semantische zoekmachines stellen ons dus in staat om relevante entiteiten en hun relaties te identificeren in grote hoeveelheden tekst en vervolgens in te zetten, bijvoorbeeld door het zoekproces te sturen, suggesties te genereren of door de resultaatpresentatie aan te passen. De mogelijke toepassingen van het inzetten van semantiek tijdens het zoeken zijn legio en variëren van het simpelweg inzetten van alternatieve schrijfwijzen of synoniemen (zoals de tilde operator in Google), via specifieke interpretaties zoals WolframAlpha die verzorgt, tot het volledig taalkundig analyseren van een query (zoals Powerset en Ask.com dat beogen).

Laten we verder ingaan op het scenario van een zoekmachine voor het web. Het automatisch ‘expanderen’ van een query met alternatieve schrijfwijzen lijkt een veelbelovende strategie om op een automatische manier meer relevante webpagina’s te identificeren. Waarom past een bedrijf als Google dit dan niet op grote schaal toe? Een belangrijk tegenargument is ambiguïteit; de gemiddelde query bestaat gemiddeld uit ongeveer 2,4 termen (vaak zelfs minder) en biedt vaak niet genoeg houvast om zeker te weten wat een gebruiker bedoelt. Een dergelijke strategie kan daarom al snel de verkeerde kant opgaan en termen introduceren die niet relevant zijn. Een ander tegenargument is het feit dat het zoekproces minder transparant wordt. Zodra er automatisch termen worden toegevoegd aan de query, bestaat de kans dat er documenten worden teruggegeven die niet relevant zijn, waardoor de kans groot is dat de gebruiker gefrustreerd raakt en uitwijkt naar een andere zoekmachine. Een betere strategie is dan om gebruikers de keus te geven door middel van zijdelings vermelde suggesties in de resultaatpagina’s.

Ondanks het feit dat de genoemde technieken niet automatisch worden toegepast, werken de drie grote zoekmachines voor het web (Google, Bing en Yahoo!) aan verbeteringen van algoritmes en methoden die met hoge precisie kunnen aangeven welke entiteit(en) worden bedoeld in een query. Zij passen dergelijke technieken trouwens al enige tijd in beperkte mate toe. In het bijzonder bij het zogenaamde ‘vertical search’, waarin een incrementeel lerend algoritme beslist wat de intentie van de gebruiker is. Aan de hand van de voorspelde intentie (‘ik wil een boek kopen’, ‘ik wil meer informatie’, et cetera) wordt vervolgens besloten of er, naast de normale webresultaten, ook resultaten worden weergegeven uit ‘vertica- le’ sub-zoekmachines die gespecialiseerd zijn in een bepaald type informatie. Denk aan Google Maps, YouTube of plaatjes, maar ook aan resultaten uit online winkels, blogs, het nieuws, et cetera. In het meest voorkomende geval worden de resultaten uit deze ‘verticals’ verweven met de normale zoekresultaten. De Yahoo! zoekmachine gaat hiermee zelfs nog een stap verder en biedt specifieke overzichtspagina’s aan voor sommige queries. Ook het simpelweg herkennen van bepaalde patronen kan worden beschouwd als een vorm van intelligent zoeken. Probeer maar eens de Google queries ‘time in Amsterdam’, ‘2*2’ of ‘1 dollar in euro’. Of een bepaalde datum.

Andere manieren om concepten en entiteiten in te zetten tijdens het zoeken vinden we in zogenaamde Microformats en in RDFa. Dit zijn semantische talen die als doel hebben om semantiek in te bedden in XHTML-opmaakcode. Waar Microformats een specifiek vocabulaire behelst, kan RDFa gebruikt worden om ieder willekeurig kennismodel in te zetten in de annotatie van (gedeeltes van) webpagina’s. Het doel hiervan is om op een backwards-compatible manier semantische webfunctionaliteit aan webpagina’s te kunnen toevoegen. Dit wordt veelal op automatische wijze toegepast. Zoekmachines kunnen hier vervolgens gebruik van maken, bijvoorbeeld door zogenaamde ‘rich snippets’, waarin dergelijke gestructureerde informatie wordt getoond in het scherm met zoekresultaten. Denk aan resultaten van LinkedIn, waarbij de huidige baan en locatie van een persoon worden getoond, aan recensiescores voor een bepaald product of recept, maar denk ook aan het weergeven van de tijden en locaties waarop een bepaalde film wordt vertoond.

In het algemeen kan je stellen dat een van de ontwikkelingen op weg naar het web 3.0, het zoekgedrag van gebruikers betreft. Waar we in eerste instantie gewend waren aanzienlijke aantallen webpagina’s uit de resultaatpagina’s van zoekmachines te bekijken, wordt tegenwoordig doorgaans slechts de eerste pagina bekeken. Tien jaar geleden keek minimaal 58 procent van de gebruikers alleen naar de eerste resultaatpagina; in 2005 was dit percentage zelfs opgelopen tot meer dan 80 procent. Ook zien we in het zoekgedrag van gebruikers dat we vaker op zoek zijn naar scherper gedefinieerde eenheden, zoals eerdergenoemde entiteiten. Als iemand wil weten waar en hoe laat een bepaalde film in de buurt draait, accepteert men niet langer pagina’s van verschillende bioscopen te moeten bekijken. In plaats daarvan verwachten we dat de zoekmachine ons deze stap uit handen neemt en een overzicht teruggeeft.

Of het nu gaat om dubbelzinnigheid in zoekvragen aan te pakken, het weergeven van intelligente manieren van interactie of de presentatie van zoekresultaten, alle voorbeelden tot dusver laten zien dat semantische zoekmachines de zoekervaring van de gebruiker nu al aan het veranderen zijn.

Recente ontwikkelingen

Eerder kwamen Microformats en RDFa al aan de orde en in het bijzonder hoe deze toegepast worden om de resultaatpagina’s van zoekmachines ‘intelligenter’ te maken. De wildgroei aan verschillende dialecten en de verschillende mate van ondersteuning bij verschillende zoekmachines deden Bing, Google en Yahoo! recentelijk besluiten een gezamenlijk voorstel voor een vocabulaire om entiteiten te beschrijven naar buiten te brengen, waarmee gestructureerde informatie opgenomen kan worden op webpagina’s. Op de bijbehorende website, schema.org genaamd, staan alle categorieën die ondersteund worden, alsmede documentatie voor ontwikkelaars en webmasters. Onder de categorieën bevinden zich entiteitstypen als personen, films, producten, locaties en meer. Ook wordt ondersteuning gegeven voor semantische webtalen als OWL en RDF, met als doel schema.org-annotaties deel uit te laten maken van LOD.

Een andere recente ontwikkeling is Open Graph van Facebook. We kennen allemaal de Facebook ‘Like’-knoppen op websites en dit is de volgende versie daarvan. Facebook erkende een veelgehoorde klacht van gebruikers dat een simpele ‘Like’ in veel gevallen misstond. Gebruikers wilden bijvoorbeeld alleen maar aangeven dat ze iets gezien of gehoord hadden, zonder een impliciet positief waardeoordeel te geven. En, hoewel het in eerste instantie al mogelijk was om een zogenaamd objecttype (zoals ‘acteur’, ‘stad’, et cetera) mee te geven aan datgene dat ‘geliked’ kon worden, werd er maar sporadisch gebruik van gemaakt, voornamelijk vanwege de erg beperkte lijst met ondersteunde types. Open Graph heeft als doel beide bezwaren aan te pakken. Allereerst kan men, naast de ‘Like’-actie, eigen acties definiëren, zoals ‘Listened’, ‘Watched’, et cetera. Ten tweede kunnen nu ook entiteiten aangeduid worden (zogenaamde ‘objects’), waarop de acties betrekking hebben. Maar wat heeft dit te maken met het semantische web? En met zoeken? Het aanduiden van objecten en mogelijke acties die men daarop kan ondernemen, heeft wel degelijk het karakter van het semantische web. Daarnaast zijn alle Facebook-acties, waaronder de bekende ‘Like’-knop, geschreven in RDFa. En, wellicht nog belangrijker, het ondersteunt het sociale karakter van internet en brengt dit naar het semantische web. Met dergelijke annotaties kunnen namelijk gepersonaliseerde suggesties worden gedaan, bijvoorbeeld aan de hand van acties van vrienden of van personen die erg lijken op een gebruiker.

Tot slot is het open source contentmanagementsysteem (CMS) Drupal een vermelding waard. Dit van oorsprong Belgische project wordt over de gehele wereld als backend voor allerlei websites gebruikt. In de laatste versie (Drupal 7) wordt er out-of-the-box ondersteuning geboden voor RDFa. Dit betekent dat alle content op een website met Drupal als CMS, standaard ontsloten kan worden met RDFa. Denk aan personen op een forum, producten in een webshop, of bijvoorbeeld recensies. Door het open karakter van Drupal zijn objecten en types vrijelijk te definiëren en kunnen deze dus met minimale inspanning aangeboden worden als machineleesbare informatie en deel gaan uitmaken van het semantische web.

Tot slot

Met het steeds breder beschikbaar komen van machineleesbare informatie, en methoden om deze informatie te consumeren en produceren, en met het steeds slimmer worden van automatische methoden om entiteiten te herkennen in tekst, komt het semantische web steeds dichterbij. Met behulp van moderne, semantische zoekmachinetechnologieën zijn inmiddels de eerste stappen – van hoge kwaliteit en op grote schaal – gezet om deze informatie in te zetten om gebruikers sneller te laten vinden wat ze zoeken. Of dit alles daad- werkelijk web 3.0 gaat voorstellen zullen we pas over enige tijd weten, maar voor nu ziet de zoekmachine van de toekomst er in ieder geval al slimmer, interactiever en socialer uit.

(Dit artikel verscheen eerder in het tijdschrift Informatie Professional, zie hier voor een hi-res scan daarvan.)

  • E. Meij, “Zoekmachines van de toekomst,” Informatie professional, vol. 11, pp. 16-20, 2011.
    [Bibtex]
    @article{IP:2011:meij,
    Author = {Meij, E.},
    Date-Added = {2012-02-12 10:34:00 +0100},
    Date-Modified = {2012-02-12 10:37:39 +0100},
    Journal = {Informatie Professional},
    Month = {November},
    Pages = {16--20},
    Title = {Zoekmachines van de toekomst},
    Volume = {11},
    Year = {2011}}
  1. Overigens vind het omgekeerde ook plaats, dat wil zeggen het inzetten van zoekalgoritmes zoals Google die gebruikt om wijs te worden uit de gigantische hoeveelheid aan data die op het semantische web in de vorm van gelinkte data te vinden is. Dat is echter niet het onderwerp van dit artikel. []
DBpedia

Mapping queries to the Linking Open Data cloud: A case study using DBpedia

We introduce the task of mapping search engine queries to DBpedia, a major linking hub in the Linking Open Data cloud. We propose and compare various methods for addressing this task, using a mixture of information retrieval and machine learning techniques. Specifically, we present a supervised machine learning-based method to determine which concepts are intended by a user issuing a query. The concepts are obtained from an ontology and may be used to provide contextual information, related concepts, or navigational suggestions to the user submitting the query. Our approach first ranks candidate concepts using a language modeling for information retrieval framework. We then extract query, concept, and search-history feature vectors for these concepts. Using manual annotations we inform a machine learning algorithm that learns how to select concepts from the candidates given an input query. Simply performing a lexical match between the queries and concepts is found to perform poorly and so does using retrieval alone, i.e., omitting the concept selection stage. Our proposed method significantly improves upon these baselines and we find that support vector machines are able to achieve the best performance out of the machine learning algorithms evaluated.

  • [PDF] [DOI] E. Meij, M. Bron, L. Hollink, B. Huurnink, and M. de Rijke, “Mapping queries to the Linking Open Data cloud: a case study using DBpedia,” Web semantics: science, services and agents on the world wide web, vol. 9, iss. 4, pp. 418-433, 2011.
    [Bibtex]
    @article{JWS:2011:meij,
    Abstract = {We introduce the task of mapping search engine queries to DBpedia, a major linking hub in the Linking Open Data cloud. We propose and compare various methods for addressing this task, using a mixture of information retrieval and machine learning techniques. Specifically, we present a supervised machine learning-based method to determine which concepts are intended by a user issuing a query. The concepts are obtained from an ontology and may be used to provide contextual information, related concepts, or navigational suggestions to the user submitting the query. Our approach first ranks candidate concepts using a language modeling for information retrieval framework. We then extract query, concept, and search-history feature vectors for these concepts. Using manual annotations we inform a machine learning algorithm that learns how to select concepts from the candidates given an input query. Simply performing a lexical match between the queries and concepts is found to perform poorly and so does using retrieval alone, i.e., omitting the concept selection stage. Our proposed method significantly improves upon these baselines and we find that support vector machines are able to achieve the best performance out of the machine learning algorithms evaluated.},
    Author = {Edgar Meij and Marc Bron and Laura Hollink and Bouke Huurnink and Maarten de Rijke},
    Date-Added = {2011-11-25 08:45:19 +0100},
    Date-Modified = {2012-10-28 21:59:08 +0000},
    Doi = {10.1016/j.websem.2011.04.001},
    Issn = {1570-8268},
    Journal = {Web Semantics: Science, Services and Agents on the World Wide Web},
    Keywords = {Information retrieval},
    Number = {4},
    Pages = {418 - 433},
    Title = {Mapping queries to the {Linking Open Data} cloud: A case study using {DBpedia}},
    Url = {http://www.sciencedirect.com/science/article/pii/S1570826811000187},
    Volume = {9},
    Year = {2011},
    Bdsk-Url-1 = {http://www.sciencedirect.com/science/article/pii/S1570826811000187},
    Bdsk-Url-2 = {http://dx.doi.org/10.1016/j.websem.2011.04.001}}
thesis cover image of a smart computer

Combining Concepts and Language Models for Information Access

Since the middle of last century, information retrieval has gained an increasing interest. Since its inception, much research has been devoted to finding optimal ways of representing both documents and queries, as well as improving ways of matching one with the other. In cases where document annotations or explicit semantics are available, matching algorithms can be informed using the concept languages in which such semantics are usually defined. These algorithms are able to match queries and documents based on textual and semantic evidence.

Recent advances have enabled the use of rich query representations in the form of query language models. This, in turn, allows us to account for the language associated with concepts within the retrieval model in a principled and transparent manner. Developments in the semantic web community, such as the Linked Open Data cloud, have enabled the association of texts with concepts on a large scale. Taken together, these developments facilitate a move beyond manually assigned concepts in domain-specific contexts into the general domain.

This thesis investigates how one can improve information access by employing the actual use of concepts as measured by the language that people use when they discuss them. The main contribution is a set of models and methods that enable users to retrieve and access information on a conceptual level. Through extensive evaluations, a systematic exploration and thorough analysis of the experimental results of the proposed models is performed. Our empirical results show that a combination of top-down conceptual information and bottom-up statistical information obtains optimal performance on a variety of tasks and test collections.

See http://phdthes.is/ for more information.

  • [PDF] E. Meij, “Combining concepts and language models for information access,” PhD Thesis, 2010.
    [Bibtex]
    @phdthesis{2010:meij,
    Author = {Meij, Edgar},
    Date-Added = {2011-10-20 10:18:00 +0200},
    Date-Modified = {2011-10-22 12:23:33 +0200},
    School = {University of Amsterdam},
    Title = {Combining Concepts and Language Models for Information Access},
    Year = {2010}}

 

Wikipedia

Supervised query modeling using Wikipedia

In a web retrieval setting, there is a clear need for precision enhancing methods. For example, the query “the secret garden” (a novel that has been adapted into movies and musicals) is a query that is easily led astray because of the generality of the individual query terms. While some methods address this issue at the document level, e.g., by using anchor texts or some function of the web graph, we are interested in improving the query; a prime example of such an approach is leveraging phrasal or proximity information. Besides degrading the user experience, another significant downside of a lack of precision is its negative impact on the effectiveness of pseudo relevance feedback methods. An example of this phenomenon can be observed for a query such as “indexed annuity” where the richness of the financial domain plus the broad commercial use of the web introduces unrelated terms. To address these issues, we propose a semantically informed manner of representing queries that uses supervised machine learning on Wikipedia. We train an SVM that automatically links queries to Wikipedia articles which are subsequently used to update the query model.

Wikipedia and supervised machine learning have previously been used to select optimal terms to include in the query model. We, however, are interested in selecting those Wikipedia articles which best describe the query and use those to sample terms from. This is similar to the unsupervised manner used, e.g., in the context of retrieving blogs. Such approaches are completely unsupervised in that they only consider a fixed number of pseudo relevant Wikipedia articles. As we show, focusing this set using machine learning improves overall retrieval performance. In particular, we apply supervised machine learning to automatically link queries to Wikipedia articles and sample terms from the linked articles to re-estimate the query model. On a recent large web corpus, we observe substantial gains in terms of both traditional metrics and diversity measures.

  • [PDF] E. Meij and M. de Rijke, “Supervised query modeling using Wikipedia,” in Proceedings of the 33rd international acm sigir conference on research and development in information retrieval, 2010.
    [Bibtex]
    @inproceedings{SIGIR:2010:meij,
    Author = {Meij, Edgar and de Rijke, Maarten},
    Booktitle = {Proceedings of the 33rd International ACM SIGIR Conference on Research and Development in Information Retrieval},
    Date-Added = {2012-05-03 22:16:10 +0200},
    Date-Modified = {2012-10-30 08:40:21 +0000},
    Series = {SIGIR 2010},
    Title = {Supervised query modeling using {Wikipedia}},
    Year = {2010},
    Bdsk-Url-1 = {http://doi.acm.org/10.1145/1835449.1835660}}
semantic network of drugs

Entity Search: Building Bridges between Two Worlds

We have come to depend on technological resources to create order and find meaning in the ever-growing amount of online data. One frequently recurring type of query in web search are queries containing named entities (persons, organizations, locations, etc.): we organize our environments around entities that are meaningful to us. Hence, to support humans in dealing with massive volumes of data, next generation search engines need to organize information in semantically meaningful ways, structured around entities. Furthermore, instead of merely finding documents that mention an entity, finding the entity itself is required.

The problem of entity search has been and is being looked at by both the Information Retrieval (IR) and Semantic Web (SW) communities and is, in fact, ranked high on the research agendas of the two communities. The entity search task comes in several flavors. One is known as entity ranking (given a query and target category, return a ranked list of relevant entities), another is list completion (given a query and example entities, return similar entities), and a third is related entity finding (given a source entity, a relation and a target type, identify target entities that enjoy the specified relation with the source entity and that satisfy the target type constraint).

State-of-the-art IR models allow us to address entity search by identifying relevant entities in large volumes of web data. These methods often approach entity-oriented retrieval tasks by establishing associations between topics, documents, and entities or amongst entities themselves, where such associations are modeled by observing the language usage around entities. A major challenge with current IR approaches to entity retrieval is that they fail to produce interpretable descriptions of the found entities or of the relationships between entities. The generated models tend to lack human-interpretable semantics and are rarely meaningful for human consumption: interpretable labels are needed (both for entities and for relations). Linked Open Data (LOD) is a recent contribution of the emerging semantic web that has the potential of providing the required semantic information.

From a SW point of view, entity retrieval should be as simple as running SPARQL queries over structured data. However, since a true semantic web still has not been fully realized, the results of such queries are currently not sufficient to answer common information needs. By now, the LOD cloud contains millions of concepts from over one hundred structured data sets. This abundance, however, also introduces novel issues such as “cheap semantics” (e.g. wikilink relations in DBpedia) and the need for ranking potentially very large amounts of results. Furthermore, given the fact that most web users are not proficient users of semantic web languages such as SPARQL or standards such as RDF and OWL, the free-form text input used by most IR systems is more appealing to end users.

These concurrent developments give rise to the following general question: to which extent are state-of-art IR and SW technologies capable of answering information needs related to entity finding? In this paper we focus on the task of related entity finding (REF). E.g., for a source entity (“Michael Schumacher”), a relation (“Michael’s teammates while he was racing in Formula 1”) and a target type (“people”), a REF system should return entities such as “Eddie Irvine” and “Felipe Massa.” REF aims at making arbitrary relations between entities searchable. We focus on an adaptation of the official task as it was run at TREC 2009 and restrict the target entities to those having a primary Wikipedia article: this modification provides an elegant way of making the IR and SW results comparable.

From an IR perspective, a natural way of capturing the relation between a source and target entity is based on their co-occurrence in suitable contexts. Later, we use an aggregate of methods all of which are based on this approach. In contrast, a SW perspective on the same task is to search for entities through links such as the ones in LOD and for this we apply both standard SPARQL queries and an exhaustive graph search algorithm.

In this paper, we analyze and discuss to which extent REF can be solved by IR and SW methods. It is important to note that our goal is not to perform a quantitative comparison, and make claims about one approach being better than the other or vice versa. Rather, we investigate results returned by either approach and perform a more qualitative evaluation. We find that IR and SW methods discover different sets of entities, although these sets are overlapping. Based on the results of our evaluation, we demonstrate that the two approaches are complementary in nature and we discuss how each field could potentially benefit from the other. We arrive at and motivate a proposal to combine text-based entity models with semantic information from the Linking Open Data cloud.

  • [PDF] K. Balog, E. Meij, and M. de Rijke, “Entity search: building bridges between two worlds,” in Proceedings of the 3rd international semantic search workshop, 2010.
    [Bibtex]
    @inproceedings{semsearch:2010:balog,
    Author = {Balog, Krisztian and Meij, Edgar and de Rijke, Maarten},
    Booktitle = {Proceedings of the 3rd International Semantic Search Workshop},
    Date-Added = {2011-10-20 10:07:31 +0200},
    Date-Modified = {2012-10-30 08:41:54 +0000},
    Series = {SEMSEARCH 2010},
    Title = {Entity search: building bridges between two worlds},
    Year = {2010},
    Bdsk-Url-1 = {http://doi.acm.org/10.1145/1863879.1863888}}
Questions and Answers signpost

Learning Semantic Query Suggestions

An important application of semantic web technology is recognizing human-defined concepts in text. Query transformation is a strategy often used in search engines to derive queries that are able to return more useful search results than the original query and most popular search engines provide facilities that let users complete, specify, or reformulate their queries. We study the problem of semantic query suggestion, a special type of query transformation based on identifying semantic concepts contained in user queries. We use a feature-based approach in conjunction with supervised machine learning, augmenting term-based features with search history-based and concept-specific features. We apply our method to the task of linking queries from real-world query logs (the transaction logs of the Netherlands Institute for Sound and Vision) to the DBpedia knowledge base. We evaluate the utility of different machine learning algorithms, features, and feature types in identifying semantic concepts using a manually developed test bed and show significant improvements over an already high baseline. The resources developed for this paper, i.e., queries, human assessments, and extracted features, are available for download.

  • [PDF] E. Meij, M. Bron, B. Huurnink, L. Hollink, and M. de Rijke, “Learning semantic query suggestions,” in Proceedings of the 8th international conference on the semantic web, 2009.
    [Bibtex]
    @inproceedings{ISWC:2009:Meij,
    Abstract = {Learning Semantic Query Suggestions by Edgar Meij, Marc Bron, Laura Hollink, Bouke Huurnink and Maarten de Rijke is available online now. An important application of semantic web technology is recognizing human-defined concepts in text. Query transformation is a strategy often used in search engines to derive queries that are able to return more useful search results than the original query and most popular search engines provide facilities that let users complete, specify, or reformulate their queries. We study the problem of semantic query suggestion, a special type of query transformation based on identifying semantic concepts contained in user queries. We use a feature-based approach in conjunction with supervised machine learning, augmenting term-based features with search history-based and concept-specific features. We apply our method to the task of linking queries from real-world query logs (the transaction logs of the Netherlands Institute for Sound and Vision) to the DBpedia knowledge base. We evaluate the utility of different machine learning algorithms, features, and feature types in identifying semantic concepts using a manually developed test bed and show significant improvements over an already high baseline. The resources developed for this paper, i.e., queries, human assessments, and extracted features, are available for download. },
    Author = {E. Meij and M. Bron and B. Huurnink and Hollink, L. and de Rijke, M.},
    Booktitle = {Proceedings of the 8th International Conference on The Semantic Web},
    Date-Added = {2011-10-12 18:31:55 +0200},
    Date-Modified = {2012-10-30 08:45:04 +0000},
    Series = {ISWC 2009},
    Title = {Learning Semantic Query Suggestions},
    Year = {2009}}