thesis cover image of a smart computer

Combining Concepts and Language Models for Information Access

Since the middle of last century, information retrieval has gained an increasing interest. Since its inception, much research has been devoted to finding optimal ways of representing both documents and queries, as well as improving ways of matching one with the other. In cases where document annotations or explicit semantics are available, matching algorithms can be informed using the concept languages in which such semantics are usually defined. These algorithms are able to match queries and documents based on textual and semantic evidence.

Recent advances have enabled the use of rich query representations in the form of query language models. This, in turn, allows us to account for the language associated with concepts within the retrieval model in a principled and transparent manner. Developments in the semantic web community, such as the Linked Open Data cloud, have enabled the association of texts with concepts on a large scale. Taken together, these developments facilitate a move beyond manually assigned concepts in domain-specific contexts into the general domain.

This thesis investigates how one can improve information access by employing the actual use of concepts as measured by the language that people use when they discuss them. The main contribution is a set of models and methods that enable users to retrieve and access information on a conceptual level. Through extensive evaluations, a systematic exploration and thorough analysis of the experimental results of the proposed models is performed. Our empirical results show that a combination of top-down conceptual information and bottom-up statistical information obtains optimal performance on a variety of tasks and test collections.

See http://phdthes.is/ for more information.

  • [PDF] E. Meij, “Combining concepts and language models for information access,” PhD Thesis, 2010.
    [Bibtex]
    @phdthesis{2010:meij,
    Author = {Meij, Edgar},
    Date-Added = {2011-10-20 10:18:00 +0200},
    Date-Modified = {2011-10-22 12:23:33 +0200},
    School = {University of Amsterdam},
    Title = {Combining Concepts and Language Models for Information Access},
    Year = {2010}}

 

linking open data cloud datasets full

Archieven Linken met Semantische Zoekmachines

In toenemende mate worden grootschalige archieven toegankelijk gemaakt voor een breed publiek. Prominente voorbeelden worden gegeven door de archieven van landelijke dagbladen, nationale archieven, overheidsarchieven, archieven onder beheer van de Koninklijke Bibliotheek, televisiearchieven zoals beheerd door het Nationaal Instituut voor Beeld en Geluid en, meer algemeen, door archieven van erfgoedinstellingen.

Een archief is geen eiland. Gebeurtenissen beschreven in een nieuwsarchief krijgen een extra dimensie als zij gekoppeld worden aan beeldmateriaal. Historisch televisiemateriaal wint aan betekenis als het gekoppeld wordt aan contemporaine commentaren en nieuwsmateriaal uit de gedrukte pers. En meer specialistische of technisch georiënteerde archieven winnen aan bruikbaarheid als ze gekoppeld zijn aan achtergrondinformatie.

Onderzoek wijst uit dat eindgebruikers er bij gebaat zijn dat koppelingen tussen archieven betekenisvol zijn en bijvoorkeur langs semantische lijnen lopen, met een sterke oriëntatie op entiteiten (mensen, locaties, organisaties, artefacten, etc.), op thema’s (zoals “stadsleven,” “festiviteiten” of “consumentencultuur”) en op gebeurtenissen (zoals “Praagse lente,” “Opening van de Kanaaltunnel” of “Marathon Amsterdam”). Betekenisvolle ontsluiting van archieven komt hiermee neer op zoek-­‐ en verkenningstechnologiën rondom entiteiten, thema’s en gebeurtenissen plus hun onderlinge relaties.

Gezien de omvang van de archieven die nu beschikbaar zijn of komen, zijn handmatige methoden om de gewenste koppelingen te leggen of om entiteiten, thema’s en gebeurtenissen te identificeren in archiefobjecten eenvoudig niet realistisch. Een belangrijke beweging in onderzoek op het raakvlak van zoekmachinetechnologie en taaltechnologie betreft semantisch zoeken, waarbij de gewenste koppelingen tussen archieven langs de genoemde assen automatisch worden gelegd.

  • [PDF] M. de Rijke, K. Balog, M. Bron, J. He, B. Huurnink, V. B. Jijkoun, F. Laan, E. Meij, E. Tsagkias, A. Vishneuski, and W. Weerkamp, “Archieven linken met semantische zoekmachines,” Dixit (tijdschrift over toegepaste taal- en spraaktechnologie), vol. 7, iss. 1, pp. 7-9, 2010.
    [Bibtex]
    @article{DIXIT:2010:rijke,
    Author = {de Rijke, M. and Balog, K. and Bron, M. and He, J. and Huurnink, B. and Jijkoun, V.B. and Laan, F. and Meij, E. and Tsagkias, E. and Vishneuski, A. and Weerkamp, W.},
    Date-Added = {2011-10-20 10:17:50 +0200},
    Date-Modified = {2011-10-20 10:17:50 +0200},
    Journal = {DIXIT (Tijdschrift over toegepaste taal- en spraaktechnologie)},
    Number = {1},
    Pages = {7-9},
    Title = {Archieven Linken met Semantische Zoekmachines},
    Volume = {7},
    Year = {2010}}