Dynamic query modeling for related content finding

While watching television, people increasingly consume additional content related to what they are watching. We consider the task of finding video content related to a live television broadcast for which we leverage the textual stream of subtitles associated with the broadcast. We model this task as a Markov decision process and propose a method that uses reinforcement learning to directly optimize the retrieval effectiveness of queries generated from the stream of subtitles. Our dynamic query modeling approach significantly outperforms state-of-the-art baselines for stationary query modeling and for text-based retrieval in a television setting. In particular we find that carefully weighting terms and decaying these weights based on recency significantly improves effectiveness. Moreover, our method is highly efficient and can be used in a live television setting, i.e., in near real time.

  • [PDF] D. Odijk, E. Meij, I. Sijaranamual, and M. de Rijke, “Dynamic query modeling for related content finding,” in SIGIR 2015: 38th international ACM SIGIR conference on Research and development in information retrieval, 2015.
    Author = {Odijk, Daan and Meij, Edgar and Sijaranamual, Isaac and de Rijke, Maarten},
    Booktitle = {{SIGIR 2015: 38th international ACM SIGIR conference on Research and development in information retrieval}},
    Date-Added = {2015-08-06 13:14:13 +0000},
    Date-Modified = {2015-08-06 13:39:24 +0000},
    Month = {August},
    Publisher = {ACM},
    Title = {Dynamic query modeling for related content finding},
    Year = {2015}}

Learning to Explain Entity Relationships in Knowledge Graphs

We study the problem of explaining relationships between pairs of knowledge graph entities with human-readable descriptions. Our method extracts and enriches sentences that refer to an entity pair from a corpus and ranks the sentences according to how well they describe the relationship between the entities. We model this task as a learning to rank problem for sentences and employ a rich set of features. When evaluated on a large set of manually annotated sentences, we find that our method significantly improves over state-of-the-art baseline models.

  • [PDF] N. Voskarides, E. Meij, M. Tsagkias, M. de Rijke, and W. Weerkamp, “Learning to explain entity relationships in knowledge graphs,” in Proceedings of the 53rd annual meeting of the association for computational linguistics and the 7th international joint conference on natural language processing (volume 1: long papers), 2015, p. 564–574.
    Author = {Voskarides, Nikos and Meij, Edgar and Tsagkias, Manos and de Rijke, Maarten and Weerkamp, Wouter},
    Booktitle = {Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing (Volume 1: Long Papers)},
    Date-Added = {2015-08-06 13:08:02 +0000},
    Date-Modified = {2015-08-06 13:08:14 +0000},
    Location = {Beijing, China},
    Pages = {564--574},
    Publisher = {Association for Computational Linguistics},
    Title = {Learning to Explain Entity Relationships in Knowledge Graphs},
    Url = {http://aclweb.org/anthology/P15-1055},
    Year = {2015},
    Bdsk-Url-1 = {http://aclweb.org/anthology/P15-1055}}

Fast and Space-Efficient Entity Linking in Queries

Entity linking deals with identifying entities from a knowledge base in a given piece of text and has become a fundamental building block for web search engines, enabling numerous downstream improvements from better document ranking to enhanced search results pages. A key problem in the context of web search queries is that this process needs to run under severe time constraints as it has to be performed before any actual retrieval takes place, typically within milliseconds. In this paper we propose a probabilistic model that leverages user-generated information on the web to link queries to entities in a knowledge base. There are three key ingredients that make the algorithm fast and space-efficient. First, the linking process ignores any dependencies between the different entity candidates, which allows for a O(k^2) implementation in the number of query terms. Second, we leverage hashing and compression techniques to reduce the memory footprint. Finally, to equip the algorithm with contextual knowledge without sacrificing speed, we factor the distance between distributional semantics of the query words and entities into the model. We show that our solution significantly outperforms several state-of-the-art baselines by more than 14% while being able to process queries in sub-millisecond times—at least two orders of magnitude faster than existing systems.

  • [PDF] R. Blanco, G. Ottaviano, and E. Meij, “Fast and space-efficient entity linking in queries,” in Proceedings of the eighth acm international conference on web search and data mining, 2015.
    Author = {Blanco, Roi and Ottaviano, Giuseppe and Meij, Edgar},
    Booktitle = {Proceedings of the eighth ACM international conference on Web search and data mining},
    Date-Added = {2011-10-26 11:21:51 +0200},
    Date-Modified = {2015-01-20 20:29:19 +0000},
    Series = {WSDM 2015},
    Title = {Fast and Space-Efficient Entity Linking in Queries},
    Year = {2015},
    Bdsk-Url-1 = {http://doi.acm.org/10.1145/1935826.1935842}}
CIKM 2014

Time-Aware Rank Aggregation for Microblog Search

We tackle the problem of searching microblog posts and frame it as a rank aggregation problem where we merge result lists generated by separate rankers so as to produce a final ranking to be returned to the user. We propose a rank aggregation method, TimeRA, that is able to infer the rank scores of documents via latent factor modeling. It is time-aware and rewards posts that are published in or near a burst of posts that are ranked highly in many of the lists being aggregated. Our experimental results show that it significantly outperforms state-of-the-art rank aggregation and time-sensitive microblog search algorithms.

Do support groups members disclose less to their partners? the dynamics of HIV disclosure in four African countries

To appear in BMC Public Health.

Background: Recent efforts to curtail the HIV epidemic in Africa have emphasized preventing sexual transmission to partners through antiretroviral therapy. A component of current strategies is disclosure to partners, thus understanding its motivations will help maximise results. This study examines the rates, dynamics and consequences of partner disclosure in Burkina Faso, Kenya, Malawi and Uganda, with special attention to the role of support groups and stigma in disclosure.

Methods: The study employs mixed methods, including a cross-sectional client survey of counseling and testing services, focus groups, and in-depth interviews with HIV-positive individuals in stable partnerships in Burkina Faso, Kenya, Malawi and Uganda, recruited at healthcare facilities offering HIV testing.

Results: Rates of disclosure to partners varied between countries (32.7% – 92.7%). The lowest rate was reported in Malawi. Reasons for disclosure included preventing the transmission of HIV, the need for care, and upholding the integrity of the relationship. Fear of stigma was an important reason for non-disclosure. Women reported experiencing more negative reactions when disclosing to partners. Disclosure was positively associated with living in urban areas, higher education levels, and being male, while being negatively associated with membership to support groups.

Conclusions: Understanding of reasons for disclosure and recognition of the role of support groups in the process can help improve current prevention efforts, that increasingly focus on treatment as prevention as a way to halt new infections. Support groups can help spread secondary prevention messages, by explaining to their members that antiretroviral treatment has benefits for HIV positive individuals and their partners. Home-based testing can further facilitate partner disclosure, as couples can test together and be counseled jointly.

Generating Pseudo Test Collections for Learning to Rank Scientific Articles

Pseudo test collections are automatically generated to provide training material for learning to rank methods. We propose a method for generating pseudo test collections in the domain of digital libraries, where data is relatively sparse, but comes with rich annotations. Our intuition is that documents are annotated to make them better findable for certain information needs. We use these annotations and the associated documents as a source for pairs of queries and relevant documents. We investigate how learning to rank performance varies when we use different methods for sampling annotations, and show how our pseudo test collection ranks systems compared to editorial topics with editorial judgements. Our results demonstrate that it is possible to train a learning to rank algorithm on generated pseudo judgments. In some cases, performance is on par with learning on manually obtained ground truth.

  • [PDF] R. Berendsen, M. Tsagkias, M. de Rijke, and E. Meij, “Generating pseudo test collections for learning to rank scientific articles,” in Information access evaluation. multilinguality, multimodality, and visual analytics – third international conference of the clef initiative, clef 2012, 2012.
    Author = {Berendsen, Richard and Tsagkias, Manos and de Rijke, Maarten and Meij, Edgar},
    Booktitle = {Information Access Evaluation. Multilinguality, Multimodality, and Visual Analytics - Third International Conference of the CLEF Initiative, CLEF 2012},
    Date-Added = {2012-07-03 13:44:06 +0200},
    Date-Modified = {2012-10-30 08:37:52 +0000},
    Title = {Generating Pseudo Test Collections for Learning to Rank Scientific Articles},
    Year = {2012}}
Twitter aspects

Identifying Entity Aspects in Microblog Posts

Online reputation management is about monitoring and handling the public image of entities (such as companies) on the Web. An important task in this area is identifying aspects of the entity of interest (such as products, services, competitors, key people, etc.) given a stream of microblog posts referring to the entity. In this paper we compare different IR techniques and opinion target identification methods for automatically identifying aspects and find that (i) simple statistical method such as TF.IDF are a strong baseline for the task, being significantly better than applying opinion-oriented methods and (ii) only considering terms tagged as nouns improves the results for all the methods analyzed.

More information on the dataset that we created (and used in this paper) can be found here.

  • [PDF] D. Spina, E. Meij, M. de Rijke, A. Oghina, B. M. Thuong, and M. Breuss, “Identifying entity aspects in microblog posts,” in The 35th international acm sigir conference on research and development in information retrieval, 2012.
    Author = {Damiano Spina and Meij, Edgar and de Rijke, Maarten and Andrei Oghina and Bui Minh Thuong and Mathias Breuss},
    Booktitle = {The 35th International ACM SIGIR conference on research and development in Information Retrieval},
    Date-Added = {2012-05-03 22:17:17 +0200},
    Date-Modified = {2012-10-30 08:40:47 +0000},
    Series = {SIGIR 2012},
    Title = {Identifying Entity Aspects in Microblog Posts},
    Year = {2012}}
linking open data datasets

Zoekmachines van de toekomst

Er bestaat enige discussie over wat de logische opvolger zal zijn van web 2.0, waarin user-generated content, het delen van informatie en interoperabiliteit centraal stonden. Hoewel meer ideeën de ronde doen, is er veel steun voor het idee web 3.0 gelijk te stellen aan het semantische web. Het sturende idee achter het semantische web is dat alle dingen op internet worden beschreven in speciale talen, zodat computers de informatie die ze aantreffen kunnen ‘begrijpen’. Een object kan bijvoorbeeld gekenmerkt worden als onderdeel van een voertuig, als persoon of als een fysieke plek op aarde. Zodra objecten op een dergelijke manier worden gekarakteriseerd, ontstaat een gigantisch netwerk van ‘linked data’ en kunnen computers verrassende en nuttige links ontdekken, die wellicht nooit door mensen ontdekt zouden zijn. Dit heeft de potentie een compleet nieuwe vorm van kunstmatige intelligentie mogelijk te maken.

Full coloured LOD cloud

Linking Open Data cloud diagram; datasets met gestructureerde computerleesbare data en daartussen aangebrachte links.

Maar zover zijn we nog (lang) niet. Er zijn een hoop redenen aan te dragen waarom het semantische web uit de visie van Berners-Lee het niet zal redden. Een van de belangrijkste redenen is het feit dat veelal een enkele centrale ontologie (‘model van de wereld’) wordt verondersteld. Ook is nog niet onomstotelijk vastgesteld dat dergelijke technieken werken in de open omgeving van het web. In specifieke omgevingen, toepassingen en taken worden successen behaald, maar deze vertalen zich nog niet naar breed toepasbare initiatieven. Desondanks bestaat er inmiddels een groeiende ‘wolk’ van datasets met machine-leesbare gegevens, die onderling gekoppeld worden (‘linking open data’ of LOD). Die wolk kan ingezet worden als semantische ruggengraat om allerhande taken aan te pakken.

Een andere reden is het feit dat bij alledaagse gebruikers van het web weinig animo bestaat om deel te nemen aan het toekennen van metadata aan objecten. We zijn dusdanig gewend geraakt aan het gebruik van zoekmachines om een weg door het web te vinden, dat geen dringende reden bestaat om bij te dragen aan de ontwikkeling van het semantische web––los van informele, ‘lichtgewicht’ semantiek in de vorm van persoonlijke bookmarks/tags of simpele annotaties op webpagina’s.

Onder de motorkap

Waar we inmiddels wel steeds meer voorbeelden van zien is het inzetten van semantiek in het zoekproces, bijvoorbeeld verkregen uit LOD.1 Wat houdt dat dan in? Recente ontwikkelingen maken het mogelijk dat computers begrijpen welke concepten gebruikt worden in stukken tekst, zoals webpagina’s, zoekmachine queries, tweets, et cetera. Dit begrijpen houdt niets meer in dan het linken van (delen van) tekst aan meer gestructureerde informatie––veelal in de vorm van zogenaamde entiteiten zoals je die bijvoorbeeld vindt in LOD.

Een veelvoorkomende definitie van een ‘entiteit’ omvat personen, bedrijven, producten, locaties, et cetera. Oftewel, alles wat een eigen Wikipedia pagina kan hebben. Exaleads zoekmachine voor Wikipedia geeft een goed voorbeeld van entiteiten. Zodra je daar een query intypt haalt de zoekmachine entiteiten op die gerelateerd zijn aan de query, die je vervolgens op een interactieve manier kan gebruiken om de resultaten aan te passen aan datgene wat je voor ogen had. In zekere zin is dit een moderne variant van faceted zoeken, waarbij metadata behorende bij of geëxtraheerd uit zoekresultaten, worden geanalyseerd en weergegeven, teneinde de zoekresultaten interactief te verbeteren. Een van de meest bekende voorbeelden hiervan is te vinden bij allerhande online winkels, waar je één of meer categorieën kan selecteren om de gevonden producten in te perken.

Wikipedia is uitgegroeid tot een aanzienlijke kennisbron en het aantal Wikipediapagina’s blijft nog steeds gestaag groeien. Een van de interessante eigenschappen van Wikipedia in de context van semantische zoekmachines is dat iedere entiteit geassocieerd is met een door mensen bewerkte beschrijving, zodat ze makkelijk gevonden en beschreven kunnen worden. Ook bevat Wikipedia structurele informatie in de vorm van (1) categorieën, (2) hyperlinks tussen artikelen en (3) infoboxes en sjablonen. Infoboxes zijn de elementen die bij sommige Wikipedia-artikelen aan de rechterhand worden weergegeven en vaak semi-gestructureerde informatie bevatten. Hetzelfde ‘soort’ Wikipedia-artikelen heeft veelal hetzelfde soort infoboxes, zoals steden, zangers, et cetera. Sjablonen lijken hier enigszins op en bevatten ook gestructureerde informatie die specifiek is voor een bepaald soort onderwerp, zoals medicijnen of vliegvelden. DBpedia is een initiatief dat als doel heeft deze informatie automatisch uit Wikipedia te extraheren en beschikbaar te stellen in LOD. Door zijn algemene aard speelt DBpedia hier een centrale rol.

Voorbeeld van Fietstas annotaties

Voorbeeld van Fietstas annotaties.

Methoden die tekst kunnen linken aan entiteiten gebruiken in belangrijke mate taaltechnologie in combinatie met machine leren, en zijn erop gericht om entiteiten, netwerken van entiteiten, profielen van entiteiten of relaties tussen entiteiten en hun relaties in teksten te herkennen. Aan de Universiteit van Amsterdam werken we sinds 2008 aan een gedistribueerde omgeving genaamd Fietstas (nu xTAS genaamd), die de vereiste functionaliteit als web service aanbiedt. Naast verschillende vormen van tekstnormalisatie biedt Fietstas ook semantische functionaliteiten zoals het herkennen van entiteiten en relaties, het normaliseren van entiteiten en het genereren van ‘profielen’ van entiteiten. Dit maakt het mogelijk willekeurige tekst aan te bieden en een lijst met gevonden entiteiten terug te krijgen. Zie de figuur voor een illustratie van het soort van documentannotaties dat daarbij door Fietstas gegenereerd wordt. Wat kunnen we met de ontdekte links tussen tekst en Wikipedia? Vanwege de directe koppeling tussen Wikipedia en DBpedia kunnen de tools voor semantisch linken (zoals Fietstas of Wikipedia-Miner) direct gebruikt worden om LOD-entiteiten te herkennen in willekeurige teksten, gebruikmakend van aanvullende informatie uit Wikipedia. Zodra entiteiten zijn herkend, kunnen we deze inzetten tijdens het zoekproces.

Semantisch zoeken en vinden

Semantische zoekmachines stellen ons dus in staat om relevante entiteiten en hun relaties te identificeren in grote hoeveelheden tekst en vervolgens in te zetten, bijvoorbeeld door het zoekproces te sturen, suggesties te genereren of door de resultaatpresentatie aan te passen. De mogelijke toepassingen van het inzetten van semantiek tijdens het zoeken zijn legio en variëren van het simpelweg inzetten van alternatieve schrijfwijzen of synoniemen (zoals de tilde operator in Google), via specifieke interpretaties zoals WolframAlpha die verzorgt, tot het volledig taalkundig analyseren van een query (zoals Powerset en Ask.com dat beogen).

Laten we verder ingaan op het scenario van een zoekmachine voor het web. Het automatisch ‘expanderen’ van een query met alternatieve schrijfwijzen lijkt een veelbelovende strategie om op een automatische manier meer relevante webpagina’s te identificeren. Waarom past een bedrijf als Google dit dan niet op grote schaal toe? Een belangrijk tegenargument is ambiguïteit; de gemiddelde query bestaat gemiddeld uit ongeveer 2,4 termen (vaak zelfs minder) en biedt vaak niet genoeg houvast om zeker te weten wat een gebruiker bedoelt. Een dergelijke strategie kan daarom al snel de verkeerde kant opgaan en termen introduceren die niet relevant zijn. Een ander tegenargument is het feit dat het zoekproces minder transparant wordt. Zodra er automatisch termen worden toegevoegd aan de query, bestaat de kans dat er documenten worden teruggegeven die niet relevant zijn, waardoor de kans groot is dat de gebruiker gefrustreerd raakt en uitwijkt naar een andere zoekmachine. Een betere strategie is dan om gebruikers de keus te geven door middel van zijdelings vermelde suggesties in de resultaatpagina’s.

Ondanks het feit dat de genoemde technieken niet automatisch worden toegepast, werken de drie grote zoekmachines voor het web (Google, Bing en Yahoo!) aan verbeteringen van algoritmes en methoden die met hoge precisie kunnen aangeven welke entiteit(en) worden bedoeld in een query. Zij passen dergelijke technieken trouwens al enige tijd in beperkte mate toe. In het bijzonder bij het zogenaamde ‘vertical search’, waarin een incrementeel lerend algoritme beslist wat de intentie van de gebruiker is. Aan de hand van de voorspelde intentie (‘ik wil een boek kopen’, ‘ik wil meer informatie’, et cetera) wordt vervolgens besloten of er, naast de normale webresultaten, ook resultaten worden weergegeven uit ‘vertica- le’ sub-zoekmachines die gespecialiseerd zijn in een bepaald type informatie. Denk aan Google Maps, YouTube of plaatjes, maar ook aan resultaten uit online winkels, blogs, het nieuws, et cetera. In het meest voorkomende geval worden de resultaten uit deze ‘verticals’ verweven met de normale zoekresultaten. De Yahoo! zoekmachine gaat hiermee zelfs nog een stap verder en biedt specifieke overzichtspagina’s aan voor sommige queries. Ook het simpelweg herkennen van bepaalde patronen kan worden beschouwd als een vorm van intelligent zoeken. Probeer maar eens de Google queries ‘time in Amsterdam’, ‘2*2’ of ‘1 dollar in euro’. Of een bepaalde datum.

Andere manieren om concepten en entiteiten in te zetten tijdens het zoeken vinden we in zogenaamde Microformats en in RDFa. Dit zijn semantische talen die als doel hebben om semantiek in te bedden in XHTML-opmaakcode. Waar Microformats een specifiek vocabulaire behelst, kan RDFa gebruikt worden om ieder willekeurig kennismodel in te zetten in de annotatie van (gedeeltes van) webpagina’s. Het doel hiervan is om op een backwards-compatible manier semantische webfunctionaliteit aan webpagina’s te kunnen toevoegen. Dit wordt veelal op automatische wijze toegepast. Zoekmachines kunnen hier vervolgens gebruik van maken, bijvoorbeeld door zogenaamde ‘rich snippets’, waarin dergelijke gestructureerde informatie wordt getoond in het scherm met zoekresultaten. Denk aan resultaten van LinkedIn, waarbij de huidige baan en locatie van een persoon worden getoond, aan recensiescores voor een bepaald product of recept, maar denk ook aan het weergeven van de tijden en locaties waarop een bepaalde film wordt vertoond.

In het algemeen kan je stellen dat een van de ontwikkelingen op weg naar het web 3.0, het zoekgedrag van gebruikers betreft. Waar we in eerste instantie gewend waren aanzienlijke aantallen webpagina’s uit de resultaatpagina’s van zoekmachines te bekijken, wordt tegenwoordig doorgaans slechts de eerste pagina bekeken. Tien jaar geleden keek minimaal 58 procent van de gebruikers alleen naar de eerste resultaatpagina; in 2005 was dit percentage zelfs opgelopen tot meer dan 80 procent. Ook zien we in het zoekgedrag van gebruikers dat we vaker op zoek zijn naar scherper gedefinieerde eenheden, zoals eerdergenoemde entiteiten. Als iemand wil weten waar en hoe laat een bepaalde film in de buurt draait, accepteert men niet langer pagina’s van verschillende bioscopen te moeten bekijken. In plaats daarvan verwachten we dat de zoekmachine ons deze stap uit handen neemt en een overzicht teruggeeft.

Of het nu gaat om dubbelzinnigheid in zoekvragen aan te pakken, het weergeven van intelligente manieren van interactie of de presentatie van zoekresultaten, alle voorbeelden tot dusver laten zien dat semantische zoekmachines de zoekervaring van de gebruiker nu al aan het veranderen zijn.

Recente ontwikkelingen

Eerder kwamen Microformats en RDFa al aan de orde en in het bijzonder hoe deze toegepast worden om de resultaatpagina’s van zoekmachines ‘intelligenter’ te maken. De wildgroei aan verschillende dialecten en de verschillende mate van ondersteuning bij verschillende zoekmachines deden Bing, Google en Yahoo! recentelijk besluiten een gezamenlijk voorstel voor een vocabulaire om entiteiten te beschrijven naar buiten te brengen, waarmee gestructureerde informatie opgenomen kan worden op webpagina’s. Op de bijbehorende website, schema.org genaamd, staan alle categorieën die ondersteund worden, alsmede documentatie voor ontwikkelaars en webmasters. Onder de categorieën bevinden zich entiteitstypen als personen, films, producten, locaties en meer. Ook wordt ondersteuning gegeven voor semantische webtalen als OWL en RDF, met als doel schema.org-annotaties deel uit te laten maken van LOD.

Een andere recente ontwikkeling is Open Graph van Facebook. We kennen allemaal de Facebook ‘Like’-knoppen op websites en dit is de volgende versie daarvan. Facebook erkende een veelgehoorde klacht van gebruikers dat een simpele ‘Like’ in veel gevallen misstond. Gebruikers wilden bijvoorbeeld alleen maar aangeven dat ze iets gezien of gehoord hadden, zonder een impliciet positief waardeoordeel te geven. En, hoewel het in eerste instantie al mogelijk was om een zogenaamd objecttype (zoals ‘acteur’, ‘stad’, et cetera) mee te geven aan datgene dat ‘geliked’ kon worden, werd er maar sporadisch gebruik van gemaakt, voornamelijk vanwege de erg beperkte lijst met ondersteunde types. Open Graph heeft als doel beide bezwaren aan te pakken. Allereerst kan men, naast de ‘Like’-actie, eigen acties definiëren, zoals ‘Listened’, ‘Watched’, et cetera. Ten tweede kunnen nu ook entiteiten aangeduid worden (zogenaamde ‘objects’), waarop de acties betrekking hebben. Maar wat heeft dit te maken met het semantische web? En met zoeken? Het aanduiden van objecten en mogelijke acties die men daarop kan ondernemen, heeft wel degelijk het karakter van het semantische web. Daarnaast zijn alle Facebook-acties, waaronder de bekende ‘Like’-knop, geschreven in RDFa. En, wellicht nog belangrijker, het ondersteunt het sociale karakter van internet en brengt dit naar het semantische web. Met dergelijke annotaties kunnen namelijk gepersonaliseerde suggesties worden gedaan, bijvoorbeeld aan de hand van acties van vrienden of van personen die erg lijken op een gebruiker.

Tot slot is het open source contentmanagementsysteem (CMS) Drupal een vermelding waard. Dit van oorsprong Belgische project wordt over de gehele wereld als backend voor allerlei websites gebruikt. In de laatste versie (Drupal 7) wordt er out-of-the-box ondersteuning geboden voor RDFa. Dit betekent dat alle content op een website met Drupal als CMS, standaard ontsloten kan worden met RDFa. Denk aan personen op een forum, producten in een webshop, of bijvoorbeeld recensies. Door het open karakter van Drupal zijn objecten en types vrijelijk te definiëren en kunnen deze dus met minimale inspanning aangeboden worden als machineleesbare informatie en deel gaan uitmaken van het semantische web.

Tot slot

Met het steeds breder beschikbaar komen van machineleesbare informatie, en methoden om deze informatie te consumeren en produceren, en met het steeds slimmer worden van automatische methoden om entiteiten te herkennen in tekst, komt het semantische web steeds dichterbij. Met behulp van moderne, semantische zoekmachinetechnologieën zijn inmiddels de eerste stappen – van hoge kwaliteit en op grote schaal – gezet om deze informatie in te zetten om gebruikers sneller te laten vinden wat ze zoeken. Of dit alles daad- werkelijk web 3.0 gaat voorstellen zullen we pas over enige tijd weten, maar voor nu ziet de zoekmachine van de toekomst er in ieder geval al slimmer, interactiever en socialer uit.

(Dit artikel verscheen eerder in het tijdschrift Informatie Professional, zie hier voor een hi-res scan daarvan.)

  • E. Meij, “Zoekmachines van de toekomst,” Informatie professional, vol. 11, p. 16–20, 2011.
    Author = {Meij, E.},
    Date-Added = {2012-02-12 10:34:00 +0100},
    Date-Modified = {2012-02-12 10:37:39 +0100},
    Journal = {Informatie Professional},
    Month = {November},
    Pages = {16--20},
    Title = {Zoekmachines van de toekomst},
    Volume = {11},
    Year = {2011}}
  1. Overigens vind het omgekeerde ook plaats, dat wil zeggen het inzetten van zoekalgoritmes zoals Google die gebruikt om wijs te worden uit de gigantische hoeveelheid aan data die op het semantische web in de vorm van gelinkte data te vinden is. Dat is echter niet het onderwerp van dit artikel. []