18 feb 2009 om 08:00 3 min lezen

Semantic Web – Hoe werkt het nou echt?

Lex Slaghuis

The Semantic Web. Een term die regelmatig voorbij vliegt en verbonden wordt met de nieuwste generatie web toepassingen. Met Semantic Web technologie kan verspreide kennis gecombineerd worden en toegankelijk gemaakt. Dus wat is Semantic Web en hoe werkt het in het echt?

Platte data geeft computers geen inzicht

De basis van de huidige zoeksystemen is dat deze html-tekst geörienteerd zijn. De meeste hebben geen notie van structuur of relaties binnen een kennisdomein. Als er complexe zoekvragen worden gesteld schieten huidige zoekmachines daarom te kort. Een overzicht van alle staatshoofden van Europa kan alleen beantwoord worden als er een webpagina over bestaat.

Wikipedia’s long tail is niet lang genoeg

Het is bijna niet te geloven, zelfs de kracht van crowdsourcing schiet te kort als het gaat om onze individuele informatiebehoefte. Er zijn meer vragen dan Wikipedia kan beantwoorden. Het taggen van content biedt maar een beperkt soelaas, computers kunnen simpelweg niet redeneren aan de hand van tekst.

Dit is een gemiste kans, want deze kennis is vaak in verspreide vorm op het web wel aanwezig. Wat we willen is dat machines in staat zijn deze kennis voor ons op maat bij elkaar te brengen. Hiervoor dienen ze ‘begrip’ te krijgen van de informatie wie wij met zijn allen creëren. Zoals mensen weten dat een roos een bloem en een plant is, hebben computers ontologieën nodig om dit te snappen.

Ontologie biedt houvast voor computers

Een ontologie is een model of structuur van kennis. In plaats van platte tekst of data aan te bieden, dienen de data vergezeld te worden van een ontologie. Een standaardtaal hiervoor is RDF/XML. De tekst: “Jan Peter Balkende isMinisterOf The Netherlands” zou je kunnen vervangen door het volgende stukje RDF/XML:

<rdf:Description rdf: about=#Jan Peter Balkende”>
<isMinisterOf rdf:resource=”#The Netherlands “/>
</rdf:Description>

RDF Schema (rdfs) en extensie OWL bouwen dit uit met relatietypen zoals type, subclasse en eigenschap. OWL zorgt hierbij met name voor regeltjes, ‘constraints’ en business rules & logica. Deze ‘programmeerwerkjes’ zijn aan mensen niet zo goed besteed. Daarom zijn er ook verschillende tools (RDF’izers) en andere initiatieven die helpen bij het semantiseren van data.

Conversie naar semantische media

Open Calais van Reuters is een platform dat pagina’s via een API naar semantische pagina’s verrijkt. Hierbij put Reuters uit haar database van personen, plaatsen en locaties.

PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’ Mediawiki software om semantische pagina’s te bouwen. Bij Wikipedia is er ook al nagedacht over mogelijke stappen om de Wikipedia over te zetten naar een dergelijk formaat.

DBPedia is een systeem dat de pagina’s van het origineel Wikipedia AFC Bournemouth heeft omgezet naar het semantische DbPedia A.F.C._Bournemouth. Vervolgens kan een dynamisch overzicht op basis Wikipedia gemaakt worden van alle Engelse en Schotse clubs.

Freebase is een gestructureerde encyclopedie, geladen met semantische technieken op basis van bestaande bronnen zoals Wikipedia en de Notable Names Database.

Feiten kunnen ook gecontroleerd worden met behulp van niet semantische Information Extraction technieken, zoals de TextRunner zoekmachine demonstreert (‘Who is president of the USA?’) op basis van Google zoekresultaten demonstreert.

Conversie naar semantische datasets

Internet is al een hoop databases rijk. Deze kunnen ook als semantische datasets (Linked Data) ontsloten worden (overzicht van Medische Linked Data bronnen).

Er zijn inmiddels ook al tools die een relationele database inlezen, de metadata eruit halen en vervolgens zo goed als mogelijk een Semantische versie geven.

Native applicaties

Ook zullen er applicaties ontstaan met als doel oms informatie uit processen semantisch te ontsluiten; wellicht een tool voor de stemmingen in de Tweede Kamer of een semantisch logboek voor vlieg- en vogelspotters? Je begrijpt, of er daadwerkelijk Quantanamobay vluchten op Schiphol zijn uitgevoerd kan dan zelfs de domste computer je vertellen.

Vervolgens combineren en opzoeken

Heel mooi al die semantische data; maar wat kunnen we er vervolgens mee? SPARQL is een taal zoals SQL waarmee semantische queries kunnen worden uitgevoerd (zie voorbeeld). Daarmee kunnen datasets gecombineerd worden en vervolgens kan er weer informatie uitgehaald worden. Dit wordt gedaan door de OWL ontologieën op elkaar te mappen.

Begrip creëren door intelligente afleiding

Dat betekent niet dat via SPARQL meteen alle problemen uit de lucht zijn. Als de datasets en de ontologieën niet goed aansluiten, kan er alsnog niets afgeleid worden. In plaats van de standaard ‘error’ kunnen semantische applicaties op basis van de ontologie uitleggen wat er mis is. Wellicht dat in de toekomst A.I. algoritmen hier een rol gaan spelen.

Semantisch web voor gebruikers

Hoe gaan gebruikers het sematische web ervaren? Complexe verspreide kennis wordt toegankelijker en kan gecombineerd worden tot grafische overzichten of concrete ‘kennis-snippets’. Zoekmachines zullen betere en intelligentere resultaten gaan geven en relevante informatie kan makkelijker aangeboden worden (zoals de autotagging van Open Calais).

Kortom, genoeg te halen op het semantische web!

Met dank aan de Creative Commons foto van azfarhakim.

Lex Slaghuis adviseert, begeleidt en realiseert trajecten met een wiki-component. Hij blogt op wikiup.nl, met name over de nieuwste ontwikkelingen op het gebied van wiki’s.

▶