Semantic Web – Hoe werkt het nou echt?

7

door Lex Slaghuis van wikiwise

Print

op woensdag 18 februari 2009 om 08:00 uur

semwebThe Semantic Web. Een term die regelmatig voorbij vliegt en verbonden wordt met de nieuwste generatie web toepassingen. Met Semantic Web technologie kan verspreide kennis gecombineerd worden en toegankelijk gemaakt. Dus wat is Semantic Web en hoe werkt het in het echt?

Platte data geeft computers geen inzicht

flat De basis van de huidige zoeksystemen is dat deze html-tekst geörienteerd zijn. De meeste hebben geen notie van structuur of relaties binnen een kennisdomein. Als er complexe zoekvragen worden gesteld schieten huidige zoekmachines daarom te kort. Een overzicht van alle staatshoofden van Europa kan alleen beantwoord worden als er een webpagina over bestaat.

Wikipedia’s long tail is niet lang genoeg

Het is bijna niet te geloven, zelfs de kracht van crowdsourcing schiet te kort als het gaat om onze individuele informatiebehoefte. Er zijn meer vragen dan Wikipedia kan beantwoorden. Het taggen van content biedt maar een beperkt soelaas, computers kunnen simpelweg niet redeneren aan de hand van tekst.

Dit is een gemiste kans, want deze kennis is vaak in verspreide vorm op het web wel aanwezig. Wat we willen is dat machines in staat zijn deze kennis voor ons op  maat bij elkaar te brengen. Hiervoor dienen ze ‘begrip’ te krijgen van de informatie wie wij met zijn allen creëren. Zoals mensen weten dat een roos een bloem en een plant is, hebben computers ontologieën nodig om dit te snappen.

Ontologie biedt houvast voor computers

plato Een ontologie is een model of structuur van kennis. In plaats van platte tekst of data aan te bieden, dienen de data vergezeld te worden van een ontologie. Een standaardtaal hiervoor is RDF/XML. De tekst: “Jan Peter Balkende isMinisterOf The Netherlands” zou je kunnen vervangen door het volgende stukje RDF/XML:

<rdf:Description rdf: about=#Jan Peter Balkende”>
<isMinisterOf rdf:resource=”#The Netherlands “/>
</rdf:Description>

RDF Schema (rdfs) en extensie OWL bouwen dit uit met relatietypen zoals type, subclasse en eigenschap. OWL zorgt hierbij met name voor regeltjes, ‘constraints’ en business rules & logica. Deze ‘programmeerwerkjes’ zijn aan mensen niet zo goed besteed. Daarom zijn er ook verschillende tools (RDF’izers) en andere initiatieven die helpen bij het semantiseren van data.

Conversie naar semantische media

silo Open Calais van Reuters is een platform dat pagina’s via een API naar semantische pagina’s verrijkt. Hierbij put Reuters uit haar database van personen, plaatsen en locaties.

PlatypusWiki is een pakket waarmee semantische wiki’s gemaakt kunnen worden. Semantic wiki is een upgrade van de ‘Wikipedia’ Mediawiki software om semantische pagina’s te bouwen. Bij Wikipedia is er ook al nagedacht over mogelijke stappen om de Wikipedia over te zetten naar een dergelijk formaat.

DBPedia is een systeem dat de pagina’s van het origineel Wikipedia AFC Bournemouth heeft omgezet naar het semantische DbPedia A.F.C._Bournemouth. Vervolgens kan een dynamisch overzicht op basis Wikipedia gemaakt worden van alle Engelse en Schotse clubs.

amsterdamFreebase is een gestructureerde encyclopedie, geladen met semantische technieken op basis van bestaande bronnen zoals Wikipedia en de Notable Names Database.

Feiten kunnen ook gecontroleerd worden met behulp van niet semantische Information Extraction technieken, zoals de TextRunner zoekmachine demonstreert (’Who is president of the USA?’) op basis van Google zoekresultaten demonstreert.

Conversie naar semantische datasets

link2Internet is al een hoop databases rijk. Deze kunnen ook als semantische datasets (Linked Data) ontsloten worden (overzicht van Medische Linked Data bronnen).

Er zijn inmiddels ook al tools die een relationele database inlezen, de metadata eruit halen en vervolgens zo goed als mogelijk een Semantische versie geven.

Native applicaties

Ook zullen er applicaties ontstaan met als doel oms informatie uit processen semantisch te ontsluiten; wellicht een tool voor de stemmingen in de Tweede Kamer of een semantisch logboek voor vlieg- en vogelspotters? Je begrijpt, of er daadwerkelijk Quantanamobay vluchten op Schiphol zijn uitgevoerd kan dan zelfs de domste computer je vertellen.

Vervolgens combineren en opzoeken

Heel mooi al die semantische data; maar wat kunnen we er vervolgens mee? SPARQL is een taal zoals SQL waarmee semantische queries kunnen worden uitgevoerd (zie voorbeeld). Daarmee kunnen datasets gecombineerd worden en vervolgens kan er weer informatie uitgehaald worden. Dit wordt gedaan door de OWL ontologieën op elkaar te mappen.

Begrip creëren door intelligente afleiding

Dat betekent niet dat via SPARQL meteen alle problemen uit de lucht zijn. Als de datasets en de ontologieën niet goed aansluiten, kan er alsnog niets afgeleid worden. In plaats van de standaard ‘error’  kunnen semantische applicaties op basis van de ontologie uitleggen wat er mis is.  Wellicht dat in de toekomst A.I. algoritmen hier een rol gaan spelen.

Semantisch web voor gebruikers

Hoe gaan gebruikers het sematische web ervaren? Complexe verspreide kennis wordt toegankelijker en kan gecombineerd worden tot grafische overzichten of concrete ‘kennis-snippets’. Zoekmachines zullen betere en intelligentere resultaten gaan geven en relevante informatie kan makkelijker aangeboden worden (zoals de autotagging van Open Calais).

Kortom, genoeg te halen op het semantische web!

Met dank aan de Creative Commons foto van azfarhakim.

Lex Slaghuis adviseert, begeleidt en realiseert trajecten met een wiki-component. Hij blogt op wikiup.nl, met name over de nieuwste ontwikkelingen op het gebied van wiki’s.

1 stem stem
  1. Renata Verloop van webmanagement.nl op 18 februari 2009 om 11:23 uur

    Hallo Lex, hoewel ik zelf best veel weet over metadatering en dergelijke vind ik dit best een ingewikkeld artikel.

    Zou je iets meer kunnen vertellen over wat organisaties NU al zouden moeten doen om op deze ontwikkelingen voorbereid te zijn (of daar een keer een posting aan wijden)? Semantiek is namelijk best een lastig onderwerp en beperkt zich volgens mij niet tot de techniek. Ik ben bijvoorbeeld nog heel vaak aan redacteuren aan het uitleggen waarom het belangrijk is voor een tussenkop een H2 of H3 te gebruiken in plaats de tekst gewoon vet te maken :-) Of is dat een ander begrip van semantiek dan waar jij het over hebt?

  2. Lex Slaghuis van wikiwise.nl op 18 februari 2009 om 12:10 uur

    Beste Renata,
    Semantiek voor mensen is vaak verbonden met opmaak maar Semantic web gaat enkel over computerstructuur. Een voorbeeldwebpagina in pseude semantische taal van frankwatching trainingen:

    classe Frankwatching trainingen
    -subclasse Marketing trainingen
    * subclasse Crossmedia; eigenschap datum 3 maart 2009; eigenschap trainer Frank; eigenschap pagina http://www.enz.nl/cross
    * subclasse AndereMarketingTraining; enz

    Ziet er voor de gebruiker gewoon uit als:
    Frankwatching trainingen
    -Marketing trainingen
    * Crossmedia; datum 3 maart 2009; trainer Frank; pagina http://www.enz.nl/cross
    * AndereMarketingTraining; enz

    Echter een zoekmachine kan voorbeeld deze pagina semantisch indexeren. Als ik vervolgens vraag: Geef mij alle trainingen (in de toekomst) over crossmedia met frank als trainer, dan geeft deze een lijst. Het voordeel is dan dat niet iedereen die Frank heet en ooit een crossmedia training bezocht heeft ook in de zoekresultaten zit.

    Wat betreft je vraag over NU stappen nemen:
    Organisaties die regelmatig gestructureerde informatie publiceren, kijk eens goed naar de mogelijkheden voor XML als beginstap. Denk aan overheidsaanbestedingen, politieke stemmingen, vergunningspublicaties. Zorg dat al je toekomst gerichte systemen in ieder geval kunnen XML ondersteunen.
    Heb je complexe kennisstructuren in huis en wil die delen met partners? Overweg dan om samen een ontologisch model te ontwikkelen. Deel dit model vrij en open, zodat andere partners zich ook kunnen aansluiten.
    Als laatste: Houd semantische web in de gaten, want er bestaat de kans dat je organisatie ongunstig in de “wikipedia voor computers” komt. Wooops, foutje van de computer!

  3. mildo op 18 februari 2009 om 14:08 uur

    Hoi Lex, mooi verhaal. Begrijp ik het goed dat je dus ook bestaande datasets kan verrijken met ontlogieen en overzetten naar semantische web? Bij BZK hebben we bijvoorbeeld een onderzoeksdatabank waarin het lastig zoeken is, de zoekfunctie is niet geweldig, maar je wil ook iets van verwijzingen erin hebben zoals bij Amazon. “Gebruikers die die dit onderzoek hebben geraadpleegd, hebben ook deze anderen geraagdpleegd”. En iets van een Digg erin: dus mensen kunnen ook zeggen welk onderzoek ze relevant vnden enz… Zie jij semantische mogelijkheden op basis van bestaandee datasets? Thnx!

  4. Lex Slaghuis van wikiwise.nl op 18 februari 2009 om 14:33 uur

    Hi Mildo

    Bestaande datasets kan je ontsluiten als Semantische bronnen. Dit betekent dat de database nog steeds een SQL-achtige kan zijn en blijven. Wat er dan gebeurt is dat er webservice opgelegd kan worden die deze als XML aanbiedt. Indien er een ontologie op de verschillende tabellen gemapt wordt kan deze gebruikt worden door de webservice om de XML verrijkt aan te bieden als RDFs/OWL. De webservice vouwt de semantische context dan bij de XML-data in.Let op; we spreken hier nog steeds over een publicatie (pagina’s of API’s_ van informatie op basis van voorgedefinieerde vragen (alle voetballers met de naam X). Indien er open query’s toegelaten moeten worden (voetballers & linksback & FC twente, dan is iets als SPARQL nodig die gaat redeneren en vervolgens zoeken in het systeem.

    Wil je vervolgens context informatie a la Amazon aanbieden, dan dient 1) huidige context gesemantiseerd te worden 2) deze voorgelegd te worden aan een Intelligente applicatie die op basis van (een aantal) semantische queries op het systeem tot een aanbeveling van interessante bronnen komt.

    Wat jouw voorstel implicieert is dat naast de onderzoeksbank, er een gebruiksbank wordt opgebouwd. Dit kan door 1) gedrag direct te vertalen in semantische interesse gebieden en dit semantisch op te slaan (Native) , dan wel 2) dit gedrag te loggen (met hits, pageviews en searchwoorden) en ouderwets op te slaan. Om vervolgens dit als semantische data weer te ontsluiten.

    Ik zou dit semantic recommender systemen noemen, maar hoeverre dit bestaat weet ik niet.

  5. Kim van hosting-art.nl op 18 februari 2009 om 21:07 uur

    Hoi Lex,

    Ik weet dat ze hier op de Universiteit in Kahrlsruhe al redelijk ver mee zijn (ook een Nederlander aan verbonden). Zo is er door hun een tooltje genaamd text2onto ontwikkeld dat zonder kennis van een woordenboek een ontologie kan extraheren uit een lap tekst. Boeiende materie en ik verdiep me al jaren in de eventuele mogelijkheden van een semantisch web. Jammer ook om te lezen dat de term in mijn ogen een beetje begint te divergeren. Semantiek betekent namelijk niets meer dan “betekenis”, dus we zijn op zoek naar een betekenisvol web. In mijn ogen gaat dit vele malen verder dan datasets aan elkaar knopen en mashups maken. Ik denk dat hiervoor ook browser-aanpassingen (of aanpassingen aan HTML en daarmee aan browsers) moeten worden gedaan en dat semantiek moet terugkomen in intuïtiever het web betreden dan altijd maar via Google in de hoop dat je op de juiste plek terecht komt. Semantisch navigeren is voor de mens toch een stuk logischer. Het hele Internet schijnt in 2 weken te indexeren te zijn, dus ik ben benieuwd wat er straks tevoorschijn komt als we daar wat tools op loslaten en mooie navigatie kunnen aanbieden, maar meteen ook relaties tussen topics (en ook tussen relaties onderling) kunnen aanleggen. Die kant moet het op wat mij betreft! Laat het “Semantisch Web” alsjeblieft niet de meest overschatte en misbruikte term ooit, Web2.0, overtreffen.

  6. Jochem Prins van jochemprins.com op 19 februari 2009 om 00:53 uur

    Leuk artikel, goed om te zien dat er steeds meer aandacht voor het semantisch web en semantisch zoeken is.

    Het enige dat ik nog mis is een referentie naar RDFa (http://www.w3.org/TR/xhtml-rdfa-primer/). Ik denk dat dit een goede eerste stap is om een meer betekenis-vol web op te bouwen. Bij Exalead besteden we hier al aardig wat aandacht aan en zodra meer mensen in RDFa gaan publiceren zullen we dit ook zeker in onze webindex gaan gebruiken.

    @Mildo: er zijn zeker al goede mogelijkheden om databronnen binnen organisaties te doorzoeken waarbij de data semantisch verrijkt wordt. Sterker nog, wij specialiseren ons daar in. Laat maar weten indien je daar meer over wilt weten.

    @Kim: de ‘aanpassing van html’ waar je over spreekt is in feite al door het W3C ontwikkeld in de vorm van RDF en RDFa.

  7. Wolfram Alpha volgens Hulbee « The Sausage Machine van wordpress.com op 22 mei 2009 om 00:47 uur

    [...] De Blogoloog ontdekte onder ‘populair’. Wie zoekt die vindt! Van 2.0 walsen naar 3.0 … Naast mijn vertrouwde Google en Wikipedia staat vanaf nu mijn Wolfram Alpha als een [...]

Schrijf een reactie


Opmaak uitschakelen