Maak meer mogelijk met metadata » Raph de Rooij

Tijdschrift voor webwerkers » Artikel #115

Vrijwel iedereen die websites maakt kent elementen als <meta name="description" content="Korte beschrijving van de inhoud van de pagina">. Vraag is alleen: wat heb je eraan?

Volgens sommigen zijn dit soort meta-elementen belangrijk om een website te optimaliseren voor zoekmachines. Volgens anderen hebben ze geen toegevoegde waarde, omdat meta-elementen veelvuldig oneigenlijk worden gebruikt en daardoor worden genegeerd door de meeste zoekmachines. Zoals altijd ligt de waarheid ergens in het midden.

Er zijn zeker toepassingen denkbaar waarbij het gebruik van metadata – de informatie die door middel van meta-elementen in HTML-documenten kan worden vastgelegd – op het web zinvol kan zijn. Bijvoorbeeld in het geval van een grote verzameling onafhankelijk van elkaar opererende websites die toch iets gemeenschappelijk hebben. De websites van de overheid voldoen aan dit voorbeeld. Hoe vind je snel en efficiënt de bruikbare informatie in die verzameling? Welke informatie in de verzameling is aan elkaar verwant? Wat voor soort informatie is het eigenlijk en wat is de status ervan? Een zoekmachine die alles full-text indexeert is ongetwijfeld bruikbaar, maar schiet bij het zoeken naar antwoorden op dergelijke vragen toch al snel tekort.

DNA-profiel

Zomaar toevoegen van metadata aan webdocumenten – beter is trouwens om te spreken over resources – leidt echter niet vanzelf tot een betere vindbaarheid. De term die hier van belang is, is verrijkte metadata. Daarmee kan als het ware een uniek DNA-profiel van een resource worden gemaakt: de verschillende eigenschappen van de resource worden volgens een vooraf bepaald stramien vastgelegd. Voor elke eigenschap bestaat één corresponderend metadata-element. En voor meeste elementen zijn er encoding schemes, waarin wordt bepaald welke waarde(n) het metadata-element kan of mag bevatten. Er zijn twee soorten encoding schemes: vocabulary encoding schemes - in gewoon Nederlands: lijsten met toegestane waarden - en syntax encoding schemes, waarin de notatiewijze van een waarde is gedefinieerd. Een lijst met alle gemeentenamen in Nederland is een voorbeeld van een vocabulary encoding scheme. 2005-07-14T12:15 is de voorgeschreven notatiewijze van het syntax encoding scheme W3CDTF (W3C's Date Time Format). Leesbaar voor mensen, maar ook te begrijpen door een machine.

Verbanden leggen

Begrijpelijkheid voor machines is misschien wel de belangrijkste eigenschap van verrijkte metadata. Omdat uitsluitend gebruik wordt gemaakt van waarden waarvan de betekenis zo eenduidig mogelijk is vastgelegd, kan een computer grote hoeveelheden verschillende resources analyseren en razendsnel zinvolle verbanden leggen. Verschillende eigenschappen zijn daarbij te gebruiken als filter. Wie in de gemeente Aalburg woont heeft doorgaans weinig aan de informatie van de gemeente Zwolle. Maar wel aan informatie van de provincie Noord-Brabant en van het Waterschap Rivierenland. Met behulp van verrijkte metadata kan de informatie, die via verschillende websites wordt ontsloten, worden uitgefilterd en met elkaar in verband worden gebracht. Stel: je woont in Aalburg in een prachtig optrekje op een stuk grond dat grenst aan de Maas. In de rivier wil je een aanlegsteiger maken voor je jacht. Bij wie moet je zijn voor een vergunning? Bij de gemeente, de provincie, het waterschap of zelfs bij alle drie? En om wat voor vergunning(en) gaat het dan? In de nabije toekomst moet het mogelijk worden om snel en eenvoudig een betrouwbaar antwoord te vinden op een dergelijke vraag. Klassieke full text zoekmachines schieten op dat punt al snel tekort; die bezitten niet de eigenschap om te herkennen door wie de informatie is gecreëerd, wat voor type informatie het is, of de inhoud (nog) geldig is, etcetera. En 'intelligente' systemen zijn voorlopig nog niet intelligent genoeg om een betrouwbaar DNA-profiel te maken van een resource. Goud maken van lood, het recept waar alchemisten in vervlogen tijden naar zochten, blijkt nog steeds een utopie. Zo is uit proefnemingen gebleken dat een 'intelligent' systeem er niet zondermeer in slaagt betrouwbaar gegevens als onderwerpen of plaatsnamen uit een groep documenten te destilleren. Maar sommige systemen blijken wel slim genoeg om zinvolle dingen te doen met het beetje structuur dat door middel van metadata aan resources is toegevoegd. Kwaliteitsverbetering bijvoorbeeld.

Standaard

In het kabinetsplan 'Andere Overheid' van december 2003 staat: "Voor www.overheid.nl en andere overheidsportals zal een zoekmachine worden ontwikkeld, die de burger snel en efficiënt de weg wijst naar de gezochte overheidsinformatie, -diensten en -organisaties." Deze zoekmachine zal in staat zijn gebruik te maken van verrijkte metadata. De overheidsbrede metadatastandaard die daarvoor is ontwikkeld is gebaseerd op Dublin Core. Dit is een relatief eenvoudige en veelgebruikte standaard, waarvoor de basis tien jaar geleden werd gelegd tijdens een bijeenkomst in Dublin, Ohio in de Verenigde Staten. Verschillende overheden maken inmiddels gebruik van Dublin Core als basis, waaronder Australië, Nieuw Zeeland, Finland, Denemarken, Canada, Ierland, het Verenigd Koninkrijk en Nederland. De keuze voor deze standaard heeft een belangrijk voordeel: er is al vele jaren denk- en ontwikkelingswerk in gestoken en dat maakt een snelle start mogelijk.

Maar met alleen een metastandaard ben je er niet: ook zijn handleidingen nodig waarin per informatietype gedetailleerd wordt beschreven welke metadata-elementen moeten en mogen worden gebruikt en wat de toegestane waarden zijn. Zo is voor een wettekst andere metadata van belang dan voor een beschrijving van een database. In het eerste geval is bijvoorbeeld van belang om te weten in welke periode de inhoud van de resource geldig is, in het andere hoe vaak de database wordt bijgewerkt en door wie. Dit soort handleidingen wordt in de Dublin Core terminologie application profiles genoemd. In application profiles wordt ook vastgelegd welke encoding schemes dienen te worden gebruikt in combinatie met de verschillende metadata-elementen. In het bijzonder de vocabulary encoding schemes moeten specifiek voor de Nederlandse situatie worden ontwikkeld. En dat is een precies en tijdrovend karwei.

Bovendien moet de zoekmachine in staat zijn om alle relevante informatiebronnen op internet te indexeren. De gebrekkige kwaliteit van veel webinterfaces, vooralsnog de belangrijkste interface bij het verzamelen van informatie op het web, is daarbij een belangrijk struikelblok. Om dat probleem te kunnen oplossen, zijn de Webrichtlijnen ontwikkeld. Deze Webrichtlijnen bieden waarborgen dat ondermeer zoekmachines via de webinterface ongehinderd toegang hebben tot de informatie op een site.

Matchen van vraag en aanbod

En dan ben je er nòg niet, want het is maar de vraag of de eindgebruiker – degene voor wie je het uiteindelijk allemaal doet - uit de voeten kan met de manier waarop het aanbod van informatie is gestructureerd. Het is absoluut niet vanzelfsprekend dat aanbod en vraag optimaal op elkaar zijn afgestemd. Met metadata kunnen DNA-profielen worden gemaakt van een resource, dat is hierboven al uitgebreid aan de orde gekomen. Maar ook aan de gebruikerskant kun je iets doen met metadata. Nu is de uitdaging op dit punt dat het profiel van een gebruiker voortdurend verandert al naar gelang de context waarin die gebruiker zich bevindt. Werknemer, ouder, inwoner, verkeersovertreder, belastingbetaler; je kunt het allemaal zijn en soms nog tegelijkertijd ook. Bovendien wil je die profielen, of in elk geval delen ervan, kunnen uitwisselen tussen informatiedomeinen om het aanbod optimaal te kunnen afstemmen op de vraag. Dat maakt het nog ingewikkelder om gebruikersprofielen te creëren die bruikbaar zijn om te matchen met de beschikbare informatie. Aan een oplossing wordt gewerkt: het Telematica Instituut, de technische universiteiten van Eindhoven en Delft en IBM nemen deel aan het project 'Alter Ego', dat moet leiden tot een Universal Profiling Infrastructure (UPI).

Raamwerk

Een metadatastandaard, encoding schemes, application profiles, user profiling, de zoekmachine uit 'Andere Overheid' èn de Webrichtlijnen zijn stuk voor stuk componenten in een gemeenschappelijk raamwerk waarmee gegevens kunnen worden uitgewisseld tussen systemen, organisaties en eindgebruikers. En waarmee gebruik en hergebruik van informatie een heel nieuwe dimensie kan krijgen. Andere componenten van zo'n semantisch web zijn taxonomieën, thesauri, ontologieën en W3C-standaarden als Resource Description Framework (RDF), de Web Ontology Language (OWL) en 'the new kid on the block', het Simple Knowledge Organising System (SKOS). Allemaal componenten die, als ze in de juiste samenhang worden gebruikt, een veel beter zicht kunnen geven op informatie dan je op grond van die paar meta-elementen in webdocumenten zou verwachten.

Bronnen

Heb je behoefte aan meer uitleg over de mogelijkheden van metadata? Hoe het werkt? En hoe het er uitziet? Achter onderstaande links gaat een wereld van informatie schuil die waarschijnlijk nog niet bij elke webwerker bekend is, maar de komende jaren wel belangrijker gaat worden voor de beroepsgroep.

Dublin Core metadata:
- http://www.dublincore.org/ (Engelstalig)
- http://www.advies.overheid.nl/metadata/
- http://www.regering.nl/meta/thc
- http://www.fao.org/agris/agmes/FAQ/faq.htm (Engelstalig)
Semantisch Web:
- http://www.w3.org/2001/sw/ (Engelstalig)
- RDF: http://www.w3.org/RDF/ (Engelstalig)
- OWL: http://www.w3.org/2004/OWL/ (Engelstalig)
- SKOS: http://www.w3.org/TR/swbp-skos-core-spec/ (Engelstalig)
Universal Profiling Infrastructure:
- http://www.telin.nl/project.cfm?id=901&language=nl
- https://doc.telin.nl/dscgi/ds.py/View/Collection-7969 (Engelstalig)
Webrichtlijnen:
- http://webrichtlijnen.overheid.nl/

Raph de Rooij

Raph heeft iets met standaarden; in het verleden zaten ze vooral op fietsen – zie www.raph.nl – maar tegenwoordig houdt hij zich vooral bezig met webstandaarden. Zijn werk bij het bureau Advies Overheid.nl bestaat er tegenwoordig vooral uit, om de toepasbaarheid van dergelijke standaarden door de overheid te verbeteren. Webrichtlijnen en Webmetadata zijn twee projecten waar hij aan de wieg stond.

Publicatiedatum: 26 oktober 2005

Naar Voren is op 18 juli 2010 gestopt met publiceren. De artikelen staan als een soort archief online. Het kan dus zijn dat de informatie verouderd is en dat er inmiddels veel betere of makkelijkere manieren zijn om je doel te bereiken.