Inloggen Geen profiel? Registreer hier.

Een feedback/correctie mechanisme op Linked Open Data

13/02/2014

Opiniestuk van dr. Peter Mechant en Mathias Van Compernolle, onderzoekers bij de Research Group for Media & ICT (MICT) iMinds - Digital Society in kader van de projecten Open Standaarden voor Lokale Overheden (OSLO), Vlaamse Integratieprojecten (VIP) en  EWI Open Data.

In 2011 stelde AGORIA ICT al dat het wegnemen van drempels die het hergebruik van overheidsinformatie verhinderen positieve gevolgen heeft. Overheidsinformatie hergebruiken en ‘open’ stellen kan immers de Vlaamse kenniseconomie stimuleren en een kostenreductie en innovatieve dienstverlening aan burgers en bedrijven ondersteunen. Op die manier dragen Open Data - niet-persoonsgebonden gegevens en datasets die de overheid en de private sector openstellen - bij tot innovatie, een hogere transparantie en interoperabiliteit in de werking van de overheid en een hogere efficiëntie zowel binnen als buiten de overheid.

‘Open Data’ is met andere woorden een essentieel onderdeel, een basiscomponent van de informatiemaatschappij. In Vlaanderen lopen er, naast beleidsmaatregelen en ‘bottom-up’ initiatieven (bv. Apps for Gent), verschillende Open Data projecten die bijvoorbeeld een ondersteunend technisch platform  ontwikkelen (The Datatank), datastandaarden concretiseren (OSLO)  of Open Data trachten te verbinden (zogenaamde Linked Data).  

 Hogere transparantie, betere en efficiëntere processen, een hogere interoperabiliteit … we horen het ons graag vertellen en het zijn ‘buzz words’ en argumenten die in menige discussie over Open en Linked Data aangehaald worden. Wat echter vaak vergeten wordt is dat de kwaliteit van de Open en Linked datasets een rechtstreekse impact heeft op de mate waarin deze ‘buzz words’ effectief kunnen worden verwezenlijkt door datasets open te stellen en met elkaar te verbinden. Meer zelfs, Christopher Davies wijst ons, in zijn PhD over Open Data, op de ‘mythe van datakwaliteit’. Terecht stelt hij dat het verzamelen van data steeds een proces is van keuzes en afwegingen, waarbij de kwaliteit, en in het bijzonder de accuraatheid en de volledigheid van de verzamelde datasets, afhankelijk is van de geleverde inspanningen en de geïnvesteerde tijd en geld.

Figuur 1: Verschillende aspecten van dataverzameling (Davies, 2012, p. 10)

Kortom, het is heel moeilijk om tegelijkertijd de accuraatheid, de volledigheid én de betaalbaarheid van Open datasets te garanderen. Eén mogelijke oplossing om de kwaliteit van Open en Linked datasets te bewaken en te verhogen werd onlangs aangereikt tijdens een brainstormsessie voor het VIP project ‘Gedeelde Catalogus voor Publieke Dienstverlening’, een praktische implementatie van OSLO en IPDC.

Een deelnemer aan de brainstorm stelde er dat “de burger zowel actief als passief bij de data moet betrokken worden” en dat burgers “de kans moeten krijgen de data te verrijken”.  

 

Wij menen dat dergelijke ‘crowdsourcing’ activiteiten, waarbij beroep gedaan wordt op de input en de feedback van derden om fouten in datasets te signaleren en te corrigeren, inderdaad het potentieel hebben om datakwaliteit te verhogen. Tegelijkertijd mag men echter ook niet blind zijn voor de inspanningen die dergelijke ‘crowdsourcing’ activiteiten vergen in termen van communicatie en het warm maken en engageren van de crowd. Bovendien vergt het ontvangen en verwerken van de resultaten van crowdsourcing op Open en Linked data een specifieke technologische architectuur die toelaat dat er verschillende gecorrigeerde en verrijkte versies van de datasets bestaan.

 

Daarom timmert iMinds, een onafhankelijke onderzoeksinstelling die in opdracht van de Vlaamse overheid innovatie binnen ICT stimuleert, momenteel aan een technologisch platform, een data repository voor Open en Linked Data, dat dergelijke correctiemechanismes en feedbackloops, ondersteunt.

 

Een eerste versie van deze data repository werd onlangs opgeleverd en draagt de naam R&WBase (spreek uit rawbase). Zonder in al te technisch jargon te vervallen, bestaat R&WBase uit een interpretatie laag die boven op een Linked database of ‘Triple database’ komt te staan en zo gedistribueerde versie controle mogelijk maakt. Op die manier kunnen dus verschillende ‘versies’ van datasets bijgehouden worden, verkrijgen we inzicht in de herkomst (provenance) en kan men makkelijk nagaan wat de verschillen zijn tussen deze versies. R&WBase biedt dus de kans om op een gestructureerde manier verschillende versies van een dataset die door correctiemechanismes tot stand komen of die gecreëerd worden doordat incorrecte gegevens via een feedbackloop worden aangepast, bij te houden.

 

Tegelijkertijd werkt iMinds (onderzoeksgroepen MMLab en MICT) aan deze transitie mee in het Vlaams Innovatie Project Gedeelde Catalogus voor Publieke dienstverlening, dit  project werd ingediend door V-ICT-OR, De Stad Gent en VDAB in kader van de VIP projecten van CORVE.

 

 

Werkgroepen Gedeelde Catalogus voor Publieke dienstverlening, een initiatief van V-ICT-OR,
De Stad Gent en VDAB in kader van de VIP projecten van CORVE.

 

Door het gebruik van unieke bronnen van contactinformatie (openingsuren, generiek e-mailadres om contact te nemen…) die gelinkt zijn aan contactgegegevens op de website van een lokaal bestuur kunnen gegevens optimaal gedeeld worden. Door deze contactgegevens als Open Data te publiceren wordt het mogelijk om deze te linken aan andere informatiebronnen.

Op die manier ontstaat een platform dat burgers, ondernemingen en ambtenaren de weg wijst naar verschillende overheidsdiensten. Zo kan  een vergunning sneller aangevraagd worden wanneer een burger plant te verhuizen naar een nieuwe gemeente, met behulp van een consulent in zijn huidige woonplaats. Tegelijkertijd ontstaat een correctiemechanisme waarbij incorrecte gegevens van buitenaf gesignaleerd kunnen worden door middel van een feedbackloop.

De meerwaarde van deze toepassingen, naast hun innovatieve karakter en streven naar verdere kwaliteit, schuilt in het feit dat het aansluit en verder bouwt op eerdere initiatieven zoals:

-        De productencatalogus (IPDC)

-        Beleids- en beheerscyclus die veranderingen impliceert bij lokale overheden (BBC)

-        Open Standaarden Lokale Overheden (OSLO v1).

 

Op die manier bieden de Read-Write database infrastructuur (R&WBase), en het Linked Open Data platform van iMinds overheden en instellingen de kans om feedback te verzamelen. Zo kunnen burgers en andere belanghebbenden sterker betrokken worden in de Open en Linked data ecologie. En op die manier komt de visie van Tim Berners-Lee die het www ziet als een “collaborative medium, a place where we all meet and read and write”, alweer een stapje dichterbij.