Data science

Hoe optimaliseer je de kwaliteit van data voor voor datagedreven werken?

27 Mei 2024 - 4 minuten leestijd
Artikel door Natan Van Der Knaap

In het eerste artikel van deze reeks hebben we vastgesteld dat datagedreven werken een hoge datakwaliteit vereist. In dit tweede en laatste artikel vertellen we je hoe je de datakwaliteit kunt verbeteren vanuit organisatorisch en technisch perspectief.

Zoals je hebt gelezen in het eerste artikel, beoordelen we datakwaliteit op de mate waarin data voldoet aan de verwachtingen van de belanghebbenden, ofwel de gebruikers. Veel organisaties falen echter in het definiëren van wat data geschikt maakt voor het doel (DAMA International, 2017). Deze datagebruikerszijde is essentieel om geïnformeerde keuzes en bewuste financiële investeringen in datamanagement te maken. De beslissingen en investeringen voor het verbeteren van datakwaliteit moet immers bijdragen aan het doel van de gebruikerszijde om meer waarde te creëren. Het organiseren van gesprekken tussen gebruiker, beheerder en eigenaar van de data draagt bij aan de bewustwording van deze partijen en de redelijkheid van bepaalde kwaliteitseisen. Het afwegen van ieders belangen in combinatie met wet- en regelgeving is wat governance van datakwaliteit omhelst.

De oplossing ligt overigens niet altijd in keuzes of investeringen in meer kwaliteitsregels of meer systemen. Vaak is er een onderliggende oorzaak waarom de huidige datakwaliteit niet in orde is. Het is raadzaam dit eerst te onderzoeken, al is dit niet altijd mogelijk. De keuze tussen op korte termijn handelen of eerst de onderliggende oorzaak onderzoeken, moet worden genomen door de eigenaar en de eindgebruiker, en is per use-case verschillend.

We zijn het eerste artikel geëindigd met een kwaliteitscheck die je kunt uitvoeren op je kritieke data. Door de uitkomsten van deze check te vergelijken met de beoogde kwaliteit, kun je eventuele afwijkingen identificeren. Afwijkingen zijn naast het technische script ook te identificeren door met verschillende medewerkers in de organisatie in contact te komen en te vragen waar zij tegenaan lopen bij het gebruik van bepaalde data. Zo kun je tot verbeterinzichten komen, waarmee je de beoogde datakwaliteit kunt behalen.

ARTIKEL

Hoge datakwaliteit is randvoorwaarde voor datagedreven werken

Lees het artikel

Verbeteren van datakwaliteit

Als de verbeteringen zijn geïdentificeerd, is het zaak deze te prioriteren en uit te voeren op basis van analyse en discussie met belanghebbenden tussen de gebruikers, beheerders en eigenaren. Zo kun je intern consensus opbouwen over het prioriteren van verbeteringen van de datakwaliteit. Wanneer het helder is waar de organisatie uiteindelijk naartoe wil groeien, is het belangrijk dat je begint met concrete use cases. Het is cruciaal een uiteindelijk doel te hebben, maar ook dat je dit doel incrementeel en met tussenresultaten behaalt. Zo ziet de organisatie snel en continu de toegevoegde waarde van je verbeterprojecten.

Men ervaart efficiënter gebruik van data en betere ondersteuning voor organisatorische doelen. Door herhaling van bovenstaande stappen ontstaat een datakwaliteitsprogramma. In het kort omvat een datakwaliteitsprogramma het beheren van data gedurende hun gehele levenscyclus door normen vast te stellen, kwaliteit in te bouwen in de processen die data creëren, transformeren en opslaan, en data te meten aan de hand van de vastgestelde normen (DAMA International, 2017). Zo wordt datakwaliteit onderdeel van de reguliere datagovernance, waarover later meer.

Het verbeteren van datakwaliteit vindt plaats via acties op organisatorisch en technisch gebied. Dit zijn onderdelen die normaliter ook beschreven staan in een datakwaliteitsprogramma.

INSIGHTS-UPDATE

Ontvang nieuwe Insights maandelijks in je inbox.

Schrijf je in.

‘Het is belangrijk dat de organisatie zich bewust is van de noodzaak van goede datakwaliteit’

Organisatie

Het is belangrijk dat de organisatie zich bewust is van de noodzaak van goede datakwaliteit. Uiteindelijk zal de datakwaliteit namelijk niet worden gewaarborgd door een verzameling tools en concepten, maar door een mentaliteit die medewerkers helpt om te handelen, terwijl ze altijd denken aan de kwaliteit van data. Datakwaliteit is niet alleen de verantwoordelijkheid van een datakwaliteitsteam of IT-groep. Elke medewerker die de data ‘aanraakt’, kan de kwaliteit van die data beïnvloeden.

Een organisatie bewustmaken van het belang van datakwaliteit, vereist vaak een flinke culturele verandering. Het cultiveren van kwaliteitsbewustzijn onder alle medewerkers die met kritieke data omgaan, is van het grootste belang. Het langetermijnsucces van het verbeteren, hangt tenslotte af van of een organisatie bereid is de cultuur te veranderen en een kwaliteitsgerichte mentaliteit aan te nemen (DAMA International, 2017).

Educatie

Educatie is een belangrijk hulpmiddel om het bewustzijn te vergroten. Door met educatie het begrip van medewerkers over data te vergroten, kunnen organisaties data effectiever gebruiken, inzichten communiceren naar anderen en relevantere vragen formuleren. Deze toegenomen bekwaamheid, ook wel data geletterdheid genoemd, draagt bij aan een meer geïnformeerde vraag naar en aanbod van data, waardoor een betere prioritering van datamanagementinspanningen mogelijk is. Bovendien zorgt dit voor een positieve houding tot en verantwoordelijke omgang met data.

EBOOK.

Datagedreven werken.

Download nu.

‘Steeds meer organisaties ontdekken datagovernance om de kwaliteit en kosten van hun data te reguleren’

Datagovernance

Naast bewustwording en geletterdheid, gebruiken organisaties datamanagement en datagovernance om de datakwaliteit verder te waarborgen. Waar datamanagement vooral over de uitvoering gaat, zorgt datagovernance voor bestuurskundige kwesties en het vaststellen van richtlijnen, normen, rollen en verantwoordelijkheden. Veel organisaties gebruiken datagovernance om de kwaliteit van hun data te reguleren, waarbij ze ervoor zorgen dat ze voldoen aan wettelijke en ethische normen en zo betrouwbare besluitvorming mogelijk maken (Charles et al., 2022). Vooral binnen de publieke sector leidt deze verbeterde besluitvormingscapaciteit tot de formulering van betere beleidsmaatregelen en bevordering van publieke waarden, zoals veiligheid, verantwoording en transparantie (Matheus et al., 2020). Een aantal belangrijke rollen om de datakwaliteit te waarborgen is de datagebruiker, data-eigenaar en de datasteward.

Belang van samenwerking tussen afdelingen

Een belangrijk vraagstuk is of het beter is om een datakwaliteitsprogramma van bovenaf of van onderaf te implementeren. Over het algemeen werkt een hybride benadering het beste: van bovenaf voor sponsoring, consistentie en middelen, van onderaf om te ontdekken wat daadwerkelijk kapot is en om incrementele successen te behalen (DAMA International, 2017). Ook wil je de domeinkennis gebruiken, omdat databeheerders en gebruikers binnen die domeinen uiteindelijk het beste weten wanneer de data van goede kwaliteit is. Zij kunnen het beste zelf bepalen welke vereisten nodig zijn voor data en welke benodigde trainingen en richtlijnen daarbij horen. Tot slot wil je datakwaliteit waarborgen over de gehele levenscyclus, buiten de grenzen van systemen, processen of afdelingen. Dit vergt een goede samenwerking. Door kennisdeling en het bevorderen van best practices op het gebied van datamanagement ontstaat een cultuur van transparantie en samenwerking, die uiteindelijk leidt tot betere besluitvorming en operationele efficiëntie. Deze samenwerking tussen verschillende afdelingen is daarom cruciaal voor het waarborgen van datakwaliteit.

IT-inzichten die je niet mag missen

Als eerste op de hoogte zijn van de laatste IT-ontwikkelingen? Schrijf je in voor onze maandelijkse nieuwsbrief.

Technologische aspecten

Er kunnen ook technologische aspecten worden gebruikt om data te verbeteren. Denk hierbij aan geautomatiseerde permanente kwaliteitscontroles op je kritieke data door kwaliteitsdimensies toe te passen, waarover automatisch periodiek gerapporteerd wordt. Dit kunnen technische datakwaliteitsregels zijn, zoals over data invoeren in het juiste format. Het kan ook een stap verder gaan, zoals een kind dat geen recht heeft op een bijstandsuitkering. De regels zijn een vorm van metadata, geïmplementeerd in databases of applicaties die data creëren, transformeren of verbruiken.

Kwaliteit van metadata

Metadata, simpel gezegd data over data, speelt een cruciale rol bij het beheren van de datakwaliteit. Het definieert wat de data voorstelt en helpt bij het begrijpen ervan. Metadata ondersteunt hierbij het verbeteren van de datakwaliteit door onder andere het vaststellen van die datakwaliteitsregels waarin staat beschreven hoe data moet bestaan om nuttig en bruikbaar te zijn binnen een organisatie. Om het nog ingewikkelder te maken, is het dus belangrijk dat de kwaliteit van je metadata (die onder andere de kwaliteit beschrijft) ook van goede kwaliteit is.

Samenwerking

De samenwerking tussen verschillende afdelingen is ook een belangrijke factor. Verschillende afdelingen binnen een organisatie genereren en gebruiken namelijk vaak diverse soorten data. Door samen te werken kunnen afdelingen data consolideren en integreren vanuit verschillende bronnen, wat resulteert in een meer consistente dataset. Deze samenwerking vergemakkelijkt ook datavalidatie op nauwkeurigheid, consistentie en volledigheid, en bevordert de standaardisatie van data, wat de interoperabiliteit en uitwisselbaarheid verbetert.

De rol van bron-applicaties in het waarborgen van datakwaliteit binnen organisaties is van vitaal belang. Dit komt doordat de kwaliteit het liefst bij de bron wordt verbeterd en wordt gewaarborgd in plaats van later in het proces. De applicaties dragen op verschillende manieren bij aan het verbeteren van datakwaliteit:

  • Data-invoer: businessapplicaties kunnen geautomatiseerde validatiecontroles implementeren tijdens het invoerproces.
  • Data-integriteit: applicaties kunnen beveiligingsmaatregelen en toegangscontroles implementeren om de integriteit te handhaven.
  • Automatisering van processen: door het automatiseren van bedrijfsprocessen, vermindert de kans op menselijke fouten en wordt de consistentie van data groter.
  • Data-integratie: door data uit verschillende bronnen te integreren en te consolideren, creëren businessapplicaties een enkelvoudige, consistente weergave van data over de hele organisatie (bijvoorbeeld warehouses).

Tot slot kun je met dashboards constant de datakwaliteit monitoren. Hoe meer datagedreven beslissingen je gaat nemen, hoe groter het belang wordt van zuivere, betrouwbare data. Mijn tip is om daarom per domein dashboards te ontwikkelen, waarmee de proceseigenaren de kwaliteit van de data kunnen monitoren en analyseren. Verder kun je met kwaliteitsregels uitschieters identificeren en (semi)automatisch corrigeren. Denk aan een seintje wanneer de kwaliteit onder een bepaald niveau komt. Vervolgens kun je onderzoeken wat de kernoorzaak is van de lagere kwaliteit.

Waarborgen van datakwaliteit

In de verbeteringen wordt het waarborgen van datakwaliteit al vaak meegenomen. Zo helpt educatie bij het bewustmaken van de organisatie en de implementatie van kwaliteitsregels in applicaties bij (semi)automatisch dicteren en corrigeren van kwaliteitsissues. In combinatie met het datakwaliteitsprogramma krijgen de verschillende verbeterinitiatieven sturing en zijn er rollen en verantwoordelijkheden gedefinieerd bij wie je issues kunt escaleren. Daarnaast kun je door datakwaliteitsdimensies voor kritieke data te gebruiken, na elke verbetering de nieuwe kwaliteitsniveaus meten en verdere verbeteringen prioriteren.

Continu proces

In dit artikel heb ik het bewust meerdere keren over programma in plaats van project. Dit doe ik omdat datakwaliteit een continu proces is en nauw verbonden is aan de Deming PDCA-cirkel. Het succes op lange termijn van een datakwaliteitsprogramma hangt af van de bereidheid van een organisatie om de cultuur te veranderen en een kwaliteitsgerichte mentaliteit aan te nemen. Ook het ontdekken en verfijnen van bedrijfsregels voor datakwaliteit is een voortdurend proces.

INSIGHTS-UPDATE

Ontvang nieuwe Insights maandelijks in je inbox.

Schrijf je in.
Meer informatie

Belang van betrouwbare data

Het belang van nauwkeurige en betrouwbare data als fundament voor het succes van organisaties is evident. Daarom biedt Centric verschillende op maat gemaakte diensten om je data te transformeren tot een betrouwbare en waardevolle bron.

Gerelateerde artikelen
Waar moet kwalitatief goede data aan voldoen?
Data science Finance Public Logistic Retail
In dit artikel lees je waarom hoge datakwaliteit belangrijk is als je datagedreven wilt werken.
Gestructureerd werken aan datakwaliteit
Data science
Nog maar weinig organisaties werken op een gestructureerde manier aan datakwaliteit. Natan van der Knaap, ...
Duurzaamheid vanuit een data-mindset (1)
Data science Logistic Retail
In dit artikel lees je waarom duurzaamheid gebaat is bij een data-mindset.