Data science

Waar moet kwalitatief goede data aan voldoen?

10 Mei 2024 - 5 minuten leestijd
Artikel door Natan Van Der Knaap

Data van hoge kwaliteit is essentieel om datagedreven besluitvorming te stimuleren. Maar hoge datakwaliteit is geen doel op zich. Het is een middel om tot organisatorisch succes te komen. Zo vermindert betrouwbare data risico's en kosten, en verhoogt het de efficiëntie van datagedreven werken. In dit artikel gaan we in op het belang van goede data en op wat goede data inhoudt. 

Met nauwkeurige en betrouwbare data kunnen organisaties beter onderbouwde beslissingen nemen op strategisch, tactisch en operationeel niveau. Logisch, want data is eigenlijk een weerspiegeling van feiten in de echte wereld. Data van hoge kwaliteit is daarmee een goede weerspiegeling van de echte wereld. Zo krijg je met nauwkeurige klantdata een betere weerspiegeling van bijvoorbeeld de behoeften en voorkeuren van je klanten in de echte wereld. Dit heeft dan ook een positief effect op datagedreven werken.

Aan de andere kant brengen data van slechte kwaliteit risico’s met zich mee. Dit kan resulteren in onnauwkeurige besluitvorming en kan de reputatie van een organisatie schaden, en leiden tot boetes, verlies van omzet en klanten en negatieve media-aandacht (DAMA International, 2017). En dan noemen we het nog niet eens de kosten die verbonden zijn aan het herstellen van de datakwaliteit!

Kortom, het verbeteren van datakwaliteit is belangrijk, omdat de data dan beter voldoet aan de behoeftes van de datagebruikers. Het gevolg? Een verbeterde efficiëntie, grotere klanttevredenheid en betere naleving van regelgeving, wat uiteindelijk kan leiden tot hogere bedrijfsresultaten.

ARTIKEL

Hoe optimaliseer je de kwaliteit van data voor daadwerkelijk effectief datagedreven werken?

Lees het artikel

Wat is hoge datakwaliteit?

Data is van hoge kwaliteit wanneer deze de echte wereld nauwkeurig weerspiegelt. Het handhaven van deze kwaliteit kan echter een uitdaging zijn en kostbaar, omdat de echte wereld voortdurend verandert en soms moeilijk vast te leggen is. Daarom beoordelen we de datakwaliteit liever op basis van de mate waarin de data voldoet aan de verwachtingen van de gebruikers. Datakwaliteit is dus afhankelijk van de context en de behoeften van de datagebruiker (DAMA International, 2017). De datagebruiker is een breed begrip en kan uiteenlopen van een medewerker die zijn of haar rooster wil zien tot een manager die trends in de omzet wil ontdekken. Data van hoge kwaliteit in een bepaalde context hoeft dus niet vanzelfsprekend van hoge kwaliteit te zijn in een andere context. Een gemiddelde hoeveelheid auto’s in de parkeergarage kan een goed beeld schetsen van de hoeveelheid lunches de catering die dag moet maken. Aan de hoeveelheid auto’s kun je echter niet zien aan hoeveel medewerkers je aan het einde van de maand salaris moet betalen.

Datakwaliteit is dus niet intrinsiek verbonden aan de data, maar aan de relatie die je hebt met de data. Het is daarom belangrijk goede afspraken te maken over de verschillende behoeftes van de verschillende gebruikers over de minimaal benodigde kwaliteit. Daarnaast heb je te maken met externe eisen aan de data vanuit wet- en regelgeving.  Het afwegen van de verschillende belangen en het bepalen van de benodigde datakwaliteit vereisen afspraken over rollen en verantwoordelijkheden.

Data van hoge kwaliteit voldoet dus aan de behoeftes van verschillende gebruikers en is fundamenteel voor een soepele bedrijfsvoering en het succes van elke organisatie. Organisaties hebben echter nog moeite om gestructureerd te werken aan datakwaliteit en kunnen zo niet alle voordelen van datagedreven werken benutten.

PDCA-cyclus

Een gestructureerde aanpak om met data te werken, kan worden afgestemd op de PDCA-cyclus van Deming. In essentie houdt dit in dat je begint met een initiële controle van het huidige niveau van je data en het verwachte niveau voor verschillende gebruikers. Dit levert inzichten op over welke data de grootste verbeteringen nodig heeft om te voldoen aan de behoeften of externe eisen. Na een analyse van de onderliggende oorzaken, ga je over tot verbetering en controleer je of de verbeteringen effectief zijn geweest. Ten slotte zorg je ervoor dat je niet terugvalt in oude gewoontes door deze verbeteringen te borgen. Het volgen van deze stappen is een continu proces dat helpt zoveel mogelijk waarde uit je data te halen.

INSIGHTS-UPDATE

Ontvang nieuwe Insights maandelijks in je inbox.

Schrijf je in.

Kritieke data

Aan de start van de PDCA-cirkel gaat nog een belangrijke stap vooraf, namelijk het identificeren van je kritieke data. De meeste organisaties hebben veel data, maar niet alle data is even belangrijk. Een principe van datakwaliteitsmanagement is om verbeteringsinspanningen te richten op data die het belangrijkst is voor de organisatie en de klanten. Dit wordt beoordeeld op basis van de processen die ze verbruiken en de aard van de rapporten waarin ze voorkomen. Een andere manier om dit te beoordelen is door te kijken naar het risico dat de organisatie loopt als er iets mis zou gaan met de data.

Een voorbeeld van kritieke data is bijvoorbeeld je masterdata. Door kritieke data te identificeren, krijgt het programma reikwijdte en focus en kan het een directe, meetbare impact hebben op zakelijke behoeften (DAMA International, 2017). Kritieke data is, net als datakwaliteit, relatief en kan verschillen per afdeling, domein en organisatie. Het bepalen van kritieke data over diverse afdelingen of domeinen heen, kan daarom lastig zijn en vergt wederom goede afspraken en samenwerking. Je kunt hier het beste bottom-up mee beginnen, omdat hier de kennis ligt over welke data het belangrijkst is voor het functioneren van de organisatie. Mocht dit niet lukken dan is een meer top-down benadering nodig.

IT-inzichten die je niet mag missen

Als eerste op de hoogte zijn van de laatste IT-ontwikkelingen? Schrijf je in voor onze maandelijkse nieuwsbrief.

Kwaliteitscheck van kritieke data

Om de datakwaliteit objectief te meten, kun je datakwaliteitsdimensies gebruiken. Dit zijn meetbare eigenschappen van data. Er zijn heel veel dimensies te vinden. DAMA NL (2020) heeft er bijvoorbeeld al zestig beschreven. Het is hierbij wederom belangrijk dat je kijkt naar de doelen die je wilt bereiken op je kritieke data, om vandaaruit dimensies op te stellen.

Over het algemeen zijn de volgende acht dimensies het bekendst en het meest gebruikt:

  • Accuraatheid: controleert de mate waarin data echte entiteiten correct weergeven. Je kijkt hierbij naar de datawaardes. Een voorbeeld is of de achternaam of woonadres van een persoon nog klopt.
  • Volledigheid: controleert of alle vereiste data aanwezig is. Dit kun je controleren op datawaardes, elementen uit een dataset, rijen in een dataset, databestanden in een dataset, of de benodigde metadata. Een voorbeeld van metadata is de definitie van een naam die ontbreekt.
  • Consistentie: zorgt ervoor dat datawaarden consistent worden weergegeven binnen een dataset en tussen datasets. Ook zorgt het ervoor dat datawaarden consistent worden geassocieerd over datasets heen op verschillende momenten in de tijd. Bijvoorbeeld: zijn plaatsnamen op verschillende manieren geschreven?
  • Integriteit: gaat over het nauwkeurig, consistent en betrouwbaar opslaan van data om ervoor te zorgen dat ze correct zijn en voldoen aan regels en normen. Een voorbeeld is een hacker die de integriteit verlaagt door data te verwijderen of veranderen.
  • Redelijkheid: controleert of de data logisch en zinvol is. Dit gaat over de mate waarin een datapatroon voldoet aan de verwachtingen. Bijvoorbeeld: een weekomzet van 100.000 is onredelijk als het gemiddelde normaal 10.000 is, zonder duidelijke verklaring zoals een promotie of seizoensgebonden piek.
  • Uniek: houdt in dat een entiteit slechts één keer in de gegevens wordt geregistreerd op basis van zijn identificatie. Dit betekent dat een medewerker, bijvoorbeeld, niet twee keer voorkomt onder hetzelfde of een ander nummer. Dit helpt bij het voorkomen van duplicaten in de administratie en zorgt voor nauwkeurigheid en efficiëntie in processen.
  • Tijdigheid: controleert of de data beschikbaar is wanneer dit nodig is. Dit gaat over het verschil tussen creatie en beschikbaarheid. Bijvoorbeeld: een jaarverslag dat pas beschikbaar is in oktober, is niet tijdig.
  • Geldigheid: controleert of datawaarden consistent zijn met een gedefinieerd domein van waarden. Bijvoorbeeld een emailadres zonder @.
EBOOK.

Datagedreven werken.

Download nu.

Bedrijfsregels

Aan het begin van je datakwaliteitsprogramma is het belangrijk met deze kwaliteitsdimensies bedrijfsregels op te stellen voor je kritieke data. Bedrijfsregels beschrijven hoe het bedrijf intern moet opereren om succesvol te zijn en te voldoen aan de eisen van de buitenwereld. Dit is een handig hulpmiddel om te bepalen wanneer data van voldoende kwaliteit is voor de organisatiedoelen. Ook helpt het bij het ontwikkelen van een strategie waar je uiteindelijk naartoe wilt groeien.

Kortom, hoge datakwaliteit is essentieel voor het maximaliseren van waarde uit datagedreven werken. Identificeer daarom je kritieke data en zorg ervoor dat deze voldoen aan de minimale gebruikersbehoeften en externe vereisten.

Gerelateerde artikelen
Hoe optimaliseer je de kwaliteit van data voor voor datagedreven werken?
Data science
In dit artikel ontdek je hoe je data optimaliseert voor datagedreven werken.
Gestructureerd werken aan datakwaliteit
Data science
Nog maar weinig organisaties werken op een gestructureerde manier aan datakwaliteit. Natan van der Knaap, ...
Duurzaamheid vanuit een data-mindset (1)
Data science Logistic Retail
In dit artikel lees je waarom duurzaamheid gebaat is bij een data-mindset.