Kritieke data
Aan de start van de PDCA-cirkel gaat nog een belangrijke stap vooraf, namelijk het identificeren van je kritieke data. De meeste organisaties hebben veel data, maar niet alle data is even belangrijk. Een principe van datakwaliteitsmanagement is om verbeteringsinspanningen te richten op data die het belangrijkst is voor de organisatie en de klanten. Dit wordt beoordeeld op basis van de processen die ze verbruiken en de aard van de rapporten waarin ze voorkomen. Een andere manier om dit te beoordelen is door te kijken naar het risico dat de organisatie loopt als er iets mis zou gaan met de data.
Een voorbeeld van kritieke data is bijvoorbeeld je masterdata. Door kritieke data te identificeren, krijgt het programma reikwijdte en focus en kan het een directe, meetbare impact hebben op zakelijke behoeften (DAMA International, 2017). Kritieke data is, net als datakwaliteit, relatief en kan verschillen per afdeling, domein en organisatie. Het bepalen van kritieke data over diverse afdelingen of domeinen heen, kan daarom lastig zijn en vergt wederom goede afspraken en samenwerking. Je kunt hier het beste bottom-up mee beginnen, omdat hier de kennis ligt over welke data het belangrijkst is voor het functioneren van de organisatie. Mocht dit niet lukken dan is een meer top-down benadering nodig.
IT-inzichten die je niet mag missen
Als eerste op de hoogte zijn van de laatste IT-ontwikkelingen? Schrijf je in voor onze maandelijkse nieuwsbrief.
Kwaliteitscheck van kritieke data
Om de datakwaliteit objectief te meten, kun je datakwaliteitsdimensies gebruiken. Dit zijn meetbare eigenschappen van data. Er zijn heel veel dimensies te vinden. DAMA NL (2020) heeft er bijvoorbeeld al zestig beschreven. Het is hierbij wederom belangrijk dat je kijkt naar de doelen die je wilt bereiken op je kritieke data, om vandaaruit dimensies op te stellen.
Over het algemeen zijn de volgende acht dimensies het bekendst en het meest gebruikt:
- Accuraatheid: controleert de mate waarin data echte entiteiten correct weergeven. Je kijkt hierbij naar de datawaardes. Een voorbeeld is of de achternaam of woonadres van een persoon nog klopt.
- Volledigheid: controleert of alle vereiste data aanwezig is. Dit kun je controleren op datawaardes, elementen uit een dataset, rijen in een dataset, databestanden in een dataset, of de benodigde metadata. Een voorbeeld van metadata is de definitie van een naam die ontbreekt.
- Consistentie: zorgt ervoor dat datawaarden consistent worden weergegeven binnen een dataset en tussen datasets. Ook zorgt het ervoor dat datawaarden consistent worden geassocieerd over datasets heen op verschillende momenten in de tijd. Bijvoorbeeld: zijn plaatsnamen op verschillende manieren geschreven?
- Integriteit: gaat over het nauwkeurig, consistent en betrouwbaar opslaan van data om ervoor te zorgen dat ze correct zijn en voldoen aan regels en normen. Een voorbeeld is een hacker die de integriteit verlaagt door data te verwijderen of veranderen.
- Redelijkheid: controleert of de data logisch en zinvol is. Dit gaat over de mate waarin een datapatroon voldoet aan de verwachtingen. Bijvoorbeeld: een weekomzet van 100.000 is onredelijk als het gemiddelde normaal 10.000 is, zonder duidelijke verklaring zoals een promotie of seizoensgebonden piek.
- Uniek: houdt in dat een entiteit slechts één keer in de gegevens wordt geregistreerd op basis van zijn identificatie. Dit betekent dat een medewerker, bijvoorbeeld, niet twee keer voorkomt onder hetzelfde of een ander nummer. Dit helpt bij het voorkomen van duplicaten in de administratie en zorgt voor nauwkeurigheid en efficiëntie in processen.
- Tijdigheid: controleert of de data beschikbaar is wanneer dit nodig is. Dit gaat over het verschil tussen creatie en beschikbaarheid. Bijvoorbeeld: een jaarverslag dat pas beschikbaar is in oktober, is niet tijdig.
- Geldigheid: controleert of datawaarden consistent zijn met een gedefinieerd domein van waarden. Bijvoorbeeld een emailadres zonder @.