Data science

Lean Six Sigma en Data-as-a-Product: een winnende combinatie (deel 2 van 4)

4 November 2024 - 5 minuten leestijd

Artikel door Natan Van Der Knaap

In het vorige artikel heb je gelezen hoe je data als een product kunt benaderen om datasets te creëren die optimaal zijn voor specifieke gebruiksdoelen. Dit is een belangrijke voorwaarde voor datagedreven werken en stelt organisaties in staat tegen aanvaardbare kosten betrouwbare inzichten te verkrijgen die direct bijdragen aan waardecreatie. Het verkrijgen van inzicht in het proces achter de dataproducten is essentieel om de kwaliteit en veiligheid te waarborgen. In dit artikel richten we ons op hoe de Six Sigma-methodiek kan helpen bij het monitoren en optimaliseren van de operationele processtappen van een dataproduct, zoals het genereren, bewerken of beschikbaar stellen van datasets.

Elke stap die een organisatie zet om tot een dataproduct te komen, beïnvloedt de kwaliteit van het eindresultaat. Daarom is het essentieel voor elke stap te definiëren wat een geschikte uitkomst is, zodat het eindproduct voldoet aan de verwachtingen van de afnemers. Six Sigma is gericht op het bereiken van consistente en voorspelbare resultaten in processen, afgestemd op de behoeften van de klant (Tempelman & Schildmeijer, 2023). Afwijkingen van deze voorspelbare resultaten worden variaties genoemd. Variaties kunnen optreden in het eindresultaat van het proces, het dataproduct, maar ook in de afzonderlijke stappen van het operationele proces. Het verminderen van deze variaties is cruciaal voor het verhogen van de effectiviteit en de efficiëntie van de processtappen, en daarmee voor de algehele kwaliteit van het dataproduct.

Toepassing Six Sigma in relatie tot dataproducten: een casus

Om de toepassing van Six Sigma in relatie tot dataproducten te verduidelijken, ga ik in op een casus die zowel het perspectief van de klant als dat van een interne afdeling laat zien. Deze casus illustreert hoe de verantwoordelijkheden zijn verdeeld tussen de klant, die specifieke kwaliteitseisen stelt, en de organisatie, die ervoor moet zorgen dat het dataproduct voldoet aan deze eisen, mits deze realistisch, veilig en haalbaar zijn.

Vanuit klantperspectief: Een analist van een consultancyorganisatie is bezig met de ontwikkeling van een voorspellend model voor pieken in paspoortaanvragen. Voor dit model worden verschillende dataproducten gebruikt, zoals data over paspoortverloop, afsprakenregistratie en medewerkersbeschikbaarheid. De analist heeft specifieke kwaliteitseisen gesteld aan deze dataproducten, voordat deze in het model gebruikt mogen worden. Dit is essentieel om ervoor te zorgen dat de inzichten uit het voorspellende model betrouwbaar en bruikbaar zijn. Terugkijkend op artikel 1 in deze serie, is dit vergelijkbaar met een motor die bepaalde eisen stelt aan de kwaliteit van de brandstof.

Vanuit HR-perspectief: De manager van de HR-afdeling, die verantwoordelijk is voor het dataproduct medewerkersbeschikbaarheid, heeft volledige kennis van hoe de data is verzameld en wie welke rechten heeft om deze in te zien. Toen er een aanvraag van een externe klant binnenkwam voor het gebruik van dit dataproduct in een voorspellingsmodel, werd na overleg besloten dat de originele dataset niet kon worden gedeeld. Een geanonimiseerde versie mocht wel worden gesteld, als basis voor toegang tot de uiteindelijke inzichten. De klant stelde wel specifieke kwaliteitseisen voor de dataset. Om hieraan te kunnen voldoen wil de HR-afdeling met Six Sigma gestructureerd inzicht verkrijgen in de kwaliteit van hun operationele dataprocessen en aantonen dat ze aan de gestelde eisen kunnen voldoen. Hierdoor kunnen ze consistente en betrouwbare dataproducten leveren.

‘De eerste stap binnen Six Sigma is het vaststellen van de specifieke kwaliteitseisen en behoeften van de klant’

De eerste stap binnen Six Sigma is het vaststellen van de specifieke kwaliteitseisen en behoeften van de klant, ook bekend als de Voice of the Customer (VoC). Deze input wordt vervolgens vertaald naar meetbare procesvereisten, oftewel Critical to Quality (CTQ)-kenmerken. De CTQ-kenmerken vormen de meetbare prestatiestandaarden binnen het operationele proces die moeten worden behaald om te voldoen aan de verwachtingen van de klant (VoC). Zo moet een dataproduct geleverd worden dat optimaal is afgestemd op de specifieke gebruiksdoelen, zoals eerder besproken in artikel 1. Door deze CTQ-kenmerken consistent te monitoren en te optimaliseren, kan variatie in het proces worden verminderd, wat de betrouwbaarheid en kwaliteit van het dataproduct verhoogt.

Voorbeeld VoC

“Ik heb wekelijks een dataset nodig met (geanonimiseerde) medewerkersgegevens, inclusief hun beschikbaarheid voor de komende twee weken en het aantal uren dat ze daadwerkelijk hebben gewerkt.”

Vertaling naar CTQ-kenmerken

Tijdigheid: Wekelijks op vrijdag moet een nieuwe datasetversie beschikbaar zijn.
Compleetheid: 100% van de (geanonimiseerde) medewerkers en hun geplande uren voor de komende twee weken moeten in de dataset staan.
Accuraatheid: Minimaal 90% van de kolom ‘werkelijk gewerkt’ moet correct zijn.
Consistentie: Voor dezelfde medewerker moeten beschikbaarheid en gewerkte uren overeenkomen.
Geldigheid: Het aantal gewerkte uren moet in gehele getallen worden weergegeven.

Je ziet hier de theorie van DAMA DMBoK (leidraad voor effectief datamanagement) en Six Sigma weer bij elkaar komen. De CTQ-kenmerken zijn meetbare eigenschappen die je goed kunt koppelen aan de kwaliteitsdimensies binnen datamanagement. Denk bijvoorbeeld aan de dimensies tijdigheid, compleetheid, accuraatheid, consistentie en geldigheid, uitvoerig beschreven in DAMA DMBoK en samengevat in mijn vorige artikel over datakwaliteit. Door CTQ-kenmerken actief te monitoren, kan de HR-afdeling niet alleen voldoen aan klantverwachtingen, maar ook interne kwaliteitsnormen opstellen. Dit maakt het mogelijk dataproducten te leveren die meer consistent, relevant en waardevol zijn. Zo kan Six Sigma de organisatie helpen om intern mogelijke defecten en variaties te identificeren en aan te pakken, nog voordat het product naar de klant gaat.

Monitoren van de klanteisen van het dataproduct

Het monitoren van de CTQ-kenmerken kan worden uitgevoerd met Statistische Procesbeheersing (SPC). SPC is een methode om processen te beheren door variaties in de invoer of uitvoer te meten, of stappen van een proces te analyseren (DAMA International, 2017). SPC is gebaseerd op de veronderstelling dat als een proces met consistente invoer consistent wordt uitgevoerd, het consistente resultaten zal produceren. Als de invoer of uitvoering verandert, veranderen de resultaten ook.

Voor elk gedefinieerd CTQ-kenmerk is de volgende stap om, in overleg met de klant of door de producteigenaar zelf, een ondergrens, bovengrens of beide te bepalen. Door metingen uit te voeren op de CTQ-kenmerken, krijg je inzicht in hoeverre het product voldoet aan de klantenspecificaties. Het automatiseren van deze metingen kan de efficiëntie en consistentie verhogen. Bijvoorbeeld door automatisch logs uit te lezen of scripts te gebruiken om eigenschappen zoals compleetheid en accuraatheid te monitoren. Dit bespaart tijd en helpt afwijkingen sneller op te sporen.

Het is echter belangrijk te beseffen dat het meten van alle CTQ-kenmerken complex en tijdrovend kan zijn. Daarom is het verstandig de focus te leggen op de meest kritieke kenmerken, in plaats van alles te willen meten. Dit vereist een risicobeoordeling door de producteigenaar: welke data en processtappen moeten altijd van hoge kwaliteit zijn en intensief gemonitord worden, en welke zijn minder kritisch voor de klant als een fout optreedt?

Niet alle processtappen hebben evenveel impact op de uiteindelijke kwaliteit van het dataproduct. Sommige stappen, zoals het genereren en verwerken van data, hebben een grotere invloed op de eindresultaten en moeten strikter worden gecontroleerd. Andere stappen kunnen met minder intensieve SPC-maatregelen worden gevolgd. Vergelijk het met het fabriceren van een auto: de motor wil je zeer grondig testen, terwijl de hoedenplank minder belangrijk is. Een gelaagde aanpak van monitoring helpt de efficiëntie van het proces te verhogen, zonder de eindkwaliteit van het dataproduct in gevaar te brengen.

‘Niet alle processtappen hebben evenveel impact op de uiteindelijke kwaliteit van het dataproduct’

Voorbeeld van SPC in het dataproces

Wanneer de uitkomst van een meting buiten de gedefinieerde specificaties valt, spreken we van een defect. In dat geval wordt het product niet goedgekeurd en moet het worden aangepast of afgekeurd. Variatie in het proces leidt tot variatie in het dataproduct en kan resulteren in slechte eindresultaten. Met SPC kun je dus in één oogopslag zien wanneer de kwaliteit van een processtap in jouw dataproduct niet voldoet aan de klanteisen. Het dataproduct is namelijk het eindresultaat van het proces. Het aantal defecten in de processtappen, zoals het genereren of verwerken van data, is een indicator voor de stabiliteit van het proces en de kwaliteit ervan.

Hieronder volgt een uitwerking van SPC voor CTQ 1 en CTQ 2 van de dataset medewerkersbeschikbaarheid. Deze uitwerking is gericht op het meten van de tijdigheid door te kijken naar de timestamps en compleetheid door het meten van het aantal null-waardes.

Naast SPC kan Process Mining een extra dimensie toevoegen aan procesanalyse door niet alleen variaties te meten, maar ook inzicht te geven in hoe het proces daadwerkelijk verloopt. Process Mining analyseert en visualiseert processen op basis van digitale loggegevens, zoals invoer-, verwerkings- en transmissielogs. SPC en Process Mining vullen elkaar dus aan: SPC helpt om vroegtijdig afwijkingen te signaleren in processtappen, terwijl Process Mining inzicht biedt in de variaties tussen verschillende uitvoeringen van hetzelfde proces. Dit helpt om inefficiënties of fouten te identificeren en gericht verbeteringen door te voeren.

Door het operationele proces datagedreven te monitoren, kunnen defecten vroegtijdig en specifiek worden gedetecteerd. Zo kan Process Mining helpen om afwijkingen in processtappen zoals dataverwerking te visualiseren, terwijl SPC veranderingen in tijdigheid of nauwkeurigheid direct meetbaar maakt. Dit biedt niet alleen inzicht in mogelijke verbetermogelijkheden, maar leidt ook tot kostenbesparing, doordat herstelwerk aan het einde van het proces wordt verminderd. Bovendien toon je aan dat je dataproduct voldoet aan alle kwaliteitseisen, waardoor klanten met vertrouwen datagedreven kunnen werken.

In dit artikel heb je kunnen lezen over het proces en het voldoen aan de kwaliteitseisen van de klant. In deel drie van deze serie gaan we dieper in op hoe de Lean-methodiek ons kan helpen om niet alleen variaties te minimaliseren, maar ook verspilling te reduceren, waardoor de efficiëntie van dataproducten verder wordt geoptimaliseerd.

Topics

Data science