Data science

Lean Six Sigma en Data-as-a-Product: een winnende combinatie (deel 1 van 4)

2 Oktober 2024 - 4 minuten leestijd

Artikel door Natan Van Der Knaap

In deze nieuwe artikelreeks ontdek je hoe data en procesoptimalisatie nauw met elkaar verbonden zijn. In dit eerste deel duiken we in het concept van Data-as-a-Product en leggen we de fundering waarop we in de komende artikelen Lean Six Sigma toepassen. Lean Six Sigma wordt meestal ingezet om processen te verbeteren met dataproducten. In dit artikel richten we ons op hoe deze methodiek kan worden toegepast op het ontwikkelen van de dataproducten zelf.

Over Lean Six Sigma is al veel gezegd en geschreven. Dit geldt in toenemende mate ook voor datagedreven werken. Een combinatie van deze werelden zie je nog weinig. En dat terwijl je data en processen eigenlijk niet los van elkaar kunt zien. Van Gils (auteur van Data Management: a gentle introduction) zegt hierover: ‘als processen de waardecreatiemotoren van de organisatie zijn, dan is de data de brandstof’.

Hoe beter je je primaire processen uitvoert, hoe meer directe waarde jij voor de klant creëert. Om die primaire processen beter uit te voeren, kun je data inzetten. Enerzijds kun je data gebruiken om een proces efficiënter in te richten. Anderzijds wordt data gebruikt om betere beslissingen te nemen en de effectiviteit van een proces te vergroten. Dat is ook waar datagedreven werken om draait.

Data als product

Als je het op die manier bekijkt, dan is data eigenlijk het product voor de processen. Het concept van data als product is niet nieuw. Volgens Zhamak Dehghani, bedenker van de data mesh (gedistribueerde architectuur voor datamanagement), wordt data als product gedefinieerd als ‘een autonome, voor gebruik geoptimaliseerde, gestandaardiseerde data-eenheid die ten minste één dataset bevat, gemaakt om aan de behoeften van de gebruikers te voldoen’. Wanneer we het hebben over een dataproduct, verwijzen we dus naar een voor gebruik geoptimaliseerde dataset. Bijvoorbeeld een afgebakende set die vindbaar is via een catalogus, zorgvuldig geprepareerd, zodat de klant deze veilig kan gebruiken. In die zin kun je de data uit een bronsysteem vergelijken met ruwe olie en de dataproducten als de geraffineerde brandstof voor de motor van waardecreatie waar Van Gils (zie intro) het over heeft.

Momenteel blijft het potentieel van data echter vaak verborgen binnen silo’s (domeinen binnen een organisatie die geïsoleerd werken met onsamenhangende databases tot gevolg), waardoor het potentieel ontoegankelijk en onderbenut blijft. Door data als een product te benaderen, kun je de dataverzameling en beslissingsbevoegdheid geïsoleerd houden op de plekken met de meeste kennis over de data, terwijl het resultaat (het dataproduct) domein overstijgend of zelfs organisatie overstijgend kan worden ingezet. Zo kun je, zelfs binnen publieke organisaties met een silo-structuur, toch het potentieel van data toegankelijk maken voor interne en externe klanten.

Insights-update

Ontvang nieuwe Insights maandelijks in je inbox.

Schrijf je in.

'Door data als volwaardig bezit te zien, ontstaat de noodzaak om het te beheren alsof het een product is'

Deze benadering verschuift de perceptie van data als bijproduct naar een zelfstandig bezit dat waarde kan creëren. Door data als volwaardig bezit te zien, ontstaat de noodzaak om het te beheren alsof het een product is. Dit betekent dat je op dataproducten productmanagement kunt toepassen. Productmanagement wordt ook wel gedefinieerd als ‘het strategische proces van een organisatie om elke stap in de productlevenscyclus te beheren, waarbij rekening wordt gehouden met zowel zakelijke als consumentenbehoeften’.

Dataproducteigenschapen

Wanneer je productmanagement toepast op dataproducten, richt je je eigenlijk op datamanagement en - governance in elke fase van de productlevenscyclus. Met als uiteindelijk doel om te voldoen aan de behoeften van de datagebruikers.

Dehghani definieert hierbij de volgende dataproducteigenschappen voor optimaal gebruik:

Vindbaar: Het dataproduct moet eenvoudig te vinden zijn door zowel mens als machine via een goed gestructureerde catalogus of metadata-register.
Adresseerbaar: Het dataproduct moet toegankelijk zijn voor de gebruiker met duidelijke uitleg.
Betrouwbaar: Het dataproduct moet accuraat en consistent zijn, met mechanismen om de kwaliteit en integriteit te waarborgen.
Zelfbeschrijvend: Het dataproduct moet duidelijke metadata en documentatie bevatten die uitleg geven over de inhoud en het gebruik ervan. Zo wordt het herbruikbaar.
Interoperabel: Het dataproduct moet gestandaardiseerde formaten en interfaces gebruiken om naadloos samen te werken met andere systemen en data.
Veilig: Het dataproduct moet worden beschermd door maatregelen te nemen, zoals encryptie of toegangscontrole om ongeautoriseerde toegang te voorkomen.

Het eigenaarschap van dataproducten en de verantwoordelijkheid om te voldoen aan bovenstaande eigenschappen, moet liggen bij de plekken waar ze worden gecreëerd. Daar is de meeste (domein)kennis aanwezig om de meest geïnformeerde beslissingen te nemen. Dit past goed bij een federatieve besluitvormingsstrategie. Door dit formeel vast te leggen, geef je ruimte om beter in te spelen op gebruikersbehoeften en wordt de intrinsieke waarde van het dataproduct gemaximaliseerd.

Het gebruik van een dataproduct

Het gebruik van een dataproduct kan sterk variëren en is, net als ieder ander product, afhankelijk van de behoeften van verschillende klanten. Dit maakt het aspect ‘voor gebruik geoptimaliseerd’ (zie definitie van Dehghani) bijzonder complex. Zo kan een interne gebruiker de dataset inzetten voor een dashboard, terwijl een externe gebruiker dezelfde dataset wil gebruiken om organisaties te benchmarken. Beide gebruikers, en mogelijk nog vele anderen, kunnen uiteenlopende eisen en verwachtingen hebben ten aanzien van optimaal gebruik van de dataset.

Om deze complexiteit te beheersen, kun je je dataproduct vergelijken met een gefabriceerde auto. Maak je een standaard auto die voldoet aan algemene eisen en verwachtingen, of bied je een maatwerkoplossing? Beide benaderingen hebben hun eigen voor- en nadelen: een standaardoplossing is efficiënter, terwijl maatwerk meer inspanning vergt voor iedere klant en daardoor een hogere prijs kan rechtvaardigen. Dit is een kwestie van kostenberekening, die vervolgens kan worden vertaald naar een prijs voor de externe klant. Voor interne klanten kan het dataproduct als een ‘service’ worden beschouwd, waarbij onderlinge afspraken worden gemaakt over wat realistisch en haalbaar is.

IT-inzichten die je niet mag missen

Als eerste op de hoogte zijn van de laatste IT-ontwikkelingen? Schrijf je in voor onze maandelijkse nieuwsbrief.

Het dataproces van een dataproduct

Om data als een product te zien, is het inzichtelijk maken van het proces hoe je tot het dataproduct komt essentieel. Een proces is gedefinieerd als ‘een reeks van acties of stappen die worden ondernomen om een bepaald doel te bereiken’ (Tempelman & Schildmeijer, auteurs van Lean & Six Sigma in de Praktijk). Het proces van het dataproduct omvat verschillende stappen die nodig zijn om het uiteindelijke doel te bereiken: een voor gebruik geoptimaliseerde dataset. We hadden eerder vastgesteld dat dit wordt bereikt wanneer een dataproduct vindbaar, adresseerbaar, betrouwbaar, zelfbeschrijvend, interoperabel en veilig is. Om dit te realiseren, doorloop je of een operationeel, ofwel een ontwikkelingsproces. Als het product al in de catalogus (centraal opslagpunt met metadata over de datasets) staat, vergelijkbaar met een bestaand product in een winkel, dan heb je te maken met operationele processtappen, zoals het genereren, bewerken en beschikbaar stellen van datasets. Als het om een nieuw product gaat, doorloop je andere processtappen. Bijvoorbeeld het definiëren en modelleren van datasets om aan nieuwe behoeften te voldoen. Dit valt onder productontwikkeling, waarbij je de behoeften goed moet uitvragen en afspraken maakt over productattributen, zoals latency, veiligheid, privacy en kwaliteit. Deze afspraken kunnen worden vastgelegd in een SLA, een contract met afspraken tussen leverancier en afnemer. Het resultaat is een nieuw product in de catalogus, dat vervolgens via het operationele proces weer beschikbaar wordt gesteld aan de klant.

ARTIKEL

Waar moet kwalitatief goede data aan voldoen?

Lees meer.

'Het is belangrijk de processtappen van het dataproduct inzichtelijk te maken om de kwaliteit en veiligheid te waarborgen'

Procesoptimalisatie

Het is belangrijk de processtappen van het dataproduct inzichtelijk te maken om de kwaliteit en veiligheid te waarborgen. Dit bevordert transparantie en helpt bij het vaststellen van verantwoordelijkheden. Daarnaast zorgt het ervoor dat het proces consistent en herhaalbaar is. Door deze stappen inzichtelijk te maken, kun je het proces vervolgens optimaliseren. Dit kan op twee manieren: door de output, het dataproduct, beter te laten voldoen aan de eisen en wensen van de klant (effectiviteit). Of door het proces zelf te verbeteren door verspillingen te elimineren (efficiëntie). Voor de oplettende lezer: data laten voldoen aan de eisen en wensen van de gebruiker is de definitie van datakwaliteit, en vormt een randvoorwaarde voor effectief datagedreven werken (zie mijn vorige artikel). Twee populaire benaderingen voor procesverbetering zijn Lean en Six Sigma. Lean richt zich op het maximaliseren van klantwaarde door verspilling te verminderen en processen te stroomlijnen. Six Sigma richt zich op het verlagen van variabiliteit en defecten via statistische analyse. Beide methodieken hebben, net als productmanagement, klantwaarde als uitgangspunt.

In de volgende artikelen gaan we verder in op de verbetermogelijkheden met Six Sigma en Lean op het proces van de dataproducten, om uiteindelijk beter te voldoen aan de behoeftes van gebruikers. Het is belangrijk de intrinsieke waarde van data te vergroten, want hoe beter het proces van het dataproduct, hoe hoger de kwaliteit van het dataproduct zelf. En hoe hoger die kwaliteit is, hoe effectiever het kan worden ingezet in vervolganalyses, wat uiteindelijk leidt tot meer waardecreatie in de (primaire) processen. Een motor heeft ten slotte brandstof nodig om vooruit te blijven gaan en hoe beter de brandstof, hoe beter de stuwkracht van de motor!

Bijdrager(s)

Natan van der Knaap behaalde aan de Universiteit van Tilburg een master in Information Management met de specialisatie Data Governance. Hij richt zich bij Centric op datamanagement volgens de DAMA DMBOK-standaard en is gepassioneerd over procesverbetering, digitalisering en datakwaliteit.

Topics

Data science

Ontdek hoe Centric je hiermee kan helpen.

Onze oplossing.

Themes

Branches