Het identificeren van verspillingen binnen het operationele proces van een dataproduct
Binnen het operationele proces speelt metadata een cruciale rol. Goed gedefinieerde metadata verminderen verspilling doordat data eenvoudiger te lokaliseren en te interpreteren is. Een belangrijk aspect hiervan is data lineage, waarmee je de herkomst, transformaties en bewegingen van data in kaart brengt. Tools zoals Process Mining visualiseren alle stappen in de verwerking. Dit biedt inzicht in mogelijke verspillingen en vermindert procescomplexiteit. Hieronder identificeren we de belangrijkste verspillingen binnen drie operationele stappen: genereren, bewerken en beschikbaar stellen van data.
1. Genereren van data
Bij datacreatie is het essentieel om efficiënt data te verzamelen zonder waardevolle data mis te lopen. Dit speelt vooral in de publieke sector, waar dataverzameling vaak handmatig en secundair is aan het helpen van burgers. Focus daarom op het verzamelen van kwalitatieve kritieke data: data die essentieel is voor besluitvorming, wet- en regelgeving, of specifieke doelen van het dataproduct. Dit voorkomt onnodige inspanning voor data die niet relevant is. Waar mogelijk kan automatisering handmatige stappen vervangen, waardoor de kans op fouten daalt en de efficiëntie stijgt. Zo blijft de focus gericht op waardevolle data, waardoor onnodige opslag en verwerking wordt voorkomen.
Naast het verzamelen van data moet de opslagstrategie worden bepaald. Het is essentieel om alleen data op te slaan die daadwerkelijk bijdraagt aan bedrijfsdoelen. Daarnaast is het belangrijk om tijdig verouderde data te verwijderen om aan wet- en regelgeving te voldoen. Hoewel opslagkosten zijn gedaald, brengen overtollige datakopieën nog steeds risico’s en complexiteit met zich mee. Slecht gecoördineerde opslag en schaduwadministraties verhogen de kans op fouten, zoals inconsistente gegevens, en maken beheer complex. Dit geldt voor zowel gestructureerde als ongestructureerde data. Denk aan formulieren die als JPEG worden gescand, vervolgens als PDF worden opgeslagen, en daarna met OCR worden geïnterpreteerd om digitaal leesbaar te worden gemaakt voor data-analyses die in eerste instantie over het hoofd werden gezien. Dit verhoogt de procescomplexiteit, verwerkingskosten en foutgevoeligheid.
2. Bewerken van data
Bij het bewerken van data speelt het Extract, Transform, Load (ETL)-proces een centrale rol. Tijdens het extraheren van data uit bronapplicaties ontstaan vaak verspillingen, vooral bij complexe omgevingen met masterdata. Denk hierbij aan het onnodig verplaatsen van data die uiteindelijk niet wordt gebruikt of het ontstaan van meerdere versies van de waarheid. Lange wachttijden voor datatoegang zijn een ander knelpunt, veroorzaakt door silo’s of beperkte toegang tot data. Integratie van systemen of centralisatie in een datawarehouse kan de efficiëntie en snelheid verbeteren. Verschillende afdelingen kunnen makkelijker samenwerken en data delen, wat innovatie en efficiëntie stimuleert, mits dit op een veilige en gecontroleerde manier gebeurt.
Na extractie wordt de data aangepast voor specifieke toepassingen of analyses. Het begrijpen van de klantbehoeften is hierbij essentieel om onnodige bewerkingen te voorkomen. Uniforme standaarden en consistente processen zijn noodzakelijk voor een efficiënt bewerkingsproces, zoals Lean-principes benadrukken. Consistente standaarden en goede modellering verminderen variabiliteit en ondersteunen de integratie van data uit verschillende bronnen. Daarnaast is het belangrijk om bij het ontwerp van een dataproduct na te denken over de noodzaak van persoonsgegevens; zo beperk je onnodig werk voor databeveiliging en verminder je risico’s op datalekken.
Ook verspilling van vaardigheden blijkt actueel. Bij het bewerken van data zie je regelmatig dat talent op de verkeerde plek wordt ingezet. Vaak worden BI-analisten namelijk ingezet voor datavoorbereidingstaken. Een veelgehoorde ’klacht’ van deze specialisten is dat ze 60% van hun tijd besteden aan werkzaamheden die beter bij data-engineers passen. Hierdoor kunnen zij hun wiskundige en statistische kennis minder benutten, wat leidt tot inefficiënties in het proces.
Tot slot zien we ook verspillingen bij het toepassen van analyses op datasets, zoals beschrijvende-, diagnostische-, voorspellende- of voorschrijvende analyses. Hier speelt doelbinding opnieuw een cruciale rol: door vast te stellen welke inzichten de klant nodig heeft, voorkom je onnodige complexe analyses die geen toegevoegde waarde bieden. Zo kan een relatief eenvoudig dashboard soms beter aansluiten bij de behoefte van de business dan een complex voorspellend model. Het is belangrijk dat je begrijpt dat complexere analyses sneller tot een onderbouwd advies komen, maar dat ze niet zonder solide basis kunnen. Je begint dus altijd bij een beschrijvende en diagnostische analyse om de situatie en behoeften goed te doorgronden. Pas daarna kun je, indien nodig, overgaan op geavanceerdere technieken, zoals AI voor voorspellingen.
3. Beschikbaar stellen van data
Uiteindelijk wordt het dataproduct aan de klant beschikbaar gesteld, idealiter via een catalogus met metadata. Afhankelijk van de gebruiksdoelen kan dit kant-en-klare inzichten bieden of flexibiliteit voor hergebruik door de klant zelf. Als klanten te lang wachten op de beschikbaarheid van data, kan dit wijzen op inefficiënt ingerichte ETL-processen. Voor sommige toepassingen kan overstappen van batchverwerking naar continue dataflows de doorlooptijd aanzienlijk verkorten, wat aansluit bij het flow-denken binnen Lean. In sectoren zoals de publieke sector is batchverwerking echter vaak voldoende, zoals bij het voorbeeld van de paspoortpiekvoorspeller in het vorige deel van deze artikelreeks.
Evaluatie met de klant is een belangrijke laatste stap: zijn de inzichten helder en is de gebruiker voldoende datageletterd om het product effectief te gebruiken? Waar nodig kan extra educatie helpen om meer uit de data te halen. Naast kwalitatieve feedback kun je ook kwantitatieve metingen verrichten op het gebruik van het dataproduct. Hoe vaak en door wie wordt het product gebruikt? Komt dit overeen met de verwachtingen van zowel de aanvrager als de producent? Door het dataproduct met de klant te evalueren op bruikbaarheid, gebruiksstatistieken en potentiële nieuwe inzichten (en met hulp van de PDCA-cyclus (Plan-Do-Check-Act) de waarde van het product verder te toetsen), zorg je voor blijvende optimalisatie. Denk ook na of het dataproduct waardevol kan zijn voor andere afdelingen: zo voorkom je dubbel werk en blijft waardevolle data optimaal benut.
Structureel onderhouden van het dataproduct
Nu het dataproces helder is en je weet hoe je dataproducten kunt monitoren (deel 2) en verspillingen kunt elimineren, is de volgende stap om eigenaarschap vast te leggen. Dit stelt een verantwoordelijke aan voor de realisatie en optimalisatie van dataproducten die aansluiten op klantbehoeften. Zo weet de klant bij wie hij moet zijn voor toegang of kwaliteitsissues. De producteigenaar kan verspillingen elimineren en kiezen tussen maatwerk- of standaardproducten om optimaal aan klantverwachtingen te voldoen. Door data governance en rollen, zoals eigenaar of steward, te formaliseren, is duidelijk wie verantwoordelijk is voor toegangs- en kwaliteitsbeheer, wat tijdverlies voorkomt en de efficiëntie vergroot.
Een federatieve governance-structuur past goed bij deze aanpak, omdat het centrale beslissingen over strategie, architectuur en standaarden combineert met de specifieke behoeften van individuele dataproducten. Dit doorbreekt organisatorische silo’s en bevordert de samenwerking tussen business en IT. Daarnaast ondersteunt dit een cultuur van Jidoka (Lean-principe afkomstig uit het Toyota Production System), waarin problemen direct worden opgelost en fouten vroeg worden aangepakt door de business zelf. De vorige artikeldelen helpen hierbij. Zo richtte deel 2 op het inzichtelijk maken van verspillingen, en in de laatste delen las je hoe deze in het proces kunnen worden geëlimineerd. Zo werk je voortdurend aan dataproducten die waarde toevoegen voor de klant.
Lean optimaliseert dataprocessen
Door onnodige dataopslag en -verkeer te elimineren en te focussen op doelgerichte data, wordt het dataproduct toegankelijker (adresseerbaar), consistenter (betrouwbaar), gemakkelijker herbruikbaar (zelfbeschrijvend), beter samenwerkend met andere systemen (interoperabel) en veiliger. Met goede metadata wordt het dataproduct beter vindbaar en begrijpelijk, terwijl een lagere procescomplexiteit minder fouten en het optimaal inzetten van talent bijdragen aan de kwaliteit van het dataproduct. Kortom, Lean draagt bij aan de eigenschappen van een goed dataproduct, zoals die zijn gedefinieerd door Zhamak Dehgani (zie deel 1).
Het is cruciaal om dataprocessen en -producten vanuit een klantperspectief te bekijken. Alle elementen die niet bijdragen aan klantwaarde vormen een van de genoemde verspillingen en veroorzaken variabiliteit in het procesresultaat. Door Lean-principes en data governance toe te passen, kunnen dataprocessen geoptimaliseerd worden, wat leidt tot dataproducten van constante hoge kwaliteit en meer waardecreatie voor de klant.
Heb je vragen over het behandelen van data als producten, het monitoren van dataprocessen met Six Sigma of het verbeteren ervan met Lean? Laat het ons weten als je interesse hebt in een vrijblijvend gesprek. Wij kijken ernaar uit om samen met jou maximale waarde te creëren met optimale dataproducten!