4 Vind causale verbanden in je data
“Vanaf deze stap gaat de daadwerkelijke data science een rol spelen, zeker bij grote hoeveelheden data. Je hebt allerlei gegevens verzameld en nu is het zaak om causale verbanden te ontdekken. Hoe je dat doet, hangt af van de hoeveelheid informatie die je hebt verzameld. Gaat het om 25 voorbeelden, dan kun je daar gewoon zelf statistiek op loslaten. Heb je veel externe contextuele databronnen of doe je onderzoek bij een internationale bank en zijn het er 1.500, dan wordt het een ingewikkelder verhaal.
Data science biedt allerlei technieken om enorme hoeveelheden data te analyseren. Je hebt bijvoorbeeld de Random Forest-methode, waarbij algoritmen zelf op zoek gaan naar verbanden. Dat doe je door het model eerst te trainen via een dataset en het vervolgens te verifiëren met een andere set. Tijdens die analyse kan een data scientist allerlei verbanden vinden. In je onderzoek naar fraude kun je met hulp van de data bijvoorbeeld een klantprofiel maken. Als er een afwijkende transactie plaatsvindt bij een bepaald klantprofiel, kan de bank ervoor kiezen om actie te ondernemen.”
5 Evalueer de zakelijke waarde van deze verbanden
“Stel dat je in stap 4 een causaal verband ontdekt waarmee je kunt voorspellen of een klant een criminele transactie gaat doorvoeren. Dan kun je dus ook actie ondernemen om dit te voorkomen. Vervolgens beoordeel je in deze stap de toegevoegde waarde van het model. De betrouwbaarheid van het model is vaak het eerste aandachtspunt, want 100 procent betrouwbaarheid is een utopie.
Daarbij is het ook belangrijk om er rekening mee te houden dat het onderhouden van je analysemodel tijd en geld kost. Hiermee ga je dus terug naar de allereerste stappen, waarin je het probleem in kaart bracht. Je maakt de afweging: wegen de baten van mijn oplossing op tegen de kosten?”
6 Breng je model in de praktijk
“Tot nu toe ben je bezig geweest om een model samen te stellen. In de vijfde stap heb je een afweging gemaakt: biedt mijn model een waardevolle oplossing voor het probleem? Zo ja, dan ga je in deze fase over tot actie. Het model ontgroeit de laboratoriumfase en wordt na instemming van de stakeholders in de praktijk toegepast. Je koppelt het analysemodel aan je operationele systemen. Dit zal stapsgewijs en onder begeleiding gebeuren, afhankelijk van de impact op de bedrijfsvoering en techniek, en van de ervaring met voorgaande implementaties. Zo is een DevOps-benadering ook voor data science een zeer voor de hand liggende werkwijze.”
7 Laat de gebruikers zelf ervaren wat het model doet
“Het model is gekoppeld aan, of geïmplementeerd in, de operationele systemen. Dit kan op leiden tot nieuwe beslissingen, met hopelijk een beter resultaat als gevolg. In het onderzoek naar criminele transacties kan het dus zijn dat je informatie hebt gekregen over een klant die geld wil witwassen. Het model laat de aanleiding tot deze diagnose zien en geeft opties om deze situatie te voorkomen.”
8 Leg de nieuwe activiteiten vast en meet hun zakelijke gevolgen
“Belangrijk is nu ook data te verzamelen over de daadwerkelijk invloed van het analysemodel op de werkvloer en de effecten daarvan. De praktijk is immers weerbarstiger dan de theorie en zonder meetgegevens over de effecten van je oplossing kom je niet tot verdere inzichten. Je gaat monitoren hoe het model en de organisatie zich vanaf nu manifesteert.”
9 Analyseer je data voor verdere stappen
“In deze laatste stap analyseer je de effecten van de oplossing die je hebt bedacht: is het probleem nu opgelost? Misschien merk je dat de signalering en adviezen vanuit het analysemodel dankzij een bepaalde ingreep nóg meer effect kunnen hebben en start je daarom een volgende verbeterslag. Bijvoorbeeld vanuit stap 3. Het kan ook zijn dat je juist op nieuwe problemen stuit en denkt: hier moeten we ook eens naar kijken (stap 1). Via zo’n methodische aanpak leidt datagericht werken tot nieuwe, diepere inzichten die een businessuitdaging behapbaar maken, in welke branche je ook zit.”