MLOps valkuil 1: Opportunistische inrichting van de MLOps-pipeline
Eén van de kostbaarste valkuilen bij het toepassen van data science manifesteert zich eigenlijk al op het moment dat je ermee start. Niet zo vreemd, want data science start over het algemeen met kleine experimenten om ervaring op te doen. Zodra het potentieel wordt ervaren en resultaten worden opgepakt door de stakeholders, is de verleiding groot op de experimentele basis verder te gaan. Met als gevolg dat de organisatie niet goed wordt voorbereid op wat er met MLOps beoogd wordt. Wie onderstaande succesfactoren verwaarloost, zet het succes van data science binnen no-time op het spel.
1a. Duidelijke doelstellingen en strategie
Een goed gedefinieerde strategie en duidelijke doelstellingen bepalen het pad dat betrokken afdelingen volgen en hoe deze afdelingen bijdragen aan de bedrijfsdoelen. Begin met het identificeren van de specifieke doelstellingen van de MLOps-pipeline. Wat wil het bedrijf bereiken met MLOps? Ontwikkel vervolgens een strategisch plan om deze doelen te realiseren, waarin concreet wordt vastgelegd hoe de MLOps-pipeline naadloos met bestaande bedrijfsprocessen integreert. Betrek daar ook de afdelingen bij waar MLOps de pijlen als eerste op zal richten: de afnemer van de analyses!
1b. Samenwerking tussen teams
Naast hechte samenwerking met business-stakeholders, vereist MLOps samenwerking tussen verschillende teams onder de motorkap. Denk hierbij aan de data-scientists zelf, maar ook aan de software-engineeringteams en de operationele teams, zoals IT-beheerders, DBA’ers en applicatiebeheerders. Zorg voor open communicatiekanalen tussen deze teams. Zonder die ‘korte lijntjes’ is er geen effectieve samenwerking en zal MLOps aan performance en kwaliteit inboeten.
1c. Datamanagement en governance
Zorg ervoor dat er een goed gedefinieerde data-governance-strategie is om datakwaliteit te waarborgen en datatoegang te reguleren. Implementeer datacatalogi en datalijnprocessen om de traceerbaarheid, transparantie en kwaliteit van brongegevens te waarborgen. Naast data is het correct controleren van algoritmen cruciaal voor de nauwkeurigheid en betrouwbaarheid van Machine Learning-modellen. Een solide datamanagement- en governance-aanpak voor zowel data als algoritmen, zorgt voor consistentie in hoogwaardige inzichten.
1d. Investeer in volwassen technologie in de waardeketen
Zoals overal het geval is, helpt ook hier een geoptimaliseerde en schaalbare infrastructuur de prestaties te verbeteren en de kosten te verlagen. In de experimentele fase van data science is dat allemaal nog niet zo belangrijk, maar op het moment dat bedrijfsvoering er afhankelijk van wordt, is het een ander verhaal. Zorg daarom stapsgewijs, conform het strategisch plan, voor een robuuste en schaalbare infrastructuur om Machine Learning-modellen te ontwikkelen, te implementeren en te onderhouden. Kies tools en technologieën die de MLOps-pipeline geheel ondersteunen, zoals geautomatiseerde gegevensvoorbereiding en model deployment, versiebeheer, API-management en monitoring.
1e. Geautomatiseerde performancemonitoring
Monitoring vanuit het MLOps-team zelf is cruciaal voor het vroegtijdig detecteren van terugval in prestaties. Ook kun je door te monitoren teams in staat stellen om proactief in te grijpen, dus voordat er vanuit de business signalen komen dat er terugval in prestatie is ontstaan. Handmatig monitoren is echter kostbaar en geestdodend werk, waardoor het onderin de takenlijst kan komen. Automatiseer daarom robuust geautomatiseerde monitoringmechanismen om de prestaties van modellen in productie te volgen en tijdig te reageren op modeldegradatie, zonder dat dit ten koste gaat van ontwikkelwerkzaamheden.