Data science

MLOps: methode voor een perfecte Machine Learning-pipeline

10 Augustus 2023 - 4 minuten leestijd

Artikel door Roman Nekrasov

Steeds meer organisaties staan open voor het gebruik van Machine Learning (ML). Door deze relatief nieuwe wetenschap, kunnen zij het consumentengedrag voorspellen, advies geven over bijvoorbeeld magazijnindelingen of vragen beantwoorden over bijvoorbeeld bouwconstructies. Een voorwaarde voor een geslaagde toepassing van ML, is dat de ML-modellen structureel bijdragen aan de organisatiedoelstellingen: de Machine Learning-pipeline moet op orde zijn. Dát is waar MLOps om de hoek komt kijken.

Wat is Machine Learning?

Om de betekenis van MLOps uit te leggen, moet je eerst weten wat ML is. Dit is een deelgebied van kunstmatige intelligentie (AI), waarbij computers worden geleerd te leren en beslissingen te nemen op basis van patronen die het systeem eerder heeft ontdekt in historische gegevens, zonder dat zij daarvoor expliciet zijn geprogrammeerd. Met andere woorden, algoritmen voor machinaal leren zijn ontworpen om gegevens te analyseren en patronen in die gegevens te identificeren, en vervolgens die patronen te gebruiken om voorspellingen te doen of adviezen te verstrekken.

Insights-update

Ontvang nieuwe Insights maandelijks in je inbox.

Schrijf je in.

Potentieel van MLOps

Veel organisaties, en computergebruikers in het algemeen, beginnen het ongekende potentieel van ML te ontdekken. Zo kan ML op basis van enorme hoeveelheden data verbanden leggen tussen oorzaken en gevolgen, waardoor voorspellende en adviserende algoritmen ontstaan die de trefzekerheid van de mens overtreffen. ML is dus écht een gamechanger in verschillende sectoren; van gezondheidszorg tot financiën, en alles daartussenin.

Machine Learning-pipeline ontbreekt

Wat het in productie brengen van een ML-model vaak lastig maakt, is het ontbreken van een soepel en verantwoord proces voor toepassing van de modellen in de dagelijkse bedrijfsvoering. Oftewel, de Machine Learning-pipeline ontbreekt. Dit geldt trouwens niet alleen voor ML, maar voor data science-modellen in het algemeen. De meeste organisaties experimenteren pas kort met data science of ML, en hebben dus nog geen systematische aanpak/ Machine Learning-pipeline voor integratie met bedrijfsapplicaties. Die organisaties kunnen houvast vinden in MLops.

Wat is MLOps?

Dan zijn we nu aanbeland bij de vraag: wat is MLOps? MLOps is een set aan practices en tools (een methode) die ML en data science in het algemeen combineert met DevOps (Development and Operations)-methodologieën. Door deze combinatie ontstaat een robuuste en efficiënte flow of Machine Learning-pipeline voor het inzetten, bewaken en updaten van ML-modellen. Hoe zo’n flow of pipeline eruitziet, zie je in de afbeelding hieronder.

OPLOSSING.

Benieuwd hoe Centric je hiermee kan helpen?

Lees verder.

IT-inzichten die je niet mag missen

Als eerste op de hoogte zijn van de laatste IT-ontwikkelingen? Schrijf je in voor onze maandelijkse nieuwsbrief.

Kernprincipes voor goed ingerichte Machine Learning-pipeline

MLOps bestaat uit zeven kernprincipes. Elk principe heeft zijn eigen reeks hulpmiddelen en technieken om ervoor te zorgen dat de modellen nauwkeurig, betrouwbaar en up-to-date zijn. Denk hierbij aan systemen voor gegevensversiebeheer, geautomatiseerde testframeworks, pipelines voor continue integratie en implementatie (CI/CD) en tools voor monitoring en logging.

Hieronder vind je een beschrijving van de zeven kernprincipes.

Versioning: het systematisch bijhouden van versies van ML-modellen, data, parameters en code om traceerbaarheid en herhaalbaarheid te garanderen (stakeholders: data scientists, data-engineers).
Testing: het uitvoeren van verschillende testen, zoals unit- en validatietests, om de kwaliteit en effectiviteit van de ML-modellen te waarborgen (stakeholders: data scientists, data-engineers).
Reproducibility: het standaardiseren en documenteren van het gehele ML-proces, van dataverzameling tot modellering, om consistentie en herhaalbaarheid van experimenten te verzekeren (stakeholders: data scientists, data engineers).
Deployments: het gecontroleerd en reproduceerbaar implementeren van ML-modellen in productieomgevingen (stakeholders: data-engineers, IT-operations).
Automation: het stroomlijnen van de ML-pipeline door automatisering van processen, zoals dataverzameling, modeltraining en deployment, om efficiëntie en consistentie te bevorderen (stakeholders: data scientists, data-engineers, IT-operations).
Monitoring: het continu observeren van de prestaties van uitgerolde modellen, de kwaliteit van de data-input en de infrastructuur, om eventuele problemen of afwijkingen snel te identificeren (stakeholders: data scientists, data-engineers, IT-operations).
Ways of working: het bevorderen van samenwerking en het volgen van best practices in codering en documentatie, om een geïntegreerde en efficiënte werkomgeving te creëren (stakeholders: data scientists, data-engineers, business-stakeholders).

In elk van deze principes is er een noodzaak voor nauwe samenwerking tussen verschillende rollen, zoals datascientists en data-engineers. Daarnaast moet er een sterke verbinding zijn met de business. Alleen dan kun je ervoor zorgen dat de modellen en Machine Learning-pipelines die worden ontwikkeld waarde leveren voor de organisatie.

Weten hoe deze kernprincipes in de praktijk toegepast kunnen worden? Dit lees je binnenkort in artikel twee van dit drieluik over MLOps: MLOps: Hoe haal je snel meerwaarde uit data?

MLOps cruciale rol in data science

ML wordt een steeds belangrijker vakgebied. Hierdoor zal ook het belang van MLOps verder toenemen. Geen andere methode speelt momenteel zo’n cruciale rol in het helpen van organisaties om de voordelen van ML te realiseren, terwijl de risico's en kosten worden geminimaliseerd.

Ben jij geïnteresseerd in MLOps? Lees verder: MLOps: Uitleg Machine Learning Pipeline | Centric_Insights

ARTIKEL.

MLOps: De fasen van de Machine Learning Pipeline toegelicht

Lees meer.

De voordelen van MLOps

De voordelen van MLOps op een rijtje:

Efficiëntie: Met MLOps kunnen organisaties de ML-modellen sneller en efficiënter in productie brengen. Dit betekent dat zij hun data-gedreven besluitvormingsprocessen in een vlot tempo kunnen verbeteren, waardoor ze beter in staat zijn zich aan te passen aan veranderende omstandigheden en competitieve druk.
Schaalbaarheid: Met MLOps is het mogelijk ML-modellen op te schalen en te beheren, waardoor organisaties in staat zijn meer waarde te halen uit hun gegevens. Dit kan bijvoorbeeld betekenen dat een organisatie meer klanten kan bedienen met gepersonaliseerde aanbevelingen of betere voorspellingen kan doen van de vraag naar zijn producten.

Bijdrager(s)

Roman Nekrasov uit Tilburg is data science-consultant bij Centric. Hij werkt voornamelijk voor de overheid aan projecten rondom onder andere het voorspellen en categoriseren van stikstofuitstoot voor het vaststellen van toezichtbeleid. Daarnaast doet Roman een master in Data Science in Business & Entrepreneurship, met de focus op bruggen bouwen tussen academische/technische data science en organisatiebehoeftes.

Topics

Data science