De basis van generatieve AI ligt in grote taalmodellen, de zogeheten Large Language Models (LLM). Deze modellen leren door enorme hoeveelheden bestaande gegevens om te zetten naar zeer kleine eenheden, waarmee ze allerlei betekenisconstructies opbouwen. Hoe meer mensen generatieve AI - en dus deze LLM’s - gebruiken, hoe beter die systemen in staat zijn om de juiste interpretaties te ontdekken en te genereren. Een veelbelovende technologie voor iedereen; voor nu en later.
Wapperen met persoonsgegevens
Er zit echter ook een risico aan deze manier van verwerken. Alles wat je met generatieve AI deelt wordt immers deel van het systeem en daarmee van de openbaarheid. Niet direct zichtbaar, maar wel als onderdeel van de groeiende intelligentie. Gevoelige gegevens, zoals persoonsgegevens, wil je om die reden dus liever niet in een LLM laten verwerken. Dat zou min of meer hetzelfde zijn als buiten het gemeentehuis met die gegevens staan wapperen. Niet veel mensen realiseren zich dat. Privacywetgeving is hier dan ook alert op.
Nu zou een gemeente enorm gebaat zijn bij het deels laten uitvoeren van processen door AI. Dat je dat als gemeente zou moeten doen, heb ik in een eerder blog al eens uitgelegd. De kansen en voordelen van AI zijn enorm en het kan gemeenten helpen in allerlei processen waar de productiecapaciteit onder druk staat. Niet alleen als een handig teksthulpje (wat ook zijn voordelen heeft, daar niet van), maar echt ingebakken in en gekoppeld aan processen. Waarbij het vaak over inwoners gaat. Daar ontstaat dus een functie-privacydilemma.
Maximaal minimalistisch
Een oplossing voor dit dilemma ligt in iets dat we asymmetrisch verwerken noemen. Feitelijk is dat een essentieel onderdeel van GOV-AI: de AI die specifiek bedoeld is voor de overheid. Een GOV-AI-platform gebruikt daarvoor technieken die persoonsgegevens op allerlei manieren bruikbaar houden voor een AI-toepassing, zonder dat ze herkenbaar zijn voor een LLM. Anonimiseren heet dat en dat kan op vele technische manieren. Verder gaat asymmetrisch verwerken over de beperking van gebruikte data: uitsluitend data die voor een proces nodig zijn worden gebruikt. GOV-AI gaat dus maximaal minimalistisch om met data. Een derde aanpak is zorgen dat data na verwerking uit een GOV-AI-platform verdwijnt. Dat is overigens ook een belangrijk principe van Common Ground en relevant als het gaat om de inzet van AI en de LLM’s die erachter schuilgaan.
Een GOV-AI-platform in plaats van allerlei losse AI-toepassingen
In mijn eerdere blogs heb ik toegelicht waarom het belangrijk is om met een onderliggend platform te werken waar alle AI-toepassingen op draaien. In de context van LLM en privacy is dit nog eens extra belangrijk. Veel kleine, reguliere AI-toepassingen werken namelijk rechtstreeks, zonder tussenlaag, met één LLM. Daarmee sta je dus echt te wapperen met persoonsgegevens en is het betreffende LLM je dankbaar voor de input. Gebruik je een GOV-AI-platform, dan loop je dat risico niet.
Een GOV-AI-platform is bovendien niet beperkt in de keuze voor een LLM. Het is met andere woorden LLM-agnostisch en kan met alle LLM’s werken. Dus als er een Nederlands LLM NL beschikbaar komt, dan moet GOV-AI daar ook direct mee kunnen schakelen. Met asymmetrisch verwerken kent dat dan geen risico.