Ethische data dilemma’s op de werkvloer

Herman Ozinga is data analist bij de gemeente Amsterdam. Hij krijgt een dataleveringsverzoek dat hij niet met zijn geweten kan verenigen. Hij worstelt met zichzelf: solidair zijn met de organisatie of naar zijn innerlijke stem luisteren. Uiteindelijk besluit hij niet meer aan het betreffende project mee te werken. Als gevolg hiervan wordt binnen zijn afdeling een discussie over verantwoord gebruik van data in gang gezet. De afdeling wordt daarin begeleid door het gemeentelijke Bureau Integriteit, later wordt ook aangehaakt bij Bureau Tada. Herman deelt zijn verhaal in de hoop dat data analisten, collega’s en anderen die in hun werk met ethische vragen te maken krijgen er iets aan zullen hebben.

In dit artikel wordt een fictieve casus gebruikt omdat niet alle betrokken partijen om toestemming tot publicatie is gevraagd. De ethische dilemma’s komen overeen met de werkelijke casus.

Op de afdeling waar Herman werkzaam is, komen verzoeken binnen voor het leveren van datasets ten behoeve van onderzoek. Bij nieuwe onderzoeksvragen waarbij gebruik wordt gemaakt van persoonsgegevens, moet altijd advies worden gevraagd aan een onafhankelijke partij. Op de afdeling werd gewerkt aan het stroomlijnen van de procedure die hiermee gemoeid was. “Wanneer je op een nieuwe manier gebruik wilt maken van persoonsgegevens, moet dit worden beoordeeld door een partij die onafhankelijk is van zowel de verzoeker als de leverancier van deze data”, zegt Herman. “Toen was het zo dat elke nieuwe gegevensbewerking waar persoonsgegevens in worden gebruikt, aan deze onafhankelijke partij moest worden voorgelegd. Dat moest anders kunnen. Doel was om niet elk voorval apart te melden maar zaken in één keer te regelen. Dat die stroomlijning nodig was, daar waren we het allemaal wel over eens. Maar de vraag is hoe ver je daar in gaat. Zo’n procedure kan ook een glijbaan worden, dat alles er onder valt. De controlefunctie van de onafhankelijke partij valt dan weg. Dat is misschien efficiënter maar de vraag of je verantwoord omgaat met data verdwijnt naar de achtergrond.”

“Ik doe het niet”

“We zaten met de opdrachtgever en andere partijen bij elkaar om te bedenken hoe de stroomlijning er uit zou moeten zien”, vervolgt Herman. “Zo’n gesprek ontwikkelt zich op een bepaalde manier. Je moet eerst in kaart brengen over welke onderdelen je het gaat hebben. Je kan bepaalde issues aanwijzen maar daar wordt dan van gezegd: ‘daar moeten we het later over hebben’. Heikele onderwerpen kunnen zo worden doorgeschoven tot er een context is ontstaan waarin deze bijna niet meer als heikel kunnen worden benoemd. Het is geen kwade wil maar zo loopt zo’n gesprek. Het stroomlijnen van de procedure is dan wel een rationaliseringsslag maar er is wel degelijk ook een gesprek over risicovolle omgang met data, waarbij oplossingen worden aangedragen om de risico’s te verminderen. Bezwaren worden geadresseerd en zo mogelijk weggenomen zodat er uiteindelijk consensus ontstaat, dat is tenslotte het doel.

“Ondertussen zat er een data aanvraag aan te komen voor de herhaling van een experiment waar ik mij de eerste keer al niet in kon vinden. De gestroomlijnde richtlijnen zouden betekenen dat het experiment nogmaals zou kunnen worden uitgevoerd. Ik heb geprobeerd met goede argumenten te komen om het experiment niet nog een keer uit te voeren maar zonder effect. In dat stadium dacht ik: ‘waar zit de noodrem’. Het zou steeds moeilijker worden om überhaupt nog iets te kunnen zeggen. Dus heb ik mijn moed verzameld en aan het begin van weer een bijeenkomst van de werkgroep gezegd – niet langer wachtend op een moment dat het volgens de agenda aan de orde was – ‘als voor dit project weer om een datalevering wordt gevraagd zullen jullie het zonder mij moeten doen’. Het was een moeilijke beslissing en moeilijk om te zeggen. Want nogmaals, er heeft zich dan al een heel proces voltrokken in de werkgroep: We hebben besproken wat we vinden dat zorgvuldige omgang met data is. Daar zijn bepaalde richtlijnen uitgekomen. En volgens die richtlijnen is er geen reden om het niet te doen. En dan sta jij in je eentje op en zeg je: ‘ik doe het niet’. ”

Black box technologie

Hermans ethische dilemma gaat over een experiment met machine learning waarbij een dataset met persoonlijke gegevens wordt gebruikt. Herman: “In principe is in de wet strak vastgelegd waar je die dataset wel en niet voor mag gebruiken. Maar zodra je zegt dat het voor onderzoek is, dan mag er opeens veel meer. Het mag niet tot een persoon herleidbaar zijn, maar buiten dat wordt het juridisch vaag.” Hij ziet twee risico’s: een gebrek aan transparantie van de overheid naar de burger en dat het experiment uiteindelijk kan leiden tot profiling.

Herman: “Machine Learning (ML) verschilt van traditioneel wetenschappelijk onderzoek. Een wetenschapper gebruikt data om onderzoek te doen en komt tot een conclusie. De wetenschapper kan uitleggen hoe de data tot de conclusie leidt. Het onderzoek is herhaalbaar. Bij ML is het juist de bedoeling dat het computerprogramma reageert op de data. Je hebt geen wetmatigheid gevonden maar een mechanisme dat het menselijk bevattingsvermogen te boven gaat.”

Oncontroleerbare uitkomsten

ML zoekt betekenisvolle patronen in data. Een bekend voorbeeld is spam detectie van e-mails. Een computerprogramma krijgt een grote set trainingsdata. Deze bestaat uit miljoenen e-mails die door mensen zijn gelabeld als wel-spam en geen-spam. Het programma gaat op zoek naar patronen. Die patronen worden omgezet in hypothesen. Een voorbeeld van een hypothese is: de aanwezigheid van het woord Viagra in een mail, duidt op een grote waarschijnlijkheid dat het spam is. De hypothese wordt vervolgens getest op een andere set data die niet gebruikt is voor de training. De fouten die tijdens deze test gemaakt worden (een mail komt onterecht in de spambox) worden gemarkeerd en opnieuw in het computerprogramma ingevoerd. Hierdoor leert de machine van zijn fouten en kan het de hypothese bijstellen.

Twee eigenschappen van ML maken dat de techniek voor mensen oncontroleerbaar is. Ten eerste: ML heeft heel veel data nodig. Een programma kan niets leren van drie e-mails. De trainingsdata bestaat uit miljoenen datapunten. Ten tweede: ML kijkt naar een heleboel verschillende parameters: de woorden in de mail, de reputatie van de afzender, uit welk land het is verstuurd en nog veel meer. De hoeveelheid data en parameters, leidt tot een zeer hoge mate van complexiteit. Dat maakt het voor een mens onnavolgbaar en oncontroleerbaar. We kunnen zien welke data er wordt ingevoerd, en welke uitkomsten er worden gegenereerd. Maar hoe het programma tot de uitkomsten komt is een black box. Dat is ook precies de belofte van ML: dat het computerprogramma betekenisvolle patronen waarneemt die een mens het verstand te boven gaan. Maar er zitten ook keerzijden aan.

“Wanneer je als overheid ML inzet om processen te sturen, krijg je moeilijkheden”, zegt Herman. “De overheid moet beslissingen kunnen uitleggen. Als een burger een subsidie aanvraagt, dan past de overheid regels toe. Wanneer je als overheid besluit een subsidieaanvraag af te wijzen, kan je dat uitleggen: ‘Je komt niet in aanmerking vanwege regel x’. Dat is transparant. Maar als je ML inzet, kan je niet uitleggen waarom je bepaalde dingen doet. Immers, je weet zelf niet hoe het computerprogramma tot een bepaalde uitkomst is gekomen.”

Profiling

Een ander risico is profiling. Neem het volgende fictieve voorbeeld: Een burger betaalt voor de derde opeenvolgende maand niet de huur voor zijn sociale huurwoning. Dit is voor de gemeente een signaal om actie te ondernemen. Een ambtenaar zoekt toenadering en biedt schuldhulpverlening aan. Je kan als overheid uitleggen waarom je die stap neemt. Maar neem nu de fictieve machine learning casus. Je voedt data in een computerprogramma en de computer kent als uitkomst cijfers toe aan burgers. Een 10 duidt op een hoog risico op schuldproblemen en 1 op een laag risico. Vervolgens stuurt de gemeente een ambtenaar naar iedereen met een cijfer van 8 en hoger. Als die burgers vervolgens aan de gemeente vragen waarom zij zo behandeld worden, heeft de gemeente daar geen antwoord op. Ze heeft geen concrete aanwijzingen, alleen maar een onnavolgbare uitkomst uit een machine.

“Als je ML uitkomsten op individuele gevallen toepast kan je niet meer helder uitleggen waarom je mensen behandelt zoals je doet. Je bent dan aan het profilen. Profilen wil zeggen dat je individuen indeelt in profielen en dan zegt: ik ga jou zo behandelen. Als overheid sta je dan in de jachtmodus: je bent op zoek naar precies die exemplaren die je op de korrel wilt nemen.”

En dat brengt een tweede probleem met zich mee, zegt Herman. “Het lastige van zo’n nummertje is dat het niets zegt over de oorzaken waarom een burger dat risicogetal heeft meegekregen. Als je complexe problemen wilt oplossen dan heb je iets anders nodig dan een getalletje. Je moet weten hoe de situatie in elkaar zit. Je gaat naar de omgeving kijken. Dan ga je verschillen zien en kansen waarnemen. Maar met zo’n ML methode wordt je niet wijzer. Het algoritme heeft iets geleerd, de gemeente niet.”

Ruimte voor discussie over ethische omgang met data

“Toen ik zei dat ik niet zou meer zou meewerken aan het project, maakte ik een sliding”, zegt Herman. “Je ligt daarna op de grond en doet niet meer mee aan het spel. Ik had geen inspraak meer in het verdere verloop van het experiment. Maar ik heb daar niet veel last van gehad. Ik zat veel beter in mijn vel nadat ik mij uitgesproken had. En het droeg er ook aan bij dat binnen de afdeling een gesprek is ontstaan over ethische omgang met data, een gesprek dat iets verder gaat dan de vraag wat juridisch toelaatbaar is.”

“Ik moest een taak uitvoeren in het kader van mijn werk waar ik niet achter sta. Als ambtenaar worden we geacht opdrachten uit te voeren. Maar tegelijkertijd wordt er ook van je gevraagd je eigen oordelen te vormen. Dus als je vindt dat de organisatie de verkeerde kant op gaat dan moet je dat kunnen zeggen. En dat kon inderdaad ook. Dat is een pluim voor gemeente Amsterdam en specifiek voor mijn afdeling.”

“Ethiek is geen formule”

De manager van Herman zette een aantal stappen om het gesprek over ethische omgang met data vorm te geven. De afdeling ging onder meer aan de slag met Tada. Het Tada manifest benoemt zes principes die aan een verantwoorde digitale stad ten grondslag zouden moeten liggen. In de Agenda Digitale Stad committeert Amsterdam zich aan het implementeren van de Tada waarden in de eigen organisatie. Op dit moment werken de gemeente en Bureau Tada samen aan methoden om de abstracte waarden in de praktijk te brengen. Hermans afdeling volgde de workshop ‘Verantwoorde digitalisatie en ethisch datagebruik’, ontwikkelt door Bureau Tada en het gemeentelijke Bureau Integriteit. In de workshop wordt gekeken hoe de Tada waarden op de werkvloer kunnen worden toegepast.

“Ethiek is geen formule”, zegt Herman. “Bij ethische vraagstukken is er een openheid waarin je je eigen houding moet bepalen. Je kan het niet reduceren tot een check list of een protocol waarin je verteld wordt wat je moet doen. Het is een overweging, een oordeel. Dat vind ik sterk aan Tada, het bestaat uit een aantal waarden. Er zijn principes geformuleerd die richting aangeven. Je moet je er actief toe verhouden om die waarden optimaal te realiseren. Daar zit de openheid in van de ethische afweging waardoor je je niet kunt verschuilen.”

“De mentaliteit binnen de gemeente Amsterdam is aan het veranderen”

“Tada is een teken dat er een beweging gaande is”, vervolgt Herman. “Een beweging die tegenwicht biedt door al die mooie IT ontwikkelingen kritisch te benaderen. De mentaliteit binnen gemeente Amsterdam is aan het veranderen. Vroeger ging het hard. Toen was de tendens: ‘willen we een beetje meedoen dan moeten we ook aan de slag met deze nieuwe technologieën. Er zijn nog steeds wel kampioenen voor data experimenten maar er is nu veel meer aandacht voor de schaduwkanten van deze technologieën. Voorzichtigheid is veel belangrijker geworden.

“Die verandering is goed. We moeten binnen de gemeente breder praten over machine learning en big data technieken. Je moet het veel beter begrijpen en dan kijken hoe je dat eventueel zou kunnen gebruiken of niet. Dat betekent dat je niet van die experimentele projecten moet starten. Bij experimenten mag er opeens veel en is er vooraf weinig kritische reflectie. De houding is dan: ‘We doen een experiment en we weten niet waar het toe gaat leiden maar laat ons maar even.’ Maar dat is verstoppertje spelen. Dat is geen openheid. De houding zou moeten zijn: ‘Ik ben van plan dit te gaan doen. Schiet er maar op. Laten we een discussie hebben.’”

Auteur: Tessel Renzenbrink

Foto: Nick Harris CC-BY-ND 2.0

“Je zit in de spagaat tussen je geweten en solidariteit met de organisatie”