Slide 1

Slide 1 text

PRIVACY ENHANCING TECHNOLOGIES: WILLEN MOGEN KUNNEN BIG DATA EXPO, UTRECHT, 15 SEPTEMBER 2022

Slide 2

Slide 2 text

WE WILLEN DIGITALISEREN Efficiëntere interne processen Effectievere overheid/bedrijven Betere service Credit: Ceo Today

Slide 3

Slide 3 text

ER ZIJN OOK RISICO’S WE WILLEN WEL, MAAR...

Slide 4

Slide 4 text

Persoonlijke data is een uitdaging Hiervoor is een rechtsgrond nodig Maar ook niet-persoonlijke data kan lastig zijn Concurrentie Veiligheid Re-identificatie WANNEER DATA DELEN? MOGEN

Slide 5

Slide 5 text

HET MAG NIET ZOMAAR MOGEN BETEKENT OOK MOETEN “passende technische of organisatorische maatregelen” ”beschermen tegen ongeoorloofde of onrechtmatige verwerking” “beschermen tegen onopzettelijk verlies, vernietiging of beschadiging”

Slide 6

Slide 6 text

Privacy Enhancing Technologies (PET’s) gaan over geautomatiseerd bevragen Van andere partners Met alleen minimale informatie-inhoud Zonder enige andere informatie te ‘lekken’ Proportionaliteit door minimalisatie Meestal wordt van privacy gesproken maar het gaat eigenlijk om databescherming Data op een veilige en privacy bestendige manier te kunnen delen is nodig om producten en diensten effectiever en efficienter te maken en om sneller nieuwe producten en diensten te kunnen ontwikkelen. PRIVACY ENHANCING TECHNOLOGIES KUNNEN

Slide 7

Slide 7 text

Datageoriënteerde strategieën “HET BLAUWE BOEKJE” PRIVACY BY DESIGN Strategie Inhoud Minimaliseer Beperk zo veel mogelijk de verwerking van persoonsgegevens Scheid Scheid de verwerking van persoonsgegevens zo veel mogelijk van elkaar Abstraheer Beperk zoveel mogelijk het detail waarin persoonsgegevens worden verwerkt Verberg Bescherm persoonsgegevens, of maak ze onherleidbaar of onobserveerbaar. Voorkom dat persoonsgegevens openbaar worden

Slide 8

Slide 8 text

Procesgeoriënteerde strategieën “HET BLAUWE BOEKJE” PRIVACY BY DESIGN Strategie Inhoud Informeer Informeer gebruikers over de verwerking van hun persoonsgegevens Geef controle Geef gebruikers controle over de verwerking van hun persoonsgegevens Dwing af Committeer je aan een privacy vriendelijke verwerking van persoonsgegevens, en dwing deze af Toon aan Toon aan dat je op een privacy vriendelijke wijze persoonsgegevens verwerkt

Slide 9

Slide 9 text

Loskoppelen van datasets, verwijderen van id Vervangen van id door een niet- herleidbare id Nadeel: re-identificatie is vaak toch mogelijk Toepassingen: Voor kleinere datasets met lagere gevoeligheid soms een goede optie Gegevens combineren in groepen zodat individuen niet meer herleidbaar zijn “k-anonymity” Nadeel: niet altijd toepasbaar Toepassingen: Rapportages en statistieken (CBS) Variaties (‘ruis’) in antwoorden toevoegen zodat individuen niet meer herleidbaar zijn Nadeel: niet altijd toepasbaar, soms is de verstoring onwenselijk Toepassing: Statistische bevraging van databases Machine learning (PATE) 1] ANONIMISEREN, PSEUDONIMISEREN 2] AGGREGEREN 3] DIFFERENTIAL PRIVACY PRIVACY ENHANCING TECHNOLOGIES: KLASSIEKERE AANPAKKEN

Slide 10

Slide 10 text

“Gezamenlijk analyseren zonder te delen” Meerdere partijen (klein aantal) Versleutelen en/of in stukjes ophakken: niemand “leert” iets Slechts resultaat wordt bekend Toepassingen: Van gedistribueerde data leren Meerdere partijen willen hun data aan elkaar koppelen “Data mag het pand niet verlaten” Meerdere partijen (groter aantal) Lokaal getraind AI model Uitwisseling van model parameters, geen data Toepassingen: Van gedistribueerde data leren Meerdere partijen willen hun data aan elkaar koppelen Dataset moet gedeeld worden maar dat mag niet Individuen niet van belang AI leert distributies en creëert nieuwe “fake” dataset Toepassing: Binnen bedrijf: ontwikkelen / testen nieuwe IT producten op realistische data, stagairs/analisten Buiten eigen bedrijf: samenwerking en analyses uitvoeren 1] MULTI PARTY COMPUTATION 2]FEDERATED LEARNING 3] SYNTHETIC DATA GENERATION PRIVACY ENHANCING TECHNOLOGIES: DE NIEUWERE ONTWIKKELINGEN

Slide 11

Slide 11 text

Lootjes trekken Niemand mag zichzelf trekken Je mag niet weten wie wie trekt Er is geen vertrouwde derde EEN VEILIG PROTOCOL VOOR 5 DECEMBER VOORBEELD 1 Bron: nucia.eu, user ‘egeltje’, 14-11-09 1: Lootjes met namen in envelop met dezelfde naam 2: Keer de enveloppen om (naam naar beneden) en schud 3: Schuif de inhoud één envelop naar links 4: Doe de enveloppen dicht en geef aan de persoon met de naam op de voorkant

Slide 12

Slide 12 text

HET GEMIDDELDE SALARIS IN EEN GROEP VOORBEELD 2 € 2500 + € 3419 € 5919 + € 3250 + € 1800 + € 4320 € 9169 € 10969 € 15289 - € 3419 € 2967,50

Slide 13

Slide 13 text

SOORTEN FUNCTIONALITEIT WAAR PAS JE DIT NU TOE? Pro-actieve dienst- verlening Selecteren van groepen door combinatie van kenmerken Modelleren door leggen van verbanden tussen datasets Identificatie van individuen Voorkómen van schulden Herkenning mogelijke fouten Opsporing van fraude- gevallen Steeds “spannender” Kenmerken van individuen Toegevoegde waarde voor de organisatie (wordt het goedkoper, sneller, nauwkeuriger, proportioneler, …) de klant / samenleving (wordt het sneller, nauwkeuriger, transparanter, …?)

Slide 14

Slide 14 text

STATISTISCHE MEDISCHE GEGEVENS VOORBEELD UIT DE PRAKTIJK

Slide 15

Slide 15 text

BESTRIJDEN MENSENHANDEL VOORBEELD UIT DE PRAKTIJK Betrokken partijen: Roseman Labs, Sustainable Rescue

Slide 16

Slide 16 text

VOORBEELD UIT DE PRAKTIJK Circa 12000 voortvluchtige veroordeelden (tot 300 dagen gevangenisstraf) Groot deel (70-90%) zit in buitenland Beperkte capaciteit, handmatig proces (vordering) per individu => prioriteit bij NL Bereken een ‘vindbaarheidsscore’ door combinatie álle gegevens van derde partijen OPSPOREN VAN ONVINDBARE CRIMINELEN Naam Identifier Jan Jansen 179483761 Anna Willemsen 823910314 Piet Bell 023587214 Johan Barends 350912465 A. Maria 812392506 … … Naam Identifier Aantal transacties in afgelopen maand P. Bell 023587214 21 T. Doe 731387519 16 J. Jansen 179483761 3 A.C. Clark 235862024 14 R. Ryan 235820985 29 … … … Justitie Bank

Slide 17

Slide 17 text

COMBINEER INFORMATIE OPS Bank A Bank B Bank C Telco A Overheidsinstanties Telco B Telco C 2+1+1+4 = 8 “vindbaarheidsscore” VEILIGE BEREKENING VINDBAARHEIDSSCORE

Slide 18

Slide 18 text

“Big data, maar dan secure” Virtual data lake WAT IS ER BESCHIKBAAR IN NEDERLAND? KUNNEN “Share insights, not data” Nadruk op regelen van governance “A digital twin of your original data” Volledig synthetische datasets genereren

Slide 19

Slide 19 text

No content

Slide 20

Slide 20 text

Virtual Data Lake: samenwerken op gevoelige data 20 Gebruiksklare MPC-software voor samenwerking op gevoelige data Voor elke data-scientist: werk in Python Cloud, On-premise of Hybrid deployment In gebruik bij o.m. Ministerie Justitie & Veiligheid NCSC (>100 partners)

Slide 21

Slide 21 text

Virtual Data Lake: Praktisch inzetbaar door hoge rekensnelheid 21 Praktisch aan de slag met datasets van miljoenen records Ruim 1.000x sneller rekenen: • Multicore: bijna lineair schalen van multi party-berekeningen over meerdere CPUs • Zeer efficiënte MPC-protocollen: reken-complexiteit schaalt lineair met data volume Praktijkcasus uit de Gezondheidszorg: • 100.000 rijen • Join: 7s • Filter: 0.6s • Logistic regression training: 13m • Logistic regression inference: 70s

Slide 22

Slide 22 text

No content

Slide 23

Slide 23 text

Linksight 2021 TNO spin-off Enable customers to achieve maximum impact in their data collaborations, without revealing sensitive information First in NL to apply MPC to real patient data Combination of PET & governance

Slide 24

Slide 24 text

Governance interface for managing data collaborations Analysis interface for analysis within the given boundaries

Slide 25

Slide 25 text

No content

Slide 26

Slide 26 text

26 | Copyright © 2021 Syntho BV. All rights reserved AI-generated synthetic data: a digital twin of your original data Synthetic data platform Analysis results interchangeable QA report Original data Synthetic data

Slide 27

Slide 27 text

27 | Copyright © 2021 Syntho BV. All rights reserved As-good-as-real synthetic data Original Synthetic data platform Synthetic U n i v a r i a t e S t a t i s t i c s M u l t i v a r i a t e ( c o r ) r e l a t i o n s M L P e r f o r m a n c e

Slide 28

Slide 28 text

28 | Copyright © 2021 Syntho BV. All rights reserved Synthetic data approved by the data experts of SAS Models trained on synthetic data compared to models trained on original data show highly similar performance Models trained on data with applied ‘classic anonymization techniques’ show inferior performance compared to models trained on the original data or synthetic data Synthetic data generation is easy, fast and scalable because the technique works exactly the same per dataset and per data type Statistics Analytics models

Slide 29

Slide 29 text

DATA DELEN? CONCLUSIE Willen Mogen Kunnen Moeten !

Slide 30

Slide 30 text

[email protected] MEER WETEN? Onderzoeker / ontwikkelaar:  PEN-NL Toepasser / bedrijfsleven:  Roseman, Linksight, Syntho  PET Practices (TNO) Toepasser / overheid:  NICPET (Nationaal Innovatie Centrum PET’s)