Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20220915_Big_Data_Expo_-_Privacy_Enhancing_Technologies.pdf

Marketing OGZ
September 19, 2022
65

 20220915_Big_Data_Expo_-_Privacy_Enhancing_Technologies.pdf

Marketing OGZ

September 19, 2022
Tweet

Transcript

  1. Persoonlijke data is een uitdaging Hiervoor is een rechtsgrond nodig

    Maar ook niet-persoonlijke data kan lastig zijn Concurrentie Veiligheid Re-identificatie WANNEER DATA DELEN? MOGEN
  2. HET MAG NIET ZOMAAR MOGEN BETEKENT OOK MOETEN “passende technische

    of organisatorische maatregelen” ”beschermen tegen ongeoorloofde of onrechtmatige verwerking” “beschermen tegen onopzettelijk verlies, vernietiging of beschadiging”
  3. Privacy Enhancing Technologies (PET’s) gaan over geautomatiseerd bevragen Van andere

    partners Met alleen minimale informatie-inhoud Zonder enige andere informatie te ‘lekken’ Proportionaliteit door minimalisatie Meestal wordt van privacy gesproken maar het gaat eigenlijk om databescherming Data op een veilige en privacy bestendige manier te kunnen delen is nodig om producten en diensten effectiever en efficienter te maken en om sneller nieuwe producten en diensten te kunnen ontwikkelen. PRIVACY ENHANCING TECHNOLOGIES KUNNEN
  4. Datageoriënteerde strategieën “HET BLAUWE BOEKJE” PRIVACY BY DESIGN Strategie Inhoud

    Minimaliseer Beperk zo veel mogelijk de verwerking van persoonsgegevens Scheid Scheid de verwerking van persoonsgegevens zo veel mogelijk van elkaar Abstraheer Beperk zoveel mogelijk het detail waarin persoonsgegevens worden verwerkt Verberg Bescherm persoonsgegevens, of maak ze onherleidbaar of onobserveerbaar. Voorkom dat persoonsgegevens openbaar worden
  5. Procesgeoriënteerde strategieën “HET BLAUWE BOEKJE” PRIVACY BY DESIGN Strategie Inhoud

    Informeer Informeer gebruikers over de verwerking van hun persoonsgegevens Geef controle Geef gebruikers controle over de verwerking van hun persoonsgegevens Dwing af Committeer je aan een privacy vriendelijke verwerking van persoonsgegevens, en dwing deze af Toon aan Toon aan dat je op een privacy vriendelijke wijze persoonsgegevens verwerkt
  6. Loskoppelen van datasets, verwijderen van id Vervangen van id door

    een niet- herleidbare id Nadeel: re-identificatie is vaak toch mogelijk Toepassingen: Voor kleinere datasets met lagere gevoeligheid soms een goede optie Gegevens combineren in groepen zodat individuen niet meer herleidbaar zijn “k-anonymity” Nadeel: niet altijd toepasbaar Toepassingen: Rapportages en statistieken (CBS) Variaties (‘ruis’) in antwoorden toevoegen zodat individuen niet meer herleidbaar zijn Nadeel: niet altijd toepasbaar, soms is de verstoring onwenselijk Toepassing: Statistische bevraging van databases Machine learning (PATE) 1] ANONIMISEREN, PSEUDONIMISEREN 2] AGGREGEREN 3] DIFFERENTIAL PRIVACY PRIVACY ENHANCING TECHNOLOGIES: KLASSIEKERE AANPAKKEN
  7. “Gezamenlijk analyseren zonder te delen” Meerdere partijen (klein aantal) Versleutelen

    en/of in stukjes ophakken: niemand “leert” iets Slechts resultaat wordt bekend Toepassingen: Van gedistribueerde data leren Meerdere partijen willen hun data aan elkaar koppelen “Data mag het pand niet verlaten” Meerdere partijen (groter aantal) Lokaal getraind AI model Uitwisseling van model parameters, geen data Toepassingen: Van gedistribueerde data leren Meerdere partijen willen hun data aan elkaar koppelen Dataset moet gedeeld worden maar dat mag niet Individuen niet van belang AI leert distributies en creëert nieuwe “fake” dataset Toepassing: Binnen bedrijf: ontwikkelen / testen nieuwe IT producten op realistische data, stagairs/analisten Buiten eigen bedrijf: samenwerking en analyses uitvoeren 1] MULTI PARTY COMPUTATION 2]FEDERATED LEARNING 3] SYNTHETIC DATA GENERATION PRIVACY ENHANCING TECHNOLOGIES: DE NIEUWERE ONTWIKKELINGEN
  8. Lootjes trekken Niemand mag zichzelf trekken Je mag niet weten

    wie wie trekt Er is geen vertrouwde derde EEN VEILIG PROTOCOL VOOR 5 DECEMBER VOORBEELD 1 Bron: nucia.eu, user ‘egeltje’, 14-11-09 1: Lootjes met namen in envelop met dezelfde naam 2: Keer de enveloppen om (naam naar beneden) en schud 3: Schuif de inhoud één envelop naar links 4: Doe de enveloppen dicht en geef aan de persoon met de naam op de voorkant
  9. HET GEMIDDELDE SALARIS IN EEN GROEP VOORBEELD 2 € 2500

    + € 3419 € 5919 + € 3250 + € 1800 + € 4320 € 9169 € 10969 € 15289 - € 3419 € 2967,50
  10. SOORTEN FUNCTIONALITEIT WAAR PAS JE DIT NU TOE? Pro-actieve dienst-

    verlening Selecteren van groepen door combinatie van kenmerken Modelleren door leggen van verbanden tussen datasets Identificatie van individuen Voorkómen van schulden Herkenning mogelijke fouten Opsporing van fraude- gevallen Steeds “spannender” Kenmerken van individuen Toegevoegde waarde voor de organisatie (wordt het goedkoper, sneller, nauwkeuriger, proportioneler, …) de klant / samenleving (wordt het sneller, nauwkeuriger, transparanter, …?)
  11. VOORBEELD UIT DE PRAKTIJK Circa 12000 voortvluchtige veroordeelden (tot 300

    dagen gevangenisstraf) Groot deel (70-90%) zit in buitenland Beperkte capaciteit, handmatig proces (vordering) per individu => prioriteit bij NL Bereken een ‘vindbaarheidsscore’ door combinatie álle gegevens van derde partijen OPSPOREN VAN ONVINDBARE CRIMINELEN Naam Identifier Jan Jansen 179483761 Anna Willemsen 823910314 Piet Bell 023587214 Johan Barends 350912465 A. Maria 812392506 … … Naam Identifier Aantal transacties in afgelopen maand P. Bell 023587214 21 T. Doe 731387519 16 J. Jansen 179483761 3 A.C. Clark 235862024 14 R. Ryan 235820985 29 … … … Justitie Bank
  12. COMBINEER INFORMATIE OPS Bank A Bank B Bank C Telco

    A Overheidsinstanties Telco B Telco C 2+1+1+4 = 8 “vindbaarheidsscore” VEILIGE BEREKENING VINDBAARHEIDSSCORE
  13. “Big data, maar dan secure” Virtual data lake WAT IS

    ER BESCHIKBAAR IN NEDERLAND? KUNNEN “Share insights, not data” Nadruk op regelen van governance “A digital twin of your original data” Volledig synthetische datasets genereren
  14. Virtual Data Lake: samenwerken op gevoelige data 20 Gebruiksklare MPC-software

    voor samenwerking op gevoelige data Voor elke data-scientist: werk in Python Cloud, On-premise of Hybrid deployment In gebruik bij o.m. Ministerie Justitie & Veiligheid NCSC (>100 partners)
  15. Virtual Data Lake: Praktisch inzetbaar door hoge rekensnelheid 21 Praktisch

    aan de slag met datasets van miljoenen records Ruim 1.000x sneller rekenen: • Multicore: bijna lineair schalen van multi party-berekeningen over meerdere CPUs • Zeer efficiënte MPC-protocollen: reken-complexiteit schaalt lineair met data volume Praktijkcasus uit de Gezondheidszorg: • 100.000 rijen • Join: 7s • Filter: 0.6s • Logistic regression training: 13m • Logistic regression inference: 70s
  16. Linksight 2021 TNO spin-off Enable customers to achieve maximum impact

    in their data collaborations, without revealing sensitive information First in NL to apply MPC to real patient data Combination of PET & governance
  17. 26 | Copyright © 2021 Syntho BV. All rights reserved

    AI-generated synthetic data: a digital twin of your original data Synthetic data platform Analysis results interchangeable QA report Original data Synthetic data
  18. 27 | Copyright © 2021 Syntho BV. All rights reserved

    As-good-as-real synthetic data Original Synthetic data platform Synthetic U n i v a r i a t e S t a t i s t i c s M u l t i v a r i a t e ( c o r ) r e l a t i o n s M L P e r f o r m a n c e
  19. 28 | Copyright © 2021 Syntho BV. All rights reserved

    Synthetic data approved by the data experts of SAS Models trained on synthetic data compared to models trained on original data show highly similar performance Models trained on data with applied ‘classic anonymization techniques’ show inferior performance compared to models trained on the original data or synthetic data Synthetic data generation is easy, fast and scalable because the technique works exactly the same per dataset and per data type Statistics Analytics models
  20. [email protected] MEER WETEN? Onderzoeker / ontwikkelaar:  PEN-NL Toepasser /

    bedrijfsleven:  Roseman, Linksight, Syntho  PET Practices (TNO) Toepasser / overheid:  NICPET (Nationaal Innovatie Centrum PET’s)