Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Synthetic Data 101

Synthetic Data 101

Video: https://video.linux.it/w/6HoHhhyrnfqYnzZiM9sRx5?start=42m54s

Per sfruttare appieno il potenziale dell'intelligenza artificiale, è necessario disporre di una vasta quantità di dati. Tuttavia, ottenere e utilizzare tali dati non è un compito semplice. Esaminiamo insieme come è possibile generare dati tramite gli algoritmi di intelligenza artificiale utilizzando dati reali, ricreando situazioni di vita reale in modo matematico e statistico.

L'avvio di progetti di intelligenza artificiale può essere difficile per diverse ragioni, tra cui l'organizzazione, le aspettative e i costi. Tuttavia, uno dei principali ostacoli è rappresentato dai dati stessi. Ottenere i dati richiesti può essere complesso e costoso, e spesso le informazioni contenute sono sensibili, rendendole inaccessibili a causa delle norme sulla privacy. In questo contesto, i Dati Sintetici possono svolgere un ruolo importante, consentendoci di ottenere dati simili a quelli reali, ma senza problemi di privacy e con costi più contenuti.

Luca Gilli — Direttore tecnico di Clearbox AI Solutions


Python Torino

October 18, 2023
Tweet

More Decks by Python Torino

Other Decks in Programming

Transcript

  1. 2 • Co-founded Clearbox AI, a synthetic data startup hosted

    by the university incubator of Politecnico di Torino • I have a background in applied mathematics and scientific software development • Lived in the Netherlands for 10 years before moving to Val di Susa About myself
  2. Gartner estimates that by 2030, synthetic data will completely overshadow

    real data in AI models. Gartner, Is Synthetic Data the Future of AI?, 2022 3
  3. 4 Synthetic data Definition A synthetic dataset is obtained by

    generating fictitious data that incorporates the statistical properties and distributions of an original dataset, thus resulting realistic.
  4. 5 Why the hype: Access and Quality Data Privacy •

    Privacy issues related to data sharing (GDPR/CCPA) New Anonymization paradigm 01 02 Data Augmentation • Class imbalance and ML models generalization issues It improves models’ performances
  5. 6 Why the hype: Access and Quality Data Privacy •

    Privacy issues related to data sharing (GDPR/CCPA) New Anonymization paradigm 01 02 Data Augmentation • Class imbalance and ML models generalization issues It improves models’ performances
  6. 7 Why the hype: Access and Quality Data Privacy •

    Privacy issues related to data sharing (GDPR/CCPA) New Anonymization paradigm 01 https://edps.europa.eu/press-publications/publications/techsonar/synth etic-data_en
  7. El Emam, K., “Practical Synthetic Data Generation”, O’Reilly Synthetic Data

    Generation 18 Measuring the information contained within the synthetic data. Measuring the ‘novelty’ of the synthetic dataset.
  8. In conclusion Synthetic data generators are a modern and powerful

    Privacy Enhancing Technology. Trust in synthetic data → generating synthetic data goes beyond using generative models but requires extensive privacy and quality tests. 19