Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Les métiers de la Data - La Tech pour les Nuls!

Julia Wabant
November 30, 2019

Les métiers de la Data - La Tech pour les Nuls!

Speaker at La Tech pour les Nuls! meetup at Accor, November 2019.

Objective : explain to non-technical people the difference between Business Analyst, Data Analyst, Data Scientist and Data Engineer roles, then focus on what are the main recurring tasks for a Data Analyst.

Answered the following questions :
-What is the purpose of data collection ?
-What are the stages of a data project ?
-What is the difference in the way of processing the data depending on whether we are a BI Analyst, Data Analyst or Data Science ?
-Are we working with Excel ?
-What do we mean by "Big Data" ?
-Do we need Big Data tools for the majority of the challenges faced by companies ?

Julia Wabant

November 30, 2019
Tweet

More Decks by Julia Wabant

Other Decks in Business

Transcript

  1. • Conjecture de Moore : la puissance de calcul des

    machines a explosé au cours des 50 dernières années • Big Data : le volume de données stockées sous forme numériques dépasse capacités d’analyse de l’humain → Convergence de facteurs favorables à une forte croissance du Deep learning depuis le début des années 2010
  2. Business Intelligence Big Data Données structurées → SQL Parallélisation Données

    non structurées → NoSQL Calcul distribué Temps réel
  3. Big Data Volume Variété Vélocité + Véracité, Visibilité, Variablité… Attention

    au besoin → Tout projet Data n’implique pas des techniques ni de gestion ni de traitement du Big Data
  4. Data Analyst – Data Scientist – Machine Learning Engineer –

    Data Architect → Les fonctions peuvent se confondre
  5. Data Analyst Business Analyst →Tous deux « problems solver »

    →Perspective plus business et compétences moins techniques chez le Business Analyst
  6. Des compétences : • Analyse de données • Statistiques descriptives

    • Statistiques inférentielles • Modélisations simples Maîtrise d’au moins un langage de programmation orienté données et de logiciels BI
  7. Du code ? → Exécution dans un notebook ou un

    IDE → Le notebook favorise le partage mais pas à éviter pour la production
  8. Un vocabulaire : • Individus • Population • Échantillon •

    Jeu de données (dataset) • Variables (features)
  9. Nettoyage de données →Ne précède pas toujours l’analyse, processus itératif

    Correction : • erreurs de saisie • erreurs de formatage • doublons • valeurs manquantes • valeurs atypiques/aberrantes (outliers)
  10. Valeurs aberrantes : Exemples : -une valeur supérieur à 100

    grammes affectée à une variable énergie pour 100g de produit -une valeur supérieure à 80°C pour une variable température d’alcool (évaporation au-delà)
  11. Doublons : Exemple : -deux individus ayant la même valeur

    pour un identifiant dont la valeur attendue est unique
  12. Erreurs de formatage : -une valeur pour une variable de

    type date au format Jour-Mois-Année pour une valeur attendue Année-Mois-Jour - une valeur pour une variable de type datetime sans le timestamp
  13. Erreurs de saisies : Exemples : -fautes de frappe à

    la saisie d’une valeur -évolution des noms entre deux sources de données espacées dans le temps (séparation de la Serbie et du Monténégro)
  14. Tests statistiques • De conformité à un standard • D’estimation

    des paramètres • D’adéquation à une loi • De symétrie des répartitions …
  15. Visualisation de données • Graphiques • Dashboards → Les besoin

    d’interactivité et de personnalisation impliquent de la programmation web