Slide 1

Slide 1 text

Dataviz et éthique Colin FAY - ThinkR 2017/09/20 Colin FAY - @_colinfay - ThinkR- @thinkR_fr 1 / 34

Slide 2

Slide 2 text

$ whoami Colin FAY Data Analyst, formateur R, Social Media Manager chez ThinkR, agence spécialisée en Data Science et en langage R. Fondateur de Data-Bzh, la première plateforme de data-blogging bretonne. http://thinkr.fr http://data-bzh.fr http://twitter.com/_colinfay http://github.com/colinfay Colin FAY - @_colinfay - ThinkR- @thinkR_fr 2 / 34

Slide 3

Slide 3 text

ThinkR Colin FAY - @_colinfay - ThinkR- @thinkR_fr 3 / 34

Slide 4

Slide 4 text

Société spécialisée en Data Science et langage R. Formation Analyse Développement Consultance ThinkR Colin FAY - @_colinfay - ThinkR- @thinkR_fr 4 / 34

Slide 5

Slide 5 text

Data-Bzh Colin FAY - @_colinfay - ThinkR- @thinkR_fr 5 / 34

Slide 6

Slide 6 text

Première plateforme de data-blogging en Bretagne. Dataviz Analyse Conférences Tutoriels Data-Bzh Colin FAY - @_colinfay - ThinkR- @thinkR_fr 6 / 34

Slide 7

Slide 7 text

De quoi va-t-on parler aujourd'hui ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 7 / 34

Slide 8

Slide 8 text

Éthique et Dataviz La question à mille dollars : Pourquoi c'est important de se poser la question de l'éthique en dataviz ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 8 / 34

Slide 9

Slide 9 text

Éthique et Dataviz La question à mille dollars : Pourquoi c'est important de se poser la question de l'éthique en dataviz ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 9 / 34

Slide 10

Slide 10 text

"L'éthique c'est l'esthétique du dedans." Pierre Reverdy Trop souvent, créer une dataviz se résume à se concentrer sur l'esthétique du dehors, au détriment de l'esthétique du dedans. Quand peut-on dire qu'une dataviz est "belle du dedans" ? Créer une dataviz, c'est respecter à la fois les données et son audience. C'est quoi l'éthique ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 10 / 34

Slide 11

Slide 11 text

1954 1991 Ten thousand ways to lie... Colin FAY - @_colinfay - ThinkR- @thinkR_fr 11 / 34

Slide 12

Slide 12 text

[Alerte Pratique douteuse] Cherry picking : ne choisir que les résultats favorables. Si nous savons par exemple qu'un traitement est inefficace, nous pouvons réaliser 40 tests, et nous avons au moins deux chances de trouver des résultats significatifs. Il suffit ensuite de ne publier que les données significatives. ... beyond dataviz : cherry picking Colin FAY - @_colinfay - ThinkR- @thinkR_fr 12 / 34

Slide 13

Slide 13 text

[Alerte Pratique douteuse] Biased sample : réaliser un test statistiques sur un échantillon non représentatif. Si nous voulons montrer que les français sont petits, nous pourrions réaliser un échantillonage à la sortie d'une école primaire. Ou l'inverse, en nous concentrant sur les joueurs de basket. ... beyond dataviz : Biased samples Colin FAY - @_colinfay - ThinkR- @thinkR_fr 13 / 34

Slide 14

Slide 14 text

[Alerte Pratique douteuse] p hacking : En testant suffisamment, on trouve toujours une valeur significative. Quand un test n'est pas significatif et qu'on a pas beaucoup d'éthique, on peut faire du p hacking, c'est-à-dire torturer les données pour avoir un p significatif, en retirant certaines données / créant des sous groupes / changeant de test... ... beyond dataviz : p hacking If you torture the data long enough, they will confess. Colin FAY - @_colinfay - ThinkR- @thinkR_fr 14 / 34

Slide 15

Slide 15 text

p-hacking Colin FAY - @_colinfay - ThinkR- @thinkR_fr 15 / 34

Slide 16

Slide 16 text

... beyond dataviz : false causality "Cum hoc ergo propter hoc" - Correlation does not imply causation. Ce n'est pas parce que deux éléments sont corrélés qu'il existe une relation de cause à effet. Colin FAY - @_colinfay - ThinkR- @thinkR_fr 16 / 34

Slide 17

Slide 17 text

... beyond dataviz : false causality "Cum hoc ergo propter hoc" - Correlation does not imply causation. via : http://www.tylervigen.com/spurious-correlations Colin FAY - @_colinfay - ThinkR- @thinkR_fr 17 / 34

Slide 18

Slide 18 text

... beyond dataviz : false causality "Cum hoc ergo propter hoc" - Correlation does not imply causation. via : http://www.tylervigen.com/spurious-correlations Colin FAY - @_colinfay - ThinkR- @thinkR_fr 18 / 34

Slide 19

Slide 19 text

Savoir reconnaitre un "faux". Questionner ses propres pratiques. Ne pas succomber à la tentation. Sensibiliser. One of the best ways to learn how to detect bias in data visualization is to intentionally manipulate a chart, and tell two (or more) opposing stories with the same data. How to Lie with Charts - Jack Dougherty Pourquoi s'intéresser à l'éthique en dataviz ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 19 / 34

Slide 20

Slide 20 text

How to lie with dataviz Petit guide pratique Colin FAY - @_colinfay - ThinkR- @thinkR_fr 20 / 34

Slide 21

Slide 21 text

How to lie with dataviz Jouer avec l'échelle Colin FAY - @_colinfay - ThinkR- @thinkR_fr 21 / 34

Slide 22

Slide 22 text

How to lie with dataviz Renverser l'axe Colin FAY - @_colinfay - ThinkR- @thinkR_fr 22 / 34

Slide 23

Slide 23 text

How to lie with dataviz Créer des colonnes cumulatives Colin FAY - @_colinfay - ThinkR- @thinkR_fr 23 / 34

Slide 24

Slide 24 text

How to lie with dataviz Jouer avec les couleurs Colin FAY - @_colinfay - ThinkR- @thinkR_fr 24 / 34

Slide 25

Slide 25 text

How to lie with dataviz Jouer avec les couleurs Colin FAY - @_colinfay - ThinkR- @thinkR_fr 25 / 34

Slide 26

Slide 26 text

Non mais dans la vraie vie, ça n'existe pas... Colin FAY - @_colinfay - ThinkR- @thinkR_fr 26 / 34

Slide 27

Slide 27 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 27 / 34

Slide 28

Slide 28 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 28 / 34

Slide 29

Slide 29 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 29 / 34

Slide 30

Slide 30 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 30 / 34

Slide 31

Slide 31 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 31 / 34

Slide 32

Slide 32 text

Dans la vraie vie Colin FAY - @_colinfay - ThinkR- @thinkR_fr 32 / 34

Slide 33

Slide 33 text

Et maintenant, on fait quoi ? On y réfléchit. On en parle. On pense à Colin à chaque fois qu'on fait une dataviz. On utilise des logiciels de statistiques pour faire des dataviz. Colin FAY - @_colinfay - ThinkR- @thinkR_fr 33 / 34

Slide 34

Slide 34 text

Retrouvez-moi sur les internets : (je parle principalement de données) [email protected] http://twitter.com/_colinfay http://twitter.com/thinkr_fr https://github.com/ColinFay J'écris des trucs sur les internets : (et ça parle principalement de données) https://thinkr.fr/ http://colinfay.me/ http://data-bzh.fr/ Merci ! des questions ? Colin FAY - @_colinfay - ThinkR- @thinkR_fr 34 / 34