Slide 1

Slide 1 text

Victor van den Broek Tiamur Khan Op zoek naar feiten met behulp van data science Big Data Expo 15 september 2022

Slide 2

Slide 2 text

Introductie sprekers Op zoek naar feiten met behulp van data science 2 Victor van den Broek Product owner a.i. DE > DS > PO NS sinds 2009 [email protected] Tiamur Khan Data Scientist Prorail > NS NS sinds 2021 [email protected]

Slide 3

Slide 3 text

De Nederlandse Spoorwegen

Slide 4

Slide 4 text

Meer dan 250 stations Meer dan 4000 treinen

Slide 5

Slide 5 text

Wat is FLUX? ■ In kaart brengen van de gerealiseerde reizigersstromen ■ “Hoe druk was het in de trein, of op het station?” ■ Tussenproduct voor andere informatieproducten Op zoek naar feiten met behulp van data science 5

Slide 6

Slide 6 text

Waarom FLUX? Op zoek naar feiten met behulp van data science 6

Slide 7

Slide 7 text

Waarom FLUX? Op zoek naar feiten met behulp van data science 7

Slide 8

Slide 8 text

Waarom FLUX? Op zoek naar feiten met behulp van data science 8

Slide 9

Slide 9 text

Interne afnemers Op zoek naar feiten met behulp van data science 9

Slide 10

Slide 10 text

Inventarisatie van alle eisen en wensen Op zoek naar feiten met behulp van data science 10

Slide 11

Slide 11 text

Afbakening in Google Design Sprint Op zoek naar feiten met behulp van data science 11

Slide 12

Slide 12 text

Wat is FLUX (en wat niet) WEL: ■ Realisatiecijfers ■ Een rit is een losstaand feit ■ Op basis van transacties ■ Achteraf ■ Tussenproduct NIET ■ Prognoses ■ Individuen ■ Telwerk als input model ■ Realtime ■ Eindproduct Op zoek naar feiten met behulp van data science 12

Slide 13

Slide 13 text

Privacy Op zoek naar feiten met behulp van data science 13

Slide 14

Slide 14 text

De ‘happy flow’ rit met NS Op zoek naar feiten met behulp van data science 14

Slide 15

Slide 15 text

Een rit bij NS Op zoek naar feiten met behulp van data science 15

Slide 16

Slide 16 text

No content

Slide 17

Slide 17 text

Een rit bij NS Op zoek naar feiten met behulp van data science 17

Slide 18

Slide 18 text

Een rit bij NS Op zoek naar feiten met behulp van data science 18

Slide 19

Slide 19 text

Een rit bij NS Op zoek naar feiten met behulp van data science 19

Slide 20

Slide 20 text

FLUX – data science uitdagingen Op zoek naar feiten met behulp van data science 20

Slide 21

Slide 21 text

Hoe druk zijn onze treinen? ■ De individuele reiziger • Hebben wij de check-in en de check-uit gegevens van de reiziger? • Welke reismogelijkheden had de reiziger? • Welke reismogelijkheid had de reiziger gekozen? ■ Reizigersaantallen • Hoe gaan we van individuele reizigers naar reizigersaantallen in de trein? Op zoek naar feiten met behulp van data science 21

Slide 22

Slide 22 text

Genereren van reismogelijkheden Op zoek naar feiten met behulp van data science 22

Slide 23

Slide 23 text

Toedelingsmodel ■ Het toedelingsmodel kent scores toe aan reismogelijkheden ■ Reisgedrag van onze reizigers ■ Aanpak • Genereer features • Bepaal de target • Train een machine learning model Op zoek naar feiten met behulp van data science 23 0.2 0.3 0.9 0.6

Slide 24

Slide 24 text

Wat maakt een reismogelijkheid wenselijk? ■ Reistijd ■ Aantal overstappen ■ Intercity? ■ Haal ik mijn trein? ■ Haal ik mijn overstap? ■ … Op zoek naar feiten met behulp van data science 24

Slide 25

Slide 25 text

Reiskarakteristieken (features) Op zoek naar feiten met behulp van data science 25 reistijd (min) aantal overstappen instroomtijd (min) intercity? 35 0 -5 1 35 1 -2 1 40 0 1 0 36 0 10 1

Slide 26

Slide 26 text

Welke reismogelijkheid was gekozen? ■ Conducteurcontroles (target) Op zoek naar feiten met behulp van data science 26 reistijd (min) aantal overstappen instroomtijd (min) intercity? gescand? 35 0 -5 1 0 35 1 -2 1 0 40 0 1 0 1 36 0 10 1 0

Slide 27

Slide 27 text

Biases in conducteurcontroles ■ Sommige trajecten worden vaker gecontroleerd dan andere ■ Er is een maximum voor het aantal mensen dat gescand kan worden per traject ■ … Op zoek naar feiten met behulp van data science 27

Slide 28

Slide 28 text

Controleratio ■ Hoe vaak wordt een traject gecontroleerd? Op zoek naar feiten met behulp van data science 28

Slide 29

Slide 29 text

Scanratio ■ Welk ratio van onze reizigers wordt gescand bij een controle? Op zoek naar feiten met behulp van data science 29

Slide 30

Slide 30 text

Verdeling van scans en reizigers Op zoek naar feiten met behulp van data science 30

Slide 31

Slide 31 text

Bias compensatie ■ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 ∙ 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜 ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ■ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 = 1 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜 ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ∙ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 ■ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡 = 1 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜 ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ■ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 = 𝑔𝑒𝑤𝑖𝑐ℎ𝑡 ∙ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 ■ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡𝑖𝑛𝑡𝑒𝑟𝑐𝑖𝑡𝑦 = 1 1 ∙ 0.8 = 1.25 ■ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡𝑠𝑝𝑟𝑖𝑛𝑡𝑒𝑟 = 1 0.5 ∙ 0.4 = 5 Op zoek naar feiten met behulp van data science 31

Slide 32

Slide 32 text

Gewichten meegeven Op zoek naar feiten met behulp van data science 32 reistijd (min) aantal overstappen instroomtijd (min) intercity? gescand? gewicht 35 0 -5 1 0 5 35 1 -2 1 0 5 40 0 1 0 1 5 36 0 10 1 0 5

Slide 33

Slide 33 text

Trainen ■ Met features, targets en gewichten kunnen we een machine learning model trainen Op zoek naar feiten met behulp van data science 33

Slide 34

Slide 34 text

Inferentie Op zoek naar feiten met behulp van data science 34 reistijd (min) aantal overstappen instroomtijd (min) intercity? score kans 35 0 -5 1 0.2 0.1 35 1 -2 1 0.3 0.15 40 0 1 0 0.9 0.45 36 0 10 1 0.6 0.3

Slide 35

Slide 35 text

Van individuele reizigers tot reizigersaantallen ■ De individuele reiziger • Voor elke reismogelijkheid - Bereken de kans p aan de hand van het toedelingsmodel - Deel de reiziger toe met aandeel p aan de reeks van treinen in de reismogelijkheid ■ Reizigersaantallen • Herhaal bovenstaande stappen voor alle reizigers • Sommeer de (fractionele) reizigers per trein om tot reizigersaantallen te komen Op zoek naar feiten met behulp van data science 35

Slide 36

Slide 36 text

Op zoek naar de feiten ■ “Hoe druk zijn onze treinen?” ■ Uit check-in en check-uit gegevens genereren we reismogelijkheden ■ We berekenen de kans voor elke reismogelijkheid aan de hand van een machine learning model • Conducteurcontroles - Bias compensatie ■ We sommeren de (fractionele) reizigers per trein om tot reizigersaantallen te komen Op zoek naar feiten met behulp van data science 36

Slide 37

Slide 37 text

De realiteit is weerbarstig… Op zoek naar feiten met behulp van data science 37

Slide 38

Slide 38 text

No content

Slide 39

Slide 39 text

No content

Slide 40

Slide 40 text

40

Slide 41

Slide 41 text

Op zoek naar feiten met behulp van data science 41

Slide 42

Slide 42 text

Vragen? Op zoek naar feiten met behulp van data science 42