Victor van den Broek
Tiamur Khan
Op zoek naar feiten met behulp van
data science
Big Data Expo
15 september 2022
Slide 2
Slide 2 text
Introductie sprekers
Op zoek naar feiten met behulp van data science
2
Victor van den Broek
Product owner a.i.
DE > DS > PO
NS sinds 2009
[email protected]
Tiamur Khan
Data Scientist
Prorail > NS
NS sinds 2021
[email protected]
Slide 3
Slide 3 text
De Nederlandse Spoorwegen
Slide 4
Slide 4 text
Meer dan 250 stations
Meer dan 4000 treinen
Slide 5
Slide 5 text
Wat is FLUX?
■ In kaart brengen van de gerealiseerde reizigersstromen
■ “Hoe druk was het in de trein, of op het station?”
■ Tussenproduct voor andere informatieproducten
Op zoek naar feiten met behulp van data science
5
Slide 6
Slide 6 text
Waarom FLUX?
Op zoek naar feiten met behulp van data science
6
Slide 7
Slide 7 text
Waarom FLUX?
Op zoek naar feiten met behulp van data science
7
Slide 8
Slide 8 text
Waarom FLUX?
Op zoek naar feiten met behulp van data science
8
Slide 9
Slide 9 text
Interne afnemers
Op zoek naar feiten met behulp van data science
9
Slide 10
Slide 10 text
Inventarisatie van alle eisen en wensen
Op zoek naar feiten met behulp van data science
10
Slide 11
Slide 11 text
Afbakening in Google Design Sprint
Op zoek naar feiten met behulp van data science
11
Slide 12
Slide 12 text
Wat is FLUX (en wat niet)
WEL:
■ Realisatiecijfers
■ Een rit is een losstaand feit
■ Op basis van transacties
■ Achteraf
■ Tussenproduct
NIET
■ Prognoses
■ Individuen
■ Telwerk als input model
■ Realtime
■ Eindproduct
Op zoek naar feiten met behulp van data science
12
Slide 13
Slide 13 text
Privacy
Op zoek naar feiten met behulp van data science
13
Slide 14
Slide 14 text
De ‘happy flow’ rit met NS
Op zoek naar feiten met behulp van data science
14
Slide 15
Slide 15 text
Een rit bij NS
Op zoek naar feiten met behulp van data science
15
Slide 16
Slide 16 text
No content
Slide 17
Slide 17 text
Een rit bij NS
Op zoek naar feiten met behulp van data science
17
Slide 18
Slide 18 text
Een rit bij NS
Op zoek naar feiten met behulp van data science
18
Slide 19
Slide 19 text
Een rit bij NS
Op zoek naar feiten met behulp van data science
19
Slide 20
Slide 20 text
FLUX – data science uitdagingen
Op zoek naar feiten met behulp van data science
20
Slide 21
Slide 21 text
Hoe druk zijn onze treinen?
■ De individuele reiziger
• Hebben wij de check-in en de check-uit gegevens van de reiziger?
• Welke reismogelijkheden had de reiziger?
• Welke reismogelijkheid had de reiziger gekozen?
■ Reizigersaantallen
• Hoe gaan we van individuele reizigers naar reizigersaantallen in de
trein?
Op zoek naar feiten met behulp van data science
21
Slide 22
Slide 22 text
Genereren van reismogelijkheden
Op zoek naar feiten met behulp van data science
22
Slide 23
Slide 23 text
Toedelingsmodel
■ Het toedelingsmodel kent scores toe aan
reismogelijkheden
■ Reisgedrag van onze reizigers
■ Aanpak
• Genereer features
• Bepaal de target
• Train een machine learning model
Op zoek naar feiten met behulp van data science
23
0.2
0.3
0.9
0.6
Slide 24
Slide 24 text
Wat maakt een reismogelijkheid wenselijk?
■ Reistijd
■ Aantal overstappen
■ Intercity?
■ Haal ik mijn trein?
■ Haal ik mijn overstap?
■ …
Op zoek naar feiten met behulp van data science
24
Slide 25
Slide 25 text
Reiskarakteristieken (features)
Op zoek naar feiten met behulp van data science
25
reistijd (min) aantal overstappen instroomtijd (min) intercity?
35 0 -5 1
35 1 -2 1
40 0 1 0
36 0 10 1
Slide 26
Slide 26 text
Welke reismogelijkheid was gekozen?
■ Conducteurcontroles (target)
Op zoek naar feiten met behulp van data science
26
reistijd
(min)
aantal overstappen instroomtijd
(min)
intercity? gescand?
35 0 -5 1 0
35 1 -2 1 0
40 0 1 0 1
36 0 10 1 0
Slide 27
Slide 27 text
Biases in conducteurcontroles
■ Sommige trajecten worden
vaker gecontroleerd dan
andere
■ Er is een maximum voor het
aantal mensen dat gescand
kan worden per traject
■ …
Op zoek naar feiten met behulp van data science
27
Slide 28
Slide 28 text
Controleratio
■ Hoe vaak wordt een traject
gecontroleerd?
Op zoek naar feiten met behulp van data science
28
Slide 29
Slide 29 text
Scanratio
■ Welk ratio van onze reizigers wordt gescand bij een controle?
Op zoek naar feiten met behulp van data science
29
Slide 30
Slide 30 text
Verdeling van
scans en reizigers
Op zoek naar feiten met behulp van data science
30
Gewichten meegeven
Op zoek naar feiten met behulp van data science
32
reistijd
(min)
aantal
overstappen
instroomtijd
(min)
intercity? gescand? gewicht
35 0 -5 1 0 5
35 1 -2 1 0 5
40 0 1 0 1 5
36 0 10 1 0 5
Slide 33
Slide 33 text
Trainen
■ Met features, targets en
gewichten kunnen we een
machine learning model
trainen
Op zoek naar feiten met behulp van data science
33
Slide 34
Slide 34 text
Inferentie
Op zoek naar feiten met behulp van data science
34
reistijd
(min)
aantal
overstappen
instroomtijd
(min)
intercity? score kans
35 0 -5 1 0.2 0.1
35 1 -2 1 0.3 0.15
40 0 1 0 0.9 0.45
36 0 10 1 0.6 0.3
Slide 35
Slide 35 text
Van individuele reizigers tot reizigersaantallen
■ De individuele reiziger
• Voor elke reismogelijkheid
- Bereken de kans p aan de hand van het toedelingsmodel
- Deel de reiziger toe met aandeel p aan de reeks van treinen in de reismogelijkheid
■ Reizigersaantallen
• Herhaal bovenstaande stappen voor alle reizigers
• Sommeer de (fractionele) reizigers per trein om tot reizigersaantallen te
komen
Op zoek naar feiten met behulp van data science
35
Slide 36
Slide 36 text
Op zoek naar de feiten
■ “Hoe druk zijn onze treinen?”
■ Uit check-in en check-uit gegevens genereren we reismogelijkheden
■ We berekenen de kans voor elke reismogelijkheid aan de hand van
een machine learning model
• Conducteurcontroles
- Bias compensatie
■ We sommeren de (fractionele) reizigers per trein om tot
reizigersaantallen te komen
Op zoek naar feiten met behulp van data science
36
Slide 37
Slide 37 text
De realiteit is weerbarstig…
Op zoek naar feiten met behulp van data science
37
Slide 38
Slide 38 text
No content
Slide 39
Slide 39 text
No content
Slide 40
Slide 40 text
40
Slide 41
Slide 41 text
Op zoek naar feiten met behulp van data science
41
Slide 42
Slide 42 text
Vragen?
Op zoek naar feiten met behulp van data science
42