Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Op zoek naar feiten met behulp van data scienc

Marketing OGZ
September 20, 2022
110

Op zoek naar feiten met behulp van data scienc

Marketing OGZ

September 20, 2022
Tweet

Transcript

  1. Victor van den Broek Tiamur Khan Op zoek naar feiten

    met behulp van data science Big Data Expo 15 september 2022
  2. Introductie sprekers Op zoek naar feiten met behulp van data

    science 2 Victor van den Broek Product owner a.i. DE > DS > PO NS sinds 2009 [email protected] Tiamur Khan Data Scientist Prorail > NS NS sinds 2021 [email protected]
  3. Wat is FLUX? ▪ In kaart brengen van de gerealiseerde

    reizigersstromen ▪ “Hoe druk was het in de trein, of op het station?” ▪ Tussenproduct voor andere informatieproducten Op zoek naar feiten met behulp van data science 5
  4. Wat is FLUX (en wat niet) WEL: ▪ Realisatiecijfers ▪

    Een rit is een losstaand feit ▪ Op basis van transacties ▪ Achteraf ▪ Tussenproduct NIET ▪ Prognoses ▪ Individuen ▪ Telwerk als input model ▪ Realtime ▪ Eindproduct Op zoek naar feiten met behulp van data science 12
  5. Hoe druk zijn onze treinen? ▪ De individuele reiziger •

    Hebben wij de check-in en de check-uit gegevens van de reiziger? • Welke reismogelijkheden had de reiziger? • Welke reismogelijkheid had de reiziger gekozen? ▪ Reizigersaantallen • Hoe gaan we van individuele reizigers naar reizigersaantallen in de trein? Op zoek naar feiten met behulp van data science 21
  6. Toedelingsmodel ▪ Het toedelingsmodel kent scores toe aan reismogelijkheden ▪

    Reisgedrag van onze reizigers ▪ Aanpak • Genereer features • Bepaal de target • Train een machine learning model Op zoek naar feiten met behulp van data science 23 0.2 0.3 0.9 0.6
  7. Wat maakt een reismogelijkheid wenselijk? ▪ Reistijd ▪ Aantal overstappen

    ▪ Intercity? ▪ Haal ik mijn trein? ▪ Haal ik mijn overstap? ▪ … Op zoek naar feiten met behulp van data science 24
  8. Reiskarakteristieken (features) Op zoek naar feiten met behulp van data

    science 25 reistijd (min) aantal overstappen instroomtijd (min) intercity? 35 0 -5 1 35 1 -2 1 40 0 1 0 36 0 10 1
  9. Welke reismogelijkheid was gekozen? ▪ Conducteurcontroles (target) Op zoek naar

    feiten met behulp van data science 26 reistijd (min) aantal overstappen instroomtijd (min) intercity? gescand? 35 0 -5 1 0 35 1 -2 1 0 40 0 1 0 1 36 0 10 1 0
  10. Biases in conducteurcontroles ▪ Sommige trajecten worden vaker gecontroleerd dan

    andere ▪ Er is een maximum voor het aantal mensen dat gescand kan worden per traject ▪ … Op zoek naar feiten met behulp van data science 27
  11. Controleratio ▪ Hoe vaak wordt een traject gecontroleerd? Op zoek

    naar feiten met behulp van data science 28
  12. Scanratio ▪ Welk ratio van onze reizigers wordt gescand bij

    een controle? Op zoek naar feiten met behulp van data science 29
  13. Bias compensatie ▪ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 = 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 ∙ 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜

    ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ▪ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 = 1 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜 ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ∙ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 ▪ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡 = 1 𝑐𝑜𝑛𝑡𝑟𝑜𝑙𝑒𝑟𝑎𝑡𝑖𝑜 ∙ 𝑠𝑐𝑎𝑛𝑟𝑎𝑡𝑖𝑜 ▪ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑟𝑒𝑖𝑧𝑖𝑔𝑒𝑟𝑠 = 𝑔𝑒𝑤𝑖𝑐ℎ𝑡 ∙ 𝑎𝑎𝑛𝑡𝑎𝑙 𝑠𝑐𝑎𝑛𝑠 ▪ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡𝑖𝑛𝑡𝑒𝑟𝑐𝑖𝑡𝑦 = 1 1 ∙ 0.8 = 1.25 ▪ 𝑔𝑒𝑤𝑖𝑐ℎ𝑡𝑠𝑝𝑟𝑖𝑛𝑡𝑒𝑟 = 1 0.5 ∙ 0.4 = 5 Op zoek naar feiten met behulp van data science 31
  14. Gewichten meegeven Op zoek naar feiten met behulp van data

    science 32 reistijd (min) aantal overstappen instroomtijd (min) intercity? gescand? gewicht 35 0 -5 1 0 5 35 1 -2 1 0 5 40 0 1 0 1 5 36 0 10 1 0 5
  15. Trainen ▪ Met features, targets en gewichten kunnen we een

    machine learning model trainen Op zoek naar feiten met behulp van data science 33
  16. Inferentie Op zoek naar feiten met behulp van data science

    34 reistijd (min) aantal overstappen instroomtijd (min) intercity? score kans 35 0 -5 1 0.2 0.1 35 1 -2 1 0.3 0.15 40 0 1 0 0.9 0.45 36 0 10 1 0.6 0.3
  17. Van individuele reizigers tot reizigersaantallen ▪ De individuele reiziger •

    Voor elke reismogelijkheid - Bereken de kans p aan de hand van het toedelingsmodel - Deel de reiziger toe met aandeel p aan de reeks van treinen in de reismogelijkheid ▪ Reizigersaantallen • Herhaal bovenstaande stappen voor alle reizigers • Sommeer de (fractionele) reizigers per trein om tot reizigersaantallen te komen Op zoek naar feiten met behulp van data science 35
  18. Op zoek naar de feiten ▪ “Hoe druk zijn onze

    treinen?” ▪ Uit check-in en check-uit gegevens genereren we reismogelijkheden ▪ We berekenen de kans voor elke reismogelijkheid aan de hand van een machine learning model • Conducteurcontroles - Bias compensatie ▪ We sommeren de (fractionele) reizigers per trein om tot reizigersaantallen te komen Op zoek naar feiten met behulp van data science 36
  19. 40