Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Arquiteturas e Data Science em Publicidade Digital

Arquiteturas e Data Science em Publicidade Digital

Fabiane Nardon
Chief Data Scientist @TailTarget

Big Data Week São Paulo

November 23, 2015
Tweet

More Decks by Big Data Week São Paulo

Other Decks in Technology

Transcript

  1. Arquiteturas e Data Science na Publicidade Digital Fabiane Bizinella Nardon

    @fabianenardon Chief Data Scien=st da TailTarget
  2. “The best minds of my genera3on are thinking about how

    to make people click ads. That sucks.” Jeff Hammerbacher
  3. Predição de Tráfego – Por que? Pode demorar de 10

    a 20 min para ter uma máquina no ar. Dá pra esperar tudo isso? Evite falsas quedas de tráfego
  4. Predição de Tráfego 700 800 900 1000 1100 1200 1300

    1400 1500 1600 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 Requests Requests
  5. Predição de Tráfego 700 800 900 1000 1100 1200 1300

    1400 1500 1600 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 Requests Requests Linear (Requests)
  6. Predição de Tráfego 700 800 900 1000 1100 1200 1300

    1400 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 Requests Requests Linear (Requests)
  7. Predição de Tráfego 700 800 900 1000 1100 1200 1300

    1400 1500 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59 61 Requests Predicted Traffic Linear (Requests)
  8. Detectando comportamentos 0 2000000 4000000 6000000 8000000 10000000 12000000 4-Jan

    11-Jan 18-Jan 25-Jan 1-Feb 8-Feb 15- Feb 22- Feb 1-Mar 8-Mar 15- Mar 22- Mar 29- Mar 5-Apr 12- Apr 19- Apr 26- Apr POLITICS SOCCER JOBS FINANCE Taxes
  9. FUTEBOL User Profile uid=123 : [FUTEBOL: 10 views, MASCULINO: 20

    views] uid=123 : [FUTEBOL, MASCULINO] Detectando comportamento
  10. APRENDIZADO SUPERVISIONADO 80% TREINO 20% TESTE Pages (3,000) Segment SOCCER

    (…) Country BRAZIL FASHION BRAZIL POLITICS FAMILY BRAZIL BRAZIL 1.  hdp://esportes.terra.com.br/futebol/internacional/mourinho- diz-que-rafa-benitez-destruiu-a-inter-de-milao- em-2010,3652d311ab33c95o07b01f6ee27168ew7uvRCRD.html 2.  http://esportes.terra.com.br/futebol/brasileiro-serie-a/ pato-que-voltar-a-selecao-e-lamenta-nao-enfrentar- corinthians,ac2efed99a4ed4ed83198389e01961f7sih9RCRD. html (…) (…)
  11. ENCONTRANDO O MODELO TREINO TESTE TREINO TESTE MODELO C 98%

    TREINO TESTE MODELO B 85% MODELO A 70%
  12. Distribuição da Amostra (Ex.: Redis) SHARDING 1 SHARDING 2 SHARDING

    3 ITEMS POR SHARDING = TAMANHO DA AMOSTRA / NÚMERO DE SHARDINGS RANDOMKEYs RANDOMKEYs RANDOMKEYs
  13. ITEMS POR SHARDING = TAMANHO DA AMOSTRA / NÚMERO DE

    SHARDINGS Distribuição da Amostra (Ex.: Redis) SHARDING 1 SHARDING 2 SHARDING 3 RANDOMKEYs RANDOMKEYs RANDOMKEYs Ta = Tamanho da Amostra Tt = Tamanho Total Na = Número de itens na amostra Nt = Número de itens no d Nt = Na * Tt / Ta Example: Ta = 1000 Tt = 100,000 Na = 400 Women Nt = 400 * 100,000 / 1000 = 40,000
  14. E quando você não sabe quantos itens você tem? Reservoir

    Sampling 1 2 3 4 5 A B C D E F Random (0..1): 0.7 K = Ss / i K = 5 / 6 = 0.83 Se K > Random => TROCA!
  15. Reservoir Sampling Distribuído 1 2 3 4 5 A B

    C D E F G H I J K L M N O P Q R S T U V X Y W Z
  16. Reservoir Sampling Distribuído 1 2 3 4 5 A B

    C D E F G H I J K L M N O P Q R S T U V X Y W Z
  17. Reservoir Sampling Distribuído 1 2 3 4 5 A:0.1 B:0.3

    C:0.2 D:0.7 E:0.9 F:0.11 G:0.4 H:0.6 I:0.76 J:0.8 K:0.2 L:0.54 M:0.4 N:0.21 O:0.33 P:0.56 Q:0.32 R:0.23 S:0.21 T:0.32 U:0.22 V:0.7 X:0.12 Y: 0.23 W:0.3 Z:0.76 private SortedMap<Double, MyObject> reservoir; ... if (reservoir.size() < SAMPLE_SIZE) { reservoir.put(score, myObject); } else if (score > reservoir.firstKey()) { reservoir.remove(reservoir.firstKey()); reservoir.put(score, myObject); }
  18. Reservoir Sampling Distribuído O L P I Z 1 2

    3 4 5 A:0.1 B:0.3 C:0.2 D:0.7 E:0.9 F:0.11 G:0.4 H:0.6 I:0.76 J:0.8 K:0.2 L:0.54 M:0.4 N:0.21 O:0.33 P:0.56 Q:0.32 R:0.23 S:0.21 T:0.32 U:0.22 V:0.7 X:0.12 Y: 0.23 W:0.3 Z:0.76 H:0.6 D:0.7 E:0.9 F:0.11 I:0.76 R:0.23 Q:0.32 O:0.33 L:0.54 P:0.56 S:0.21 U:0.22 Y:0.23 T:0.32 Z:0.76 COMBINER
  19. Arquiteturas e Data Science na Publicidade Digital Fabiane Bizinella Nardon

    @fabianenardon Chief Data Scien=st na TailTarget