Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data mining in RTB

Avatar for Pavel Pavel
April 07, 2014

Data mining in RTB

Avatar for Pavel

Pavel

April 07, 2014
Tweet

More Decks by Pavel

Other Decks in Research

Transcript

  1. RTB - аукцион рекламных показов в реальном времени A CIKM

    '13 Tutorial: Real-time Bidding: A New Frontier of Computational Advertising Research http://tutorial.computational-advertising.org/ Computational Advertising Stanford University MS&E 239: Introduction to Computational Advertising https://www.stanford.edu/class/msande239/
  2. Как найти похожую аудиторию (Look-alike)? улучшение эффективности системы пресказания целевых

    действий за счёт использования данных о переходах таргетирование на похожую аудиторию за счёт использования информации о переходах (увеличение охвата). Обзор метрик, позволяющих сравнивать, насколько пользователи похожи на друг друга, основываясь на их физическом передвижении (что в нашем случае посещенные сайты). http://www.barabasilab.com/pubs/CCNR-ALB_Publications/201108-21_KDD-HumanSocialTies/201108-21_KDD-HumanSocialTies.pdf
  3. “The best minds of my generation are thinking about how

    to make people click ads… That sucks.” - Jeff Hammerbacher, co-founder and chief scientist, Cloudera (source)
  4. логи, логи, логи Крутая статья сотрудника LinkedIn о том, что

    всё логи http://engineering. linkedin.com/distributed-systems/log-what-every-software-engineer-should-know- about-real-time-datas-unifying
  5. детерминированная машина Презентация функциональной базы данных от создателя языка Clojure

    и одного из ключевых разработчиков Datomic https://www. youtube.com/watch?v=Cym4TZwTCNU
  6. Storm, Samza, S4, Akka Видео с создателем Storm, на котором

    он очень кратко рассказывает про своё видение архитектуры для bid data http://www.infoq.com/interviews/marz- lambda-architecture
  7. Примеры запросов - выдайте персентили числа показов на человека -

    какое число уникальных пользователей по сайтам? - рассчитываемся с SSP за месяц. Нужна выгрузка трат за весь март
  8. - проверка на вхождение в множество - сколько различных элементов

    в потоке (мощность) - какие элементы встречаются чаще всего (heavy-hitters) и как часто? (частоты) - сколько элементов попадает в заданный интервал (интервалы) Исправленная и дополненная версия картинки, опубликованной в этом посте
  9. Frugal streaming: обработка по мере поступления, требуется супер мало памяти

    Свежая статья (2013 г.) http://link.springer.com/chapter/10.1007/978-3-642-40273-9_7 ($) Обсуждение: http://blog.aggregateknowledge.com/2013/09/16/sketch-of-the-day-frugal-streaming/
  10. frugal <- function(stream) { m <- 0 for (val in

    stream) { if (val > m) m = m + 1 else if (val < m) m = m - 1 } return(m) } Требование по памяти: 1 int
  11. frugal_1u <- function(stream, m = 0, q = 0.5) {

    m <- 0 for (val in stream) { if (val > m && runif(1) > 1 - q) m = m + 1 else if (val < m && runif(1) > q) m = m - 1 } return(m) } Есть еще улучшенный frugal_2u с переменным шагом Код на R: https://gist.github.com/kalaidin/9974919 IPython notebook: http://nbviewer.ipython.org/gist/kalaidin/9976120
  12. w i +1 +1 +1 h 1 h 4 h

    d d Оценка - возьмем минимум из d значений.
  13. Представьте, что сегодня утром я бросал монетку и записал, какое

    максимальное число раз подряд выпала решка
  14. LogLog: используем M корзин, в каждой из которой храним свой

    R Оригинальная статья: LogLog Counter http://algo.inria.fr/flajolet/Publications/DuFl03-LNCS.pdf
  15. HyperLogLog - среднее гармоническое R по корзинам Оригинальная статья: HyperLogLog

    Counter http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf Серия постов на тему HLL в блоге AggregateKnowledge: http://blog.aggregateknowledge.com/tag/hll/
  16. Проверка на вхождение: старый добрый фильтр Блума Bloom Filters: How

    I learned to stop worrying about errors and love memory efficient data structures 3 Rules of thumb for Bloom Filters (оценка ошибки) Попробуйте погуглить фото Бертона Говарда Блума - его не найти!
  17. i h 1 h 2 h k 1 1 1

    0 0 0 0 0 0 0 0 0 0 0 0 0