Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Data mining in RTB

Pavel
April 07, 2014

Data mining in RTB

Pavel

April 07, 2014
Tweet

More Decks by Pavel

Other Decks in Research

Transcript

  1. RTB - аукцион рекламных показов в реальном времени A CIKM

    '13 Tutorial: Real-time Bidding: A New Frontier of Computational Advertising Research http://tutorial.computational-advertising.org/ Computational Advertising Stanford University MS&E 239: Introduction to Computational Advertising https://www.stanford.edu/class/msande239/
  2. Как найти похожую аудиторию (Look-alike)? улучшение эффективности системы пресказания целевых

    действий за счёт использования данных о переходах таргетирование на похожую аудиторию за счёт использования информации о переходах (увеличение охвата). Обзор метрик, позволяющих сравнивать, насколько пользователи похожи на друг друга, основываясь на их физическом передвижении (что в нашем случае посещенные сайты). http://www.barabasilab.com/pubs/CCNR-ALB_Publications/201108-21_KDD-HumanSocialTies/201108-21_KDD-HumanSocialTies.pdf
  3. “The best minds of my generation are thinking about how

    to make people click ads… That sucks.” - Jeff Hammerbacher, co-founder and chief scientist, Cloudera (source)
  4. логи, логи, логи Крутая статья сотрудника LinkedIn о том, что

    всё логи http://engineering. linkedin.com/distributed-systems/log-what-every-software-engineer-should-know- about-real-time-datas-unifying
  5. детерминированная машина Презентация функциональной базы данных от создателя языка Clojure

    и одного из ключевых разработчиков Datomic https://www. youtube.com/watch?v=Cym4TZwTCNU
  6. Storm, Samza, S4, Akka Видео с создателем Storm, на котором

    он очень кратко рассказывает про своё видение архитектуры для bid data http://www.infoq.com/interviews/marz- lambda-architecture
  7. Примеры запросов - выдайте персентили числа показов на человека -

    какое число уникальных пользователей по сайтам? - рассчитываемся с SSP за месяц. Нужна выгрузка трат за весь март
  8. - проверка на вхождение в множество - сколько различных элементов

    в потоке (мощность) - какие элементы встречаются чаще всего (heavy-hitters) и как часто? (частоты) - сколько элементов попадает в заданный интервал (интервалы) Исправленная и дополненная версия картинки, опубликованной в этом посте
  9. Frugal streaming: обработка по мере поступления, требуется супер мало памяти

    Свежая статья (2013 г.) http://link.springer.com/chapter/10.1007/978-3-642-40273-9_7 ($) Обсуждение: http://blog.aggregateknowledge.com/2013/09/16/sketch-of-the-day-frugal-streaming/
  10. frugal <- function(stream) { m <- 0 for (val in

    stream) { if (val > m) m = m + 1 else if (val < m) m = m - 1 } return(m) } Требование по памяти: 1 int
  11. frugal_1u <- function(stream, m = 0, q = 0.5) {

    m <- 0 for (val in stream) { if (val > m && runif(1) > 1 - q) m = m + 1 else if (val < m && runif(1) > q) m = m - 1 } return(m) } Есть еще улучшенный frugal_2u с переменным шагом Код на R: https://gist.github.com/kalaidin/9974919 IPython notebook: http://nbviewer.ipython.org/gist/kalaidin/9976120
  12. w i +1 +1 +1 h 1 h 4 h

    d d Оценка - возьмем минимум из d значений.
  13. Представьте, что сегодня утром я бросал монетку и записал, какое

    максимальное число раз подряд выпала решка
  14. LogLog: используем M корзин, в каждой из которой храним свой

    R Оригинальная статья: LogLog Counter http://algo.inria.fr/flajolet/Publications/DuFl03-LNCS.pdf
  15. HyperLogLog - среднее гармоническое R по корзинам Оригинальная статья: HyperLogLog

    Counter http://algo.inria.fr/flajolet/Publications/FlFuGaMe07.pdf Серия постов на тему HLL в блоге AggregateKnowledge: http://blog.aggregateknowledge.com/tag/hll/
  16. Проверка на вхождение: старый добрый фильтр Блума Bloom Filters: How

    I learned to stop worrying about errors and love memory efficient data structures 3 Rules of thumb for Bloom Filters (оценка ошибки) Попробуйте погуглить фото Бертона Говарда Блума - его не найти!
  17. i h 1 h 2 h k 1 1 1

    0 0 0 0 0 0 0 0 0 0 0 0 0