Ирина Пчелинцева (Яндекс), Тестирование рекомендательных систем, или как проверить то - не знаю что, CodeFest 2017

Тестирование рекомендательных систем Как проверить то — не знаю что
Ирина Пчелинцева, руководитель группы тестирования

Немного о себе ›  4 года в ручном тестировании › 
5 проектов ›  PhD по математике ›  Люблю Python, машинное обучение, котиков и крафтовое пиво. ›  Тестирование на проекте Дзен — с нуля

Дзен Тут представиться И про дзен

Машинное обучение захватывает мир

ML проникает повсеместно ›  Поиск ›  Дзен ›  Радио › 
Пробки ›  Погода ›  Маркет ›  …

Тестированию тоже надо меняться ›  Работа с логами ›  Работа
с данными ›  Понимание работы компонент сервиса

Недетерминированное поведение — как тестировать?

Эксперименты Exp Эталон

Проблемы Как выбрать метрику Проблема не локализуется

Метрики

Различие метрик и целевой функции ▌ Целевая функция ›  Контекст 1
документа (вероятность клика, время в документе) ›  Контекст 1 пачки рекомендаций (число кликов, время чтения) ▌ Метрика ›  Контекст суточного или даже недельного поведения

«Сlick bait»

Различие метрик и целевой функции ▌ Целевая функция ›  Контекст 1
документа (вероятность клика, время в документе) ›  Контекст 1 пачки рекомендаций (число кликов, время чтения) ▌ Метрика ›  Sessions per User ›  возвращаемость ›  отток

Если эксперимент не удался ▌ Плохая фича или плохая ▌ реализация? › 
Анализ различий специалистом по качеству

Кто отвечает за качество?

Ручное тестирование рекомндаций

Если эксперимент не удался ▌ Плохая фича или плохая ▌ реализация? › 
Анализ различий специалистом по качеству ›  Анализ до эксперимента позволяет избежать глупых ошибок, экономить время

Анализ различий ▌ Подготовка тестового пула ›  Страны ›  Продукты › 
Пользовательские свойства

Поиск багов на самых страдающих ›  Много просмотров, но мало
кликов ›  Много дизлайков ›  Много блокировок

Мониторинг здоровья сервиса

Мониторинги ›  Функциональные мониторинги по логам ›  Real-time метрики

Реабилитация кликов ▌ Любая сильная поломка на графике уже через минуту

Жалобы пользователей ›  За ними могу скрываться неизвестные баги или
недоработки ›  Нужны специалисты, понимающие взаимодействие всех компонент ›  Хорошие инструменты дебага

Пример бага: не сработал классификатор ›  Не применили результат › 
Эксперименты всё усложняют ›  Классификатор плохо классифицирует ›  Рассинхронизация процессов

Пример бага: дубли Клиенты DB “Frontend” Recommender Логи

Инструменты дебага ›  Видеть продукт глазами пользователя ›  Возможность понять,
как отработала каждая из компонент ›  Доступные интерфейсы к данным, базам, логам.

Смотрим глазами пользователя

Основная информация – на одной странице ›  Request Id › 
Дополнительные id пользователя ›  Эксперименты ›  Агрегированная статистика ›  Инстанс рекомендатора ›  Шард базы

Отображение документа Адрес документа Как его прочитали роботы Как его
обработал наш код Как его показывает клиент

Жизнь на игле больших данных

Внешние данные ›  Может приводить к драматическому ухудшению продукта › 
Может не приводить к багрепортам ›  Поставщик может тоже не заметить

Внешние данные ›  Мониторинг поставок ›  Фоллбек режимы ›  Мониторинг
срабатывания фоллбеков

Внутренние данные Запись (функциональные тесты) Обработка (функциональные тесты)

Обработка прямого фидбека

Внутренние данные Запись (функциональные тесты) Обработка (функциональные тесты) Поставка (Мониторинги)

Дерзайте и тестируйте

telegram.me/blindsight [email protected] Cпасибо за внимание! Пчелинцева Ирина Руководитель группы тестирования

Ирина Пчелинцева (Яндекс), Тестирование рекомен...

Ирина Пчелинцева (Яндекс), Тестирование рекомендательных систем, или как проверить то - не знаю что, CodeFest 2017

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript