Slide 14
Slide 14 text
14
14
14
• Загрузка данных об объявлениях (микрокатегория, заголовок, описание, цена, параметры):
53M объявлений, 11K микрокатегорий/производителей (по 4.5K на микрокатегорию, max 772K)
• Предобработка текстовых данных: токенизация, фильтрация регулярными выражениями
• Извлечение признаков: bag-of-words, отбор токенов, на выходе разреженные-матрицы
• Кластеризация: EM-алгоритм (на основе подхода от eBay: Ye Chen, John F. Canny. Recommending ephemeral
items at web scale)
Подготовка данных
1