Slide 13
Slide 13 text
13
13
13
• Загрузка данных об объявлениях (микрокатегория, заголовок, описание, цена, параметры):
53M объявлений, 11K микрокатегорий/производителей (по 4.5K на микрокатегорию, max 772K)
• Предобработка текстовых данных: токенизация, фильтрация регулярными выражениями
• Извлечение признаков: bag-of-words, отбор токенов, на выходе разреженные-матрицы
• Кластеризация: EM-алгоритм (на основе подхода от eBay: Ye Chen, John F. Canny. Recommending ephemeral
items at web scale)
Подготовка данных
1