Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Учет новых слов в языковых моделях классификации

Учет новых слов в языковых моделях классификации

Карпович Сергей Николаевич, руководитель группы развития поиска портала mos.ru

Big Data & AI Conference 2020

September 17, 2020
Tweet

More Decks by Big Data & AI Conference 2020

Other Decks in Technology

Transcript

  1. 02 Официальный сайт Мэра Москвы — mos.ru Новости о Москве,

    городские услуги, нормативно-правовые акты, советы по актуальным вопросам и интересные события уникальных посетителей в 2020 году 121 млн
  2. 06 Как мониторить изменения популярности тем? Два шага: 01 02

    Определить тему с помощью алгоритма классификации Подсчитать количество документов, отнесенных к теме в единицу времени
  3. 08 Вероятностное тематическое моделирование Тему документа определяют темы слов, из

    которых состоит документ Слово относится к разным темам с разной вероятностью Домашние животные Дикие животные Строительство Кошка 50 % 30 % 20 % Домашние животные Кошки Котята
  4. 10 Алгоритм учета неизвестных слов в вероятностных тематических моделях Вероятностная

    тематическая модель определяет, с какой вероятностью каждый документ относится к той или иной теме и определяет, из каких слов состоит каждая тема Размер штрафа — это априорная оценка вероятности отнесения неизвестного слова к новой теме Вероятностная оценка отнесения нового документа к темам будет содержать оценку новизны документа Программный код метода https://github.com/cimsweb/PEBL-ML-TM Словарь тематической модели состоит из слов, на которых строилась тематическая модель Для определения темы документа рассчитываем вероятности известных слов и назначаем штраф за неизвестные слова
  5. 12 Изменение интересов по теме коронавируса Интересы Новые запросы Интерес

    4 Интерес 8 Интерес 1 Интерес 5 Интерес 9 Интерес 2 Интерес 6 Интерес 10 Интерес 3 Интерес 7 Интерес 11 0% 20% 40% 60% 80% 100% 04.04.2020 06.04.2020 08.04.2020 10.04.2020 12.04.2020 14.04.2020 16.04.2020 18.04.2020 20.04.2020 22.04.2020 24.04.2020 26.04.2020 28.04.2020 30.04.2020 02.05.2020 04.05.2020 06.05.2020 08.05.2020 10.05.2020 12.05.2020 14.05.2020 16.05.2020 18.05.2020 20.05.2020 22.05.2020 24.05.2020 26.05.2020 28.05.2020 30.05.2020 01.06.2020 03.06.2020 05.06.2020 07.06.2020 09.06.2020 11.06.2020 13.06.2020 15.06.2020 17.06.2020 1 2 3 4 5 6 7 8 9 Новые запросы 11 12 1 2 3 4 5 6 7 8 9 11 новые запросы 12
  6. 14 Преимущества метода Размер модели Работа с динамическими и статическими

    данными Использование вместе с другими алгоритмами
  7. 15 Полезные ссылки · https://github.com/cimsweb/PEBL-ML-TM Программный код метода с примерами

    и сравнением с другими подходами · Карпович С. Н., Смирнов А. В., Тесля Н. Н. Одноклассовая классификация текстовых документов с использованием вероятностного тематического моделирования //Искусственный интеллект и принятие решений. – 2018. – №. 3. – С. 69-77. · https://radimrehurek.com/gensim/ Библиотека для тематического моделирования Gensim · https://bigartm.readthedocs.io/ Библиотека для тематического моделирования BigARTM · https://ru.wikipedia.org/wiki/Тематическое_моделирование · http://www.machinelearning.ru/wiki/index.php?title=Вероятностный_латентный_ семантический_анализ · http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf Вероятностное тематическое моделирование. Воронцов К.В.