которых состоит документ Слово относится к разным темам с разной вероятностью Домашние животные Дикие животные Строительство Кошка 50 % 30 % 20 % Домашние животные Кошки Котята
тематическая модель определяет, с какой вероятностью каждый документ относится к той или иной теме и определяет, из каких слов состоит каждая тема Размер штрафа — это априорная оценка вероятности отнесения неизвестного слова к новой теме Вероятностная оценка отнесения нового документа к темам будет содержать оценку новизны документа Программный код метода https://github.com/cimsweb/PEBL-ML-TM Словарь тематической модели состоит из слов, на которых строилась тематическая модель Для определения темы документа рассчитываем вероятности известных слов и назначаем штраф за неизвестные слова
и сравнением с другими подходами · Карпович С. Н., Смирнов А. В., Тесля Н. Н. Одноклассовая классификация текстовых документов с использованием вероятностного тематического моделирования //Искусственный интеллект и принятие решений. – 2018. – №. 3. – С. 69-77. · https://radimrehurek.com/gensim/ Библиотека для тематического моделирования Gensim · https://bigartm.readthedocs.io/ Библиотека для тематического моделирования BigARTM · https://ru.wikipedia.org/wiki/Тематическое_моделирование · http://www.machinelearning.ru/wiki/index.php?title=Вероятностный_латентный_ семантический_анализ · http://www.machinelearning.ru/wiki/images/d/d5/Voron17survey-artm.pdf Вероятностное тематическое моделирование. Воронцов К.В.