Федор Краснов
Эксперт, Газпромнефть НТЦ
SECR 2019
Доклад о применении интеллектуального анализа текста для решения задач издательского бизнеса. Поиск постановки задачи, методов анализа, построения моделей, оптимизация свободных параметров и подготовка для создания продукта.
Польза доклада в том, что постановку задачи всегда нужно искать самому, т.к. ждать, что кто-то поставит задачу, подготовит данные – не продуктивно. Фундаментальное понимание работы моделей необходимо, но важнее уметь применять модели к нестандартным ситуациям.
Сейчас можно получить работу, умея лишь запустить стандартный метод из открытой библиотеки. Но через 5 лет уже будет не так. Нужно будет понимать формулы за этим методом, уметь придумать и написать нестандартную нормализацию или нестандартную cost function для этого случая и многое другое.
Авторами предложена новая методика для парного сравнения коллекций научных статей с помощью тематической модели.
Разработанная методика получила название Сравнительного Тематического Анализа (СТА).
СТА позволяет получить не только количественную оценку похожести коллекций, но и структурные различия сравниваемых коллекций, как в количественном виде, так и с помощью средств визуализации, разработанных авторами.
В данном исследовании проведено сравнение существующих подходов к тематическому моделированию применительно к рассматриваемой задаче сравнения коллекций научных статей. Рассмотрены вероятностные и генеративные тематические модели.
Аудитория: Applied Data Scientists.