CodeFest 2019. Анна Мосолова (Data Monsters) — Имитатор поэта, или как Пушкин писал бы через 200 лет

Имитатор поэта, или как Пушкин писал бы через 200 лет
Анна Мосолова Аналитик Data Monsters

Classic AI 2 https://classic.sberbank.ai/description

ПЕРВЫЙ ПОДХОД 3

Первый подход 4 Автор Тема Подбор слов по теме Выдача
окончательного варианта Выбор лучшего стихотворения после замены Замена слов в стихотворении автора

5 Автор Тема Подбор слов по теме Выдача окончательного варианта
Выбор лучшего стихотворения после замены Замена слов в стихотворении автора Первый подход

Подбор слов по теме – тематическое моделирование 6

Тематическое моделирование 7 Алгоритмы LDA ARTM PLSA https://radimrehurek.com/gensim/ https://bigartm.readthedocs.io/en/stable/

Тематическое моделирование 8 Тема Слова по теме + тема Тематическая
модель LDA + +

Аугментация текстов 10

Аугментация синонимами 11 Аугментация предложения в 8 раз с изменением
25% слов

Аугментация из дистрибутивных тезаурусов 12 https://rusvectores.org/ru/similar/ Холодный

Аугментация переводом 13 Can’t wait for the spring to come
Не могу дождаться прихода весны Не могу дождаться прихода пружины

Замена слов в стихотворении автора 14 Слова по теме Корпус
стихотворений Аугментатор Новая лексика Проверка ритма + Сгенерированные стихотворения Имя автора Стихотворение автора

Выбор лучшего стихотворения после замены 16 Акцентор: • А.А. Зализняк,
Грамматический словарь русского языка • Морфотеги Пример: корова коро+ва Транскриптор: • Адаптированные правила трансформации фонем из книги Б.М. Лобанов, Цирульник Л.И., «Компьютерный синтез и клонирование речи» Пример: корова K A R O 0 V A https://github.com/nsu-ai/russian_g2p

Выбор лучшего стихотворения после замены 17 Исходное стихотворение Сгенерированные стихотворения
Структура ударных и безударных слогов Последние фонемы строки + Отбор наиболее похожих структур Итоговое стихотворение

Переранжирование по асессорской разметке 18 Логистическая регрессия 30000 стихотворений с
темой и оценками асессоров Сгенерированные стихотворения Тема Стихотворение с самой высокой оценкой Выбор лучшего стихотворения после замены

Это конец? 19 О хорошем: • Среднее время работы –
5 секунд • Легковесный Проблема: • Недостаточное высокое качество – средняя оценка за стихотворение 2,7 из 5 Решение: • Новый подход: информационный поиск

Применение методов 20

Тематическое моделирование: применение 21 https://clck.ru/FNBjv https://clck.ru/FNBPZ Кластеризация документов Информационный поиск
Классификация интентов в чат-ботах

Аугментация текстов: применение 22 Копирайтинг Многообразие ответов чат-ботов Увеличение малых
объемов данных

Переранжирование по асессорской разметке: применение 23 Коррекция ответов чат-бота

ВТОРОЙ ПОДХОД 24

Второй подход 25 Первая строка Вторая строка Третья строка Четвертая
строка Семантический поиск Генерация

Семантический поиск 26 Annoy Тема + Первая строка Третья строка
Первая строка Третья строка Первая строка Третья строка Первая строка Третья строка Первая строка Третья строка + + https://fasttext.cc https://github.com/spotify/annoy https://github.com/yutkin/Lenta.Ru-News-Dataset

Fasttext 27 Эмбеддинг предложения = среднее эмбеддингов слов в предложении
Рентгеноэлектрокардиографический word2vec fasttext ? рентгено + электро + кардио + графический Использованная модель: fasttext, cbow, Araneum https://rusvectores.org/ru/models/

Annoy 28 Алгоритм приблизительного поиска ближайших соседей

Генерация в рифму 29 Первая (или третья) строка Существительные Глаголы
Прилагательные Замена с сохранением морфологических характеристик и состава гласных Самые похожие по рифме строки (теперь вторая (или четвертая))

Может, это конец? 30 И снова нет! Проблема: • Генерация
работает, но недостаточно хорошо. Среднее качество – 4 из 5 Решение: • Попробовать информационный поиск везде?

ТРЕТИЙ ПОДХОД 31

Третий подход 32 Первая строка Вторая строка Третья строка Четвертая
строка Семантический поиск Фонетический поиск

Семантический поиск [2] 33 Annoy Тема + Первая строка Третья
строка Первая строка Третья строка Первая строка Третья строка Первая строка Третья строка Первая строка Третья строка + + https://allennlp.org/elmo Использованная модель – ELMo на Wikipedia http://docs.deeppavlov.ai/en/latest/intro/pretrained_vectors.html

ELMo 34

ELMo 35

Фонетический поиск 36 Фонемные эмбеддинги Бинарное представление ударных и безударных
гласных k ближайших соседей Annoy Ближайшие строки Первая (или третья) строка Самые близкие строки (вторая или четвертая) по ритму и рифме Первая (или третья) строка

Конец 37 Среднее качество – ?

Конец 38 Среднее качество – 3,8 из 5

Итоги 39 • Получено 3 новых подхода к автоматической генерации
стихотворений • Опробовано на практике множество алгоритмов, которые могут применяться в различных задачах NLP • Можно не сочинять стихи самому - https://github.com/nsu-ai/pushkin-not-pushkin

Участники 40 Анна Мосолова Даниил Водолазский Пётр Гусев Иван Бондаренко
Мария Боровикова Анастасия Малышева

Полезные ссылки 41 https://radimrehurek.com/gensim/ https://bigartm.readthedocs.io/en/stable/ https://rusvectores.org/ru/ https://github.com/nsu-ai/russian_g2p https://fasttext.cc https://github.com/spotify/annoy https://github.com/yutkin/Lenta.Ru-News-Dataset
https://allennlp.org/elmo http://docs.deeppavlov.ai/en/latest/intro/pretrained_vectors.html https://github.com/nsu-ai/pushkin-not-pushkin

Анна Мосолова Аналитик DataMonsters Вопросы? [email protected] @anyabelk

CodeFest 2019. Анна Мосолова (Data Monsters) — ...

CodeFest 2019. Анна Мосолова (Data Monsters) — Имитатор поэта, или как Пушкин писал бы через 200 лет

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript