Upgrade to Pro — share decks privately, control downloads, hide ads and more …

CodeFest 2019. Даниил Гаврилов (ВКонтакте) — Суммаризация текстов: от генерации заголовков к новостям до суммаризации всего и вся

16b6c87229eaf58768d25ed7b2bbbf52?s=47 CodeFest
April 05, 2019

CodeFest 2019. Даниил Гаврилов (ВКонтакте) — Суммаризация текстов: от генерации заголовков к новостям до суммаризации всего и вся

Суммаризация (автореферирование) текстов является одной из ключевых задач NLP. Несмотря на то, что использование глубокого обучения позволило совершить качественный скачок в этой области, технология всё ещё остаётся не идеальной.

В своем докладе я расскажу о том, какие методы суммаризации существуют сейчас, что с ними можно сделать, а так же расскажу о самых интересных направлениях в исследованиях искусственного интеллекта, которые позволят еще сильнее улучшить эту технологию.

16b6c87229eaf58768d25ed7b2bbbf52?s=128

CodeFest

April 05, 2019
Tweet

Transcript

  1. О суммаризации текстов vk.com/gd vk.com/deepvk

  2. Что это?

  3. Long text Short summary

  4. Зачем это нам? 1. Очень много информации вокруг нас

  5. Зачем это нам? 1. Очень много информации вокруг нас 2.

    Интересная задача сама по себе
  6. Есть два основых способа сделать это

  7. Есть два основых способа сделать это 1. Экстрактивная суммаризация

  8. Экстрактивная суммаризация

  9. Экстрактивная суммаризация

  10. Экстрактивная суммаризация

  11. Плюсы 1. Относительно легко сделать

  12. Плюсы 1. Относительно легко сделать Минусы 1. Непонятно, откуда взять

    такие данные
  13. Плюсы 1. Относительно легко сделать Минусы 1. Непонятно, откуда взять

    такие данные 2. Очень не гибко
  14. Есть два основых способа сделать это 1. Экстрактивная суммаризация 2.

    Абстрактивная суммаризация
  15. Абстрактивная суммаризация

  16. Абстрактивная суммаризация

  17. Плюсы 1. Гибко

  18. Плюсы 1. Гибко Минусы 1. Более сложная модель

  19. Как нам заставить нейросеть генерировать текст? Мы умеем предсказывать произвольную

    величину из другой произвольной величины
  20. None
  21. Как нам заставить нейросеть генерировать текст? Мы умеем предсказывать произвольную

    величину из другой произвольной величины I.e. мы определяем И ищем θMLE = argmaxθ ∏ (xi ,yi )∈data P(yi |xi , θ) P(y|x, θ)
  22. Сделаем небольшой «хак» Представим, что у нас есть датасет произвольных

    текстов
  23. The quick brown fox jumps over the lazy dog

  24. <s> The quick brown fox jumps over the lazy dog

    <\s>
  25. The quick brown fox jumps over the lazy dog <\s>

    <s> The quick brown fox jumps over the lazy dog
  26. The quick brown fox jumps over the lazy dog <\s>

    <s> The quick brown fox jumps over the lazy dog
  27. The quick brown fox jumps over the lazy dog <\s>

    <s> The quick brown fox jumps over the lazy dog
  28. Как нам заставить нейросеть генерировать текст? По сути, мы обучаем

    P(x, θ) = n ∏ i=1 P(xi |x1 , . . . , xi−1 , θ)
  29. <s>

  30. The <s>

  31. <s> The

  32. <s> The quick

  33. <s> The quick

  34. <s> The quick brown

  35. <s> The quick brown …

  36. http://karpathy.github.io/2015/05/21/rnn-effectiveness/

  37. Обусловленная генерация

  38. Seq-2-Seq https://towardsdatascience.com/sequence-to-sequence-model-introduction-and-concepts-44d9b41

  39. Attention arXiv:1409.0473

  40. Как из всего этого собрать суммаризацию? 1. Собрать данные

  41. text: риа новости. пожар в одном из цехов в северной

    части москвы, достигавший 2 тысяч квадратных метров, локализован, сообщила пресс-служба столичного главка мчс. ранее сообщалось, что по адресу 1-ый магистральный тупик, дом 5 начался крупный пожар, загорелся цех на площади 2 тысячи “квадратов”. “благодаря оперативному прибытию и грамотным действиям пожарно-спасательных подразделений в 00.35 пожар был локализован”, говорится в сообщении headline: пожар в цеху на севере москвы локализован https://github.com/RossiyaSegodnya/ria_news_dataset
  42. Как из всего этого собрать суммаризацию? 1. Собрать данные 2.

    Описать модель для зависимой генерации текста
  43. https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html

  44. Как из всего этого собрать суммаризацию? 1. Собрать данные 2.

    Описать модель для зависимой генерации текста 3. Обучить её
  45. Проблема Разбивать текст по словам очень неэффективно

  46. Токенизация 1. Word level i'm a second year student in

    an ivy league school -> ["i'm", 'a', 'second', 'year', 'student', 'in', 'an', 'ivy', 'league', ‘school’]
  47. Word Level + Короткая длина итогового текста в токенах -

    Большой размер словаря - Часть слов потеряна
  48. Токенизация 1. Word level i'm a second year student in

    an ivy league school -> ["i'm", 'a', 'second', 'year', 'student', 'in', 'an', 'ivy', 'league', ‘school’] 2. Character level ['i', "'", 'm', ' ', 'a', ' ', 's', 'e', 'c', 'o', 'n', 'd', ' ', 'y', 'e', 'a', 'r', ' ', 's', 't', 'u', 'd', 'e', 'n', 't', ' ', 'i', 'n', ' ', 'a', 'n', ' ', 'i', 'v', 'y', ' ', 'l', 'e', 'a', 'g', 'u', 'e', ' ', 's', 'c', 'h', 'o', 'o', 'l']
  49. Word Level Character Level + Короткая длина итогового текста в

    токенах - Большой размер словаря - Часть слов потеряна - Получается длинный текст + Небольшой размер алфавита + Можно покрыть практически любой текст
  50. BPE

  51. https://github.com/google/sentencepiece

  52. Токенизация BPE I saw a girl with a telescope. ->

    ['▁I', '▁saw', '▁a', '▁girl', '▁with', '▁a', '▁', 'te', 'le', 's', 'c', 'o', 'pe', ‘.’] опубликовано видео убитого саудовского журналиста джамаля хашкуджи -> ['▁опубликовано', '▁видео', '▁убитого', '▁саудов', 'ского', '▁журналиста', '▁джама', 'ля', '▁ха', 'шку', 'джи']
  53. Токенизация BPE + Короткая длина итогового текста в токенах +

    Контролируемый размер вокабуляра + Покрываем практически любой возможный текст
  54. Что получилось?

  55. Первый скоростной подземный тоннель под Лос- Анджелесом откроется 10 декабря.

    Об этом написал в своем Twitter-аккаунте бизнесмен, миллиардер и глава космической компании SpaceX Илон Маск.
 
 «Почти готов», — отметил предприниматель.
 …
 
 О своем новом проекте Маск объявил еще в конце декабря 2016 года. Он пожаловался на то, что его очень раздражают пробки в городе.
  56. илон маск анонсировал первый скоростной тоннель под лос-анджелесом ['▁илон', '▁маск',

    '▁анонсировал', '▁первый', '▁скоростной', '▁тоннель', '▁под', '▁лос', '-', 'анджеле', 'сом']
  57. Невеста убитого саудовского журналиста Джамаля Хашкуджи по имени Хатице Ченгиз

    (Hatice Cengiz) опубликовала в Twitter посмертное послание своему возлюбленному.
 
 Девушка выложила фрагмент видеоинтервью Хашкуджи, снятого ранее для документального фильма. Во время записи монолога журналиста к нему на колени запрыгнула кошка. Репортер со смехом попросил оператора оставить этот фрагмент в картине.
 
 «Они забрали твое физическое присутствие из моего мира. Но твой прекрасный смех останется в моей душе навсегда. Мой дорогой Джамаль Хашкуджи», — подписала запись Ченгиз, сопроводив пост хештегами «Джамаль Хашкуджи»
  58. опубликовано видео убитого саудовского журналиста джамаля хашкуджи
 
 ['▁опубликовано', '▁видео',

    '▁убитого', '▁саудов', 'ского', '▁журналиста', '▁джама', 'ля', '▁ха', 'шку', 'джи']
  59. кровля на площади 320 квадратных метров обрушилась в школе города

    сургут ханты-мансийского автономного округа, сообщает региональный главк мчс. "в городе сургут по улице пролетарский проспект 14а, при проведении ремонтных работ произошло обрушение кровли здания, по уточненным данным, на площади 320 квадратных метров", говорится в сообщении гумчс по хмао . по указанному адресу, согласно открытым источникам, находится школа. сми сообщают о взрыве, который стал причиной обрушения. однако у мчс такой информации нет. региональный главк мчс уточняет, что на месте работают оперативные службы. причина обрушения и сумма ущерба устанавливаются. погибших и пострадавших в результате инцидента нет.
  60. Original headline: потолок на площади 320 кв м обрушился в

    школе сургута во время ремонта
 
 Generated headline: крыша обрушилась в школе в сургуте, пострадавших нет
  61. Что у нас из всего этого вышло?

  62. None
  63. Что можно делать дальше? •Новое разбиение для BPE

  64. Что можно делать дальше? •Новое разбиение для BPE •Новые модели

    (unsupervised?)
  65. Спасибо vk.com/gd vk.com/deepvk