CodeFest 2019. Андрей Кутузов (Университет Осло) — Нейронные сети в обработке текста: хайп или всерьёз и надолго

Нейронные сети в обработке текста: хайп или всерьёз и надолго
Андрей Кутузов University of Oslo, Language Technology Group, researcher CodeFest, Новосибирск, март 2019

Кто здесь? Закончил магистратуру по компьютерной лингвистике НИУ ВШЭ в
Москве. Работал с NLP в Lionbridge и в Поиске Mail.ru. Сейчас занимаюсь наукой и преподаю в университете Осло (это в Норвегии). Deep learning, computational linguistics... Создал и развиваю проект RusVect¯ or¯ es (word embeddings для русского языка). Участвую в разработке библиотеки Gensim. https://www.mn.uio.no/ifi/english/ https://rusvectores.org https://github.com/RaRe-Technologies/gensim

Что будет? В докладе 4 главных тезиса. Ищите слайды с
большими дружелюбными красными буквами: Take-home message Например, вот так.

Что это вообще за NLP такой? Лингвистика

Что это вообще за NLP такой? Лингвистика Статистические методы

Что это вообще за NLP такой? Лингвистика Статистические методы Глубокое
обучение

Что это вообще за NLP такой? Computational Linguistics (CL);

Что это вообще за NLP такой? Computational Linguistics (CL); Natural
Language Processing (NLP);

Language Processing (NLP); Natural Language Understanding (NLU);

Language Processing (NLP); Natural Language Understanding (NLU); Более или менее одна и та же область знаний:

Language Processing (NLP); Natural Language Understanding (NLU); Более или менее одна и та же область знаний: 1 научное изучение языка с вычислительной точки зрения;

Language Processing (NLP); Natural Language Understanding (NLU); Более или менее одна и та же область знаний: 1 научное изучение языка с вычислительной точки зрения; 2 практические языко-ориентированных задачи: анализ (понимание человеческого текста) синтез (генерация «человеческого» текста)

Почему такой хайп с NLP/CL в последние лет 10? Данные
— «нефть XXI века»;

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT);

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах.

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне:

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval)

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis)

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis) детектирование спама

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis) детектирование спама распознавание речи

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis) детектирование спама распознавание речи чатботы

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis) детектирование спама распознавание речи чатботы автореферирование (summarization)

— «нефть XXI века»; Все хотят обрабатывать большие данные (особенно в IT); Данные очень часто спрятаны в текстах. NLP нынче в каждом смартфоне: поисковики (information retrieval) машинный перевод определение тональности (sentiment analysis) детектирование спама распознавание речи чатботы автореферирование (summarization) виртуальные личные помощники (Алиса, Siri, Alexa, Cortana)...

Язык — это очень не просто https://medium.com/@yoav.goldberg/an-adversarial-review-of-adversarial-generation-of-natural-language-409ac3378bd7

Язык — это очень не просто (особенно морфологически сложный —
например, русский) Как перевести последовательности букв в осмысленный цифровой вид?

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных:

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных: токенизация (как делить строку на слова?)

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных: токенизация (как делить строку на слова?) лемматизация (какая у этого слова начальная форма?)

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных: токенизация (как делить строку на слова?) лемматизация (какая у этого слова начальная форма?) снятие неоднозначности: «Лук (???) был просто огонь (???)»

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных: токенизация (как делить строку на слова?) лемматизация (какая у этого слова начальная форма?) снятие неоднозначности: «Лук (???) был просто огонь (???)» чёрт знает что ещё.

например, русский) Как перевести последовательности букв в осмысленный цифровой вид? Предобработка текстовых данных: токенизация (как делить строку на слова?) лемматизация (какая у этого слова начальная форма?) снятие неоднозначности: «Лук (???) был просто огонь (???)» чёрт знает что ещё. Приходится скрещивать линейную алгебру с лингвистикой.

Take-home message #1 Языковые данные сложны и специфичны

Как мы пришли к нейронным сетям? Три этапа истории NLP
1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов;

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х;

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х; 3 «нейронки» (‘deep learning’): с конца 2000-х и по сей день.

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х; 3 «нейронки» (‘deep learning’): с конца 2000-х и по сей день. Машинное обучение Современное NLP — фактически часть data science...

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х; 3 «нейронки» (‘deep learning’): с конца 2000-х и по сей день. Машинное обучение Современное NLP — фактически часть data science... ...ибо почти целиком основано на машинном обучении.

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х; 3 «нейронки» (‘deep learning’): с конца 2000-х и по сей день. Машинное обучение Современное NLP — фактически часть data science... ...ибо почти целиком основано на машинном обучении. Мы обучаем наши системы на больших корпусах текстов.

1 «правила» (‘rule-based’, ‘symbolic’): с 1950-х до 1990-х годов; 2 «машинное обучение» (‘data-based’): с 1990-х до конца 2000-х; 3 «нейронки» (‘deep learning’): с конца 2000-х и по сей день. Машинное обучение Современное NLP — фактически часть data science... ...ибо почти целиком основано на машинном обучении. Мы обучаем наши системы на больших корпусах текстов. Нейронные сети — один из алгоритмов машинного обучения.

27.03.2019 отцы-основатели Deep Learning получили «Нобелевскую премию computer science»: ACM
Turing Award «...за концептуальные и инженерные прорывы, сделавшие глубокие нейронные сети важнейшей частью индустрии вычислений: в компьютерном зрении, распознавании речи, обработке естественного языка и робототехнике»

Возрождение нейронных сетей «Глубокое обучение» (deep learning) — машинное обучение
с использованием многослойных искусственных нейронных сетей и нелинейных трансформаций.

с использованием многослойных искусственных нейронных сетей и нелинейных трансформаций. feedforward networks (простейший вариант), convolutional networks (CNN), recurrent networks: gated: (Bi)LSTM, GRU, etc. transformers...

с использованием многослойных искусственных нейронных сетей и нелинейных трансформаций. feedforward networks (простейший вариант), convolutional networks (CNN), recurrent networks: gated: (Bi)LSTM, GRU, etc. transformers... Более-менее любая сложная NLP-задача с нейронками решается качественнее, чем «классическими» линейными моделями.

с использованием многослойных искусственных нейронных сетей и нелинейных трансформаций. feedforward networks (простейший вариант), convolutional networks (CNN), recurrent networks: gated: (Bi)LSTM, GRU, etc. transformers... Более-менее любая сложная NLP-задача с нейронками решается качественнее, чем «классическими» линейными моделями. «Нужно ли нам вообще что-то кроме нейронных сетей?» Уже-не-спойлер: да, ещё нужна лингвистика.

Почему «нейронные»? В нашем мозге 1011 нейронов, и у каждого
104 соединений.

104 соединений. Нейроны получают от других нейронов сигналы, присваивают им веса и отправляют новые сигналы дальше.

104 соединений. Нейроны получают от других нейронов сигналы, присваивают им веса и отправляют новые сигналы дальше. Искусственные нейронные сети имитируют этот процесс.

104 соединений. Нейроны получают от других нейронов сигналы, присваивают им веса и отправляют новые сигналы дальше. Искусственные нейронные сети имитируют этот процесс. Но это не точно: на самом деле не очень понятно, как работает мозг.

104 соединений. Нейроны получают от других нейронов сигналы, присваивают им веса и отправляют новые сигналы дальше. Искусственные нейронные сети имитируют этот процесс. Но это не точно: на самом деле не очень понятно, как работает мозг. Так что нейронки это вектора, матрицы весов и дифференцирование. Не секси, зато правда.

Почему «глубокие»? Нейронные сети обычно состоят из нескольких трансформирующих слоёв
(поэтому их еще называют multi-layered perceptrons, MLP).

(поэтому их еще называют multi-layered perceptrons, MLP). Они способны аппроксимировать любую функцию.

(поэтому их еще называют multi-layered perceptrons, MLP). Они способны аппроксимировать любую функцию. Вопрос лишь в количестве слоёв и нейронов в этих слоях.

(поэтому их еще называют multi-layered perceptrons, MLP). Они способны аппроксимировать любую функцию. Вопрос лишь в количестве слоёв и нейронов в этих слоях. Нелинейные трансформации между слоями позволяют обрабатывать линейно неразделимые данные.

(поэтому их еще называют multi-layered perceptrons, MLP). Они способны аппроксимировать любую функцию. Вопрос лишь в количестве слоёв и нейронов в этих слоях. Нелинейные трансформации между слоями позволяют обрабатывать линейно неразделимые данные. Именно это даёт буст к качеству моделей: в машинном переводе, в предсказании следующего слова, в извлечении имён из текста, в определении тональности...

Take-home message #2 Deep Learning — логическое развитие истории NLP

Representation learning Нейронки очень эффективны в выучивании оптимальных векторных репрезентаций
самых разных сущностей.

самых разных сущностей. Крайне важно в NLP: тут много сложных объектов, для которых нужно уметь определять близость: звуки, буквы, слова, предложения, тексты... даже языки.

самых разных сущностей. Крайне важно в NLP: тут много сложных объектов, для которых нужно уметь определять близость: звуки, буквы, слова, предложения, тексты... даже языки. Такие репрезентации мы называем embeddings (например, word embeddings).

word2vec: представлять слова векторами нынче модно (Dmitry Malkov)

Deep learning сильно изменил NLP Гораздо меньше ручного feature engineering:
нейронки сами находят полезные комбинации признаков.

нейронки сами находят полезные комбинации признаков. Предобученные модели: легко дотюнить под свои задачи.

нейронки сами находят полезные комбинации признаков. Предобученные модели: легко дотюнить под свои задачи. Отдельные элементы комбинируются в комплексные архитектуры.

нейронки сами находят полезные комбинации признаков. Предобученные модели: легко дотюнить под свои задачи. Отдельные элементы комбинируются в комплексные архитектуры. Современное железо дешёвое и достаточно мощное (GPUs, TPUs).

Регулярные NLP-революции и новые рекорды Multi-task learning; Generative Adversarial Networks
(GANs); Transformers (BERT); Pre-trained language models / Contextualized word embeddings (ELMo)...

Случаются забавные казусы OpenAI обучили языковую модель, но никому её
не показывают (чтобы злодеи не воспользовались):

Случаются забавные казусы OpenAI обучили языковую модель, но никому её
не показывают (чтобы злодеи не воспользовались): Неблагодарные компьютерные лингвисты издеваются:

Проблема интерпретируемости предсказаний в условиях каскада репрезентаций XKCD

Проблема недостатка размеченных данных разметка ошибок перевода (https: // rus-ltc.
org )

Take-home message #3 Deep learning в NLP — не хайп,
это всерьёз. Занимайтесь им. Но всерьёз было и «классическое» машинное обучение 20 лет назад. Так что и это не окончательное решение проблемы языка.

Большая экосистема софта (в основном Python) NumPy: многомерные массивы (тензоры)
и прочая линейная алгебра;

и прочая линейная алгебра; Закон: каждая IT-компания с персоналом больше 10 тысяч человек делает свой DL-фреймворк; open source → всем хорошо;

и прочая линейная алгебра; Закон: каждая IT-компания с персоналом больше 10 тысяч человек делает свой DL-фреймворк; open source → всем хорошо; TensorFlow от Google https://tensorflow.org/ PyTorch от Facebook https://pytorch.org/

Под капотом у фреймворков: вычислительный граф directed acyclic graph (DAG)

Репрезентация вычисления математического выражения;

Репрезентация вычисления математического выражения; каждая операция и переменная — это узел в графе;

Репрезентация вычисления математического выражения; каждая операция и переменная — это узел в графе; позволяет легко создавать сетевые архитектуры произвольной сложности и глубины (лишь бы дифференцировались).

TensorFlow или PyTorch? В чём разница? В TensorFlow графы статические
(компилируем граф — запускаем). В PyTorch графы динамические (конструируем новый граф на лету для каждого инпута).

(компилируем граф — запускаем). На самом деле, TensorFlow поддерживает и динамические графы (eager execution). В PyTorch графы динамические (конструируем новый граф на лету для каждого инпута).

(компилируем граф — запускаем). На самом деле, TensorFlow поддерживает и динамические графы (eager execution). В PyTorch графы динамические (конструируем новый граф на лету для каждого инпута). В PyTorch удобно реализовывать и тестировать сложные архитектуры.

(компилируем граф — запускаем). На самом деле, TensorFlow поддерживает и динамические графы (eager execution). Keras: удобный враппер для типовых задач и быстрого прототипирования. В PyTorch графы динамические (конструируем новый граф на лету для каждого инпута). В PyTorch удобно реализовывать и тестировать сложные архитектуры. AllenNLP: удобный враппер для NLP-задач.

(компилируем граф — запускаем). На самом деле, TensorFlow поддерживает и динамические графы (eager execution). Keras: удобный враппер для типовых задач и быстрого прототипирования. В PyTorch графы динамические (конструируем новый граф на лету для каждого инпута). В PyTorch удобно реализовывать и тестировать сложные архитектуры. AllenNLP: удобный враппер для NLP-задач. Оба фреймворка вполне готовы для промышленного применения, используйте то, на чём уже пишете.

Take-home message #4 Фреймворки для NLP+DL: выбор стоит между PyTorch
и TensorFlow. И оба хороши.

Что почитать? Йоав Голдберг: Neural Network Methods for Natural Language
Processing (Morgan & Claypool Publishers, 2017). Блог Себастьяна Рудера (http://ruder.io/)

Вопросы? Нейронные сети в обработке текста: хайп или всерьёз и
надолго? Андрей Кутузов ([email protected]) Language Technology Group, University of Oslo https://rusvectores.org

CodeFest 2019. Андрей Кутузов (Университет Осло...

CodeFest 2019. Андрей Кутузов (Университет Осло) — Нейронные сети в обработке текста: хайп или всерьёз и надолго

More Decks by CodeFest

Other Decks in Technology

Featured

Transcript