Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

Пётр Ермаков (Lamoda / Datagym) @ Moscow Python №72

"Большой объем информации в интернете хранится в текстах: новости, комментарии, сообщения и даже вакансии. В докладе мы рассмотрим набор рецептов по анализу текста на Python не углубляясь в теорию. Возможно, рецепты вдохновят вас узнать про лежащие в основе методы больше, но в любом случае сразу после доклада у вас будет понимание, как применять полученные сниппеты у себя в работе".

Видео: http://www.moscowpython.ru/meetup/72/nlp-cookbook/

Moscow Python Meetup

January 30, 2020
Tweet

More Decks by Moscow Python Meetup

Other Decks in Programming

Transcript

  1. NLP cookbook
    Петр Ермаков / DataGym.ru

    View full-size slide

  2. О себе
    • Петр Ермаков
    • https://ermakovpetr.ru
    • Founder @ DataGym.ru
    • Lamoda, ex-mail.ru, ex-hh.ru
    • t.me/PowerOfData
    • dscast.ru

    View full-size slide

  3. Agenda
    • Сравнение текстов
    • Лемматизация
    • Орфография
    • Word2Vec
    • Тематическое моделирование
    • Выделение сущностей

    View full-size slide

  4. Мама мыла раму

    View full-size slide

  5. Мама мыла раму

    View full-size slide

  6. Мама мыла раму
    \u041c\u0430\u043c\u0430
    \u043c\u044b\u043b\u0430
    \u0440\u0430\u043c\u0443

    View full-size slide

  7. Морфология

    View full-size slide

  8. Морфология

    View full-size slide

  9. Задача: сравнение текстов
    TEXT-01 TEXT-02 TEXT-03

    View full-size slide

  10. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 13

    View full-size slide

  11. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 13

    View full-size slide

  12. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 113

    View full-size slide

  13. Вектор из текста

    View full-size slide

  14. Bag-Of-Words

    View full-size slide

  15. CountVectorizer

    View full-size slide

  16. Bag-Of-Words
    Кошка
    Кошку ≠

    View full-size slide

  17. Стемминг
    Кошка
    Кошку =

    View full-size slide

  18. Лемматизация
    https://github.com/nlpub/pymystem3
    https://github.com/kmike/pymorphy2

    View full-size slide

  19. Лемматизация

    View full-size slide

  20. Лемматизация

    View full-size slide

  21. Стекло

    View full-size slide

  22. Эти типы стали есть в
    прокатном цехе

    View full-size slide

  23. Три
    самых частых
    подряд идущих
    прилагательных*

    View full-size slide

  24. Российские
    железные
    дороги

    View full-size slide

  25. Арфаграфия
    https://github.com/oriontvv/pyaspeller

    View full-size slide

  26. Расстояние Левенштейна
    • Вставка
    • Удаление
    • Замена
    • Перестановки*

    View full-size slide

  27. Расстояние Левенштейна
    https://github.com/life4/textdistance

    View full-size slide

  28. Лойс
    Павел Калайдин, DataFest

    View full-size slide

  29. Лойс
    • годно, лойс
    Павел Калайдин, DataFest

    View full-size slide

  30. Лойс
    • годно, лойс
    • лойс за песню
    • из принципа не поставлю лойс
    • взаимные лойсы
    • лойс если не согласен
    Павел Калайдин, DataFest

    View full-size slide

  31. Кек
    Павел Калайдин, DataFest

    View full-size slide

  32. Кек
    • кек, что ли?
    Павел Калайдин, DataFest

    View full-size slide

  33. Кек
    • кек, что ли?
    • кек))))))
    • ну ты кек
    Павел Калайдин, DataFest

    View full-size slide

  34. Павел Калайдин, DataFest

    View full-size slide

  35. Павел Калайдин, DataFest

    View full-size slide

  36. Павел Калайдин, DataFest

    View full-size slide

  37. Анафора
    Купил телефон, но он мне не понравился и я сдал его назад.

    View full-size slide

  38. Анафора

    View full-size slide

  39. pyLDAvis
    https://github.com/bmabey/pyLDAvis

    View full-size slide

  40. pyLDAvis
    https://github.com/bmabey/pyLDAvis

    View full-size slide

  41. Синтаксический анализ
    https://github.com/ufal/udpipe
    Гло́ кая ку́здра ште́ко будлану́ла бо́ кра и курдя́чит бокрёнка

    View full-size slide

  42. Синтаксический анализ
    https://github.com/ufal/udpipe

    View full-size slide

  43. Разметка
    https://github.com/agermanidis/pigeon

    View full-size slide

  44. natasha
    https://github.com/natasha/natasha

    View full-size slide

  45. natasha
    https://github.com/natasha/natasha

    View full-size slide

  46. Тамада хороший
    И конкурсы интересные

    View full-size slide

  47. Тексты это ❣️

    View full-size slide

  48. Тексты это ❣️

    View full-size slide

  49. Тексты это ❣️

    View full-size slide

  50. + bonus
    Xeon E5 2678 V3 (бу), 128 (4x32) GB DDR3
    http://bit.ly/ali_server

    View full-size slide

  51. + bonus
    Xeon E5 2678 V3 (бу), 128 (4x32) GB DDR3
    http://bit.ly/ali_server

    View full-size slide

  52. DataGym
    Тренируем ваши знания Data Science

    View full-size slide

  53. pydata.moscow
    1 февраля

    View full-size slide

  54. Спасибо
    • https://ermakovpetr.ru
    • DataGym.ru
    • t.me/PowerOfData
    • dscast.ru

    View full-size slide