Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

Пётр Ермаков (Lamoda / Datagym) @ Moscow Python №72

"Большой объем информации в интернете хранится в текстах: новости, комментарии, сообщения и даже вакансии. В докладе мы рассмотрим набор рецептов по анализу текста на Python не углубляясь в теорию. Возможно, рецепты вдохновят вас узнать про лежащие в основе методы больше, но в любом случае сразу после доклада у вас будет понимание, как применять полученные сниппеты у себя в работе".

Видео: http://www.moscowpython.ru/meetup/72/nlp-cookbook/

Moscow Python Meetup
PRO

January 30, 2020
Tweet

More Decks by Moscow Python Meetup

Other Decks in Programming

Transcript

  1. NLP cookbook
    Петр Ермаков / DataGym.ru

    View Slide

  2. О себе
    • Петр Ермаков
    • https://ermakovpetr.ru
    • Founder @ DataGym.ru
    • Lamoda, ex-mail.ru, ex-hh.ru
    • t.me/PowerOfData
    • dscast.ru

    View Slide

  3. Agenda
    • Сравнение текстов
    • Лемматизация
    • Орфография
    • Word2Vec
    • Тематическое моделирование
    • Выделение сущностей

    View Slide

  4. Мама мыла раму

    View Slide

  5. Мама мыла раму

    View Slide

  6. Мама мыла раму
    \u041c\u0430\u043c\u0430
    \u043c\u044b\u043b\u0430
    \u0440\u0430\u043c\u0443

    View Slide

  7. Язык

    View Slide

  8. Морфология

    View Slide

  9. Морфология

    View Slide

  10. Задача: сравнение текстов
    TEXT-01 TEXT-02 TEXT-03

    View Slide

  11. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 13

    View Slide

  12. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 13

    View Slide

  13. Задача: сравнение текстов
    TEXT-03
    TEXT-01
    TEXT-02
    CAT
    DOG
    10
    12 113

    View Slide

  14. Вектор из текста

    View Slide

  15. Bag-Of-Words

    View Slide

  16. CountVectorizer

    View Slide

  17. Bag-Of-Words
    Кошка
    Кошку ≠

    View Slide

  18. Стемминг
    Кошка
    Кошку =

    View Slide

  19. Лемматизация
    https://github.com/nlpub/pymystem3
    https://github.com/kmike/pymorphy2

    View Slide

  20. Лемматизация

    View Slide

  21. Лемматизация

    View Slide

  22. Стекло

    View Slide

  23. Эти типы стали есть в
    прокатном цехе

    View Slide

  24. Три
    самых частых
    подряд идущих
    прилагательных*

    View Slide

  25. Российские
    железные
    дороги

    View Slide

  26. Ягуар

    View Slide

  27. Арфаграфия
    https://github.com/oriontvv/pyaspeller

    View Slide

  28. Расстояние Левенштейна
    • Вставка
    • Удаление
    • Замена
    • Перестановки*

    View Slide

  29. Расстояние Левенштейна
    https://github.com/life4/textdistance

    View Slide

  30. View Slide

  31. Лойс
    Павел Калайдин, DataFest

    View Slide

  32. Лойс
    • годно, лойс
    Павел Калайдин, DataFest

    View Slide

  33. Лойс
    • годно, лойс
    • лойс за песню
    • из принципа не поставлю лойс
    • взаимные лойсы
    • лойс если не согласен
    Павел Калайдин, DataFest

    View Slide

  34. Кек
    Павел Калайдин, DataFest

    View Slide

  35. Кек
    • кек, что ли?
    Павел Калайдин, DataFest

    View Slide

  36. Кек
    • кек, что ли?
    • кек))))))
    • ну ты кек
    Павел Калайдин, DataFest

    View Slide

  37. Word2Vec

    View Slide

  38. Word2Vec

    View Slide

  39. Павел Калайдин, DataFest

    View Slide

  40. Павел Калайдин, DataFest

    View Slide

  41. Павел Калайдин, DataFest

    View Slide

  42. Word2Vec

    View Slide

  43. Анафора
    Купил телефон, но он мне не понравился и я сдал его назад.

    View Slide

  44. Анафора

    View Slide

  45. pyLDAvis
    https://github.com/bmabey/pyLDAvis

    View Slide

  46. pyLDAvis
    https://github.com/bmabey/pyLDAvis

    View Slide

  47. Синтаксический анализ
    https://github.com/ufal/udpipe
    Гло́ кая ку́здра ште́ко будлану́ла бо́ кра и курдя́чит бокрёнка

    View Slide

  48. Синтаксический анализ
    https://github.com/ufal/udpipe

    View Slide

  49. Разметка
    https://github.com/agermanidis/pigeon

    View Slide

  50. natasha
    https://github.com/natasha/natasha

    View Slide

  51. natasha
    https://github.com/natasha/natasha

    View Slide

  52. Тамада хороший
    И конкурсы интересные

    View Slide

  53. View Slide

  54. View Slide

  55. View Slide

  56. Тексты это ❣️

    View Slide

  57. Тексты это ❣️

    View Slide

  58. Тексты это ❣️

    View Slide

  59. + bonus
    Xeon E5 2678 V3 (бу), 128 (4x32) GB DDR3
    http://bit.ly/ali_server

    View Slide

  60. + bonus
    Xeon E5 2678 V3 (бу), 128 (4x32) GB DDR3
    http://bit.ly/ali_server

    View Slide

  61. DataGym
    Тренируем ваши знания Data Science

    View Slide

  62. ODS.ai

    View Slide

  63. pydata.moscow
    1 февраля

    View Slide

  64. Спасибо
    • https://ermakovpetr.ru
    • DataGym.ru
    • t.me/PowerOfData
    • dscast.ru

    View Slide