Pro Yearly is on sale from $80 to $50! »

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

NLP cookbook: анализируем тексты на Python с минимальными знаниями о машинном обучении

Пётр Ермаков (Lamoda / Datagym) @ Moscow Python №72

"Большой объем информации в интернете хранится в текстах: новости, комментарии, сообщения и даже вакансии. В докладе мы рассмотрим набор рецептов по анализу текста на Python не углубляясь в теорию. Возможно, рецепты вдохновят вас узнать про лежащие в основе методы больше, но в любом случае сразу после доклада у вас будет понимание, как применять полученные сниппеты у себя в работе".

Видео: http://www.moscowpython.ru/meetup/72/nlp-cookbook/

53b0434aded1fb944ec3037c382158c1?s=128

Moscow Python Meetup

January 30, 2020
Tweet

Transcript

  1. NLP cookbook Петр Ермаков / DataGym.ru

  2. О себе • Петр Ермаков • https://ermakovpetr.ru • Founder @

    DataGym.ru • Lamoda, ex-mail.ru, ex-hh.ru • t.me/PowerOfData • dscast.ru
  3. Agenda • Сравнение текстов • Лемматизация • Орфография • Word2Vec

    • Тематическое моделирование • Выделение сущностей
  4. Мама мыла раму

  5. Мама мыла раму

  6. Мама мыла раму \u041c\u0430\u043c\u0430 \u043c\u044b\u043b\u0430 \u0440\u0430\u043c\u0443

  7. Язык

  8. Морфология

  9. Морфология

  10. Задача: сравнение текстов TEXT-01 TEXT-02 TEXT-03

  11. Задача: сравнение текстов TEXT-03 TEXT-01 TEXT-02 CAT DOG 10 12

    13
  12. Задача: сравнение текстов TEXT-03 TEXT-01 TEXT-02 CAT DOG 10 12

    13
  13. Задача: сравнение текстов TEXT-03 TEXT-01 TEXT-02 CAT DOG 10 12

    113
  14. Вектор из текста

  15. Bag-Of-Words

  16. CountVectorizer

  17. Bag-Of-Words Кошка Кошку ≠

  18. Стемминг Кошка Кошку =

  19. Лемматизация https://github.com/nlpub/pymystem3 https://github.com/kmike/pymorphy2

  20. Лемматизация

  21. Лемматизация

  22. Стекло

  23. Эти типы стали есть в прокатном цехе

  24. Три самых частых подряд идущих прилагательных*

  25. Российские железные дороги

  26. Ягуар

  27. Арфаграфия https://github.com/oriontvv/pyaspeller

  28. Расстояние Левенштейна • Вставка • Удаление • Замена • Перестановки*

  29. Расстояние Левенштейна https://github.com/life4/textdistance

  30. None
  31. Лойс Павел Калайдин, DataFest

  32. Лойс • годно, лойс Павел Калайдин, DataFest

  33. Лойс • годно, лойс • лойс за песню • из

    принципа не поставлю лойс • взаимные лойсы • лойс если не согласен Павел Калайдин, DataFest
  34. Кек Павел Калайдин, DataFest

  35. Кек • кек, что ли? Павел Калайдин, DataFest

  36. Кек • кек, что ли? • кек)))))) • ну ты

    кек Павел Калайдин, DataFest
  37. Word2Vec

  38. Word2Vec

  39. Павел Калайдин, DataFest

  40. Павел Калайдин, DataFest

  41. Павел Калайдин, DataFest

  42. Word2Vec

  43. Анафора Купил телефон, но он мне не понравился и я

    сдал его назад.
  44. Анафора

  45. pyLDAvis https://github.com/bmabey/pyLDAvis

  46. pyLDAvis https://github.com/bmabey/pyLDAvis

  47. Синтаксический анализ https://github.com/ufal/udpipe Гло́ кая ку́здра ште́ко будлану́ла бо́ кра

    и курдя́чит бокрёнка
  48. Синтаксический анализ https://github.com/ufal/udpipe

  49. Разметка https://github.com/agermanidis/pigeon

  50. natasha https://github.com/natasha/natasha

  51. natasha https://github.com/natasha/natasha

  52. Тамада хороший И конкурсы интересные

  53. None
  54. None
  55. None
  56. Тексты это ❣️

  57. Тексты это ❣️

  58. Тексты это ❣️

  59. + bonus Xeon E5 2678 V3 (бу), 128 (4x32) GB

    DDR3 http://bit.ly/ali_server
  60. + bonus Xeon E5 2678 V3 (бу), 128 (4x32) GB

    DDR3 http://bit.ly/ali_server
  61. DataGym Тренируем ваши знания Data Science

  62. ODS.ai

  63. pydata.moscow 1 февраля

  64. Спасибо • https://ermakovpetr.ru • DataGym.ru • t.me/PowerOfData • dscast.ru