Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Методы и алгоритмы решения задач классификации и рекомендации текстов​

Методы и алгоритмы решения задач классификации и рекомендации текстов​

Виталий Зайчук (А-нью Технолоджи, Старший разработчик) @ Moscow Python Meetup 62

"Обработка естественного языка (NLP) — активно развивающаяся научная дисциплина, занимающаяся поиском смысла и обучением на основании текстовых данных. Неважно, кто вы — опытный Data Scientist, или начинающий Python разработчик — вы всегда можете использовать текстовые данные для того, чтобы усовершенствовать продукт над которым работаете и расширить его функциональность.

В докладе, на примере сайта кулинарных рецептов, будут описаны шаги преобразования и очистки данных. Исследованы методы классификации и определения сходства текстов на основе: Mean word2vec, Tf-idf weighted word2vec, Doc2vec, fastText, Word Mover’s Distance. Сравнение качества итоговых моделей. Также поговорим про внедрения в проект моделей классификации и рекомендаций".

Видео: http://www.moscowpython.ru/meetup/62/text-classifying/

Moscow Python Meetup

December 27, 2018
Tweet

More Decks by Moscow Python Meetup

Other Decks in Programming

Transcript

  1. Предыстория...

    View full-size slide





  2. View full-size slide

  3. from gensim.models import Word2Vec

    View full-size slide

  4. from gensim.models.doc2vec import Doc2Vec

    View full-size slide

  5. -
    -
    -
    from gensim.similarities import WmdSimilarity

    View full-size slide