Upgrade to Pro — share decks privately, control downloads, hide ads and more …

webstruct набор инструментов для извлечения именных групп

webstruct набор инструментов для извлечения именных групп

Vostretsov Nikita

March 17, 2018
Tweet

Other Decks in Programming

Transcript

  1. webstruct набор инструментов для извлечения именных групп из HTML

  2. О докладчике Вострецов Никита • https://github.com/whalebot-helmsman • https://opendatascience.slack.com/ @helmsman •

    https://www.linkedin.com/in/nikita-vostretsov-a6220722/ • [email protected]
  3. Часто используемые именные группы • PERSON (Иванов Иван Иванович, Петров

    Петр Петрович) • ORGANIZATION (Яндекс, Google) • ADDRESS(ул Красивых молдавских партизан дом 9) ◦ COUNTRY (Россия, Белоруссия) ◦ STATE (Техас, Аризона) ◦ CITY (Нижний Новгород, Москва) ◦ STREET (Ленина, 1905-го года)
  4. Не так часто используемые именные группы • SUPERPERSON (Супермен, Спайдермен)

    • PYLIB (webstruct, scrapy) • MLPAPER (Accelerated Gradient Boosting, Overcoming catastrophic forgetting in neural networks) • ...
  5. Сложности ООО “Ромашка” ресторан “Плакучая Ива” Ростова-Щорс Фрума Ефимовна Тимирязев

    - русский естествоиспытатель, специалист по физиологии растений. (PERSON) VS Митап прошел на улице Тимирязева. (STREET)
  6. Собираем данные по ресторанам 1. restoran.ru (первый по популярности агрегатор

    - 80% всех ресторанов) 2. restoran.su (второй по популярности агрегатор - еще 10%) 3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%) 4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%) 5. bigburger.ru (конкретное заведение ~ 0.00001%) 6. ...
  7. Инструменты • scrapy https://scrapy.org/ • scrapy cloud https://scrapinghub.com/scrapy-cloud • portia

    https://scrapinghub.com/portia
  8. Инструменты 2.0 • frontera https://github.com/scrapinghub/frontera • webstruct https://github.com/scrapinghub/webstruct

  9. Из HTML

  10. https://github.com/scrapinghub/webstruct /tree/master/example

  11. Именные группы • ORG - название организаций • TEL -

    телефон • FAX - факс • HOURS - часы работы • STREET - улица • CITY - город • STATE - штат • ZIPCODE - зипкод (90210) • COUNTRY - страна • EMAIL • PER - человек • FUNC - роль или должность (синьор девелопер) • SUBJ - отдел (Бухгалтерия, Продажи, HR)
  12. Корпусы в комплекте • webstruct_data/corpus/business_pages/ HTML страницы сайтов малых и

    средних предприятий, работающих на территории США, Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact", "locations", "about", "team" • webstruct_data/corpus/us_contact_pages/ HTML страницы, собранные из СЕРПов Google по запросам 'contact us <organization_type> usa', где <business type> это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store', 'plumber', 'bank', и т.д. • webstruct_data/corpus/random_pages/
  13. Газетиры(словари) • Страны http://www.opengeocode.org/download/countrynames.txt • Города http://download.geonames.org/export/dump/cities1000.zip

  14. Инструменты разметки • WebAnnotator https://github.com/xtannier/WebAnnotator и http://webstruct.readthedocs.io/en/latest/tutorial.html#get-annotated-data • GATE https://gate.ac.uk/

  15. Модель работает? Тэг Точность Полнота f1-мера Количество B-CITY 0.657 0.614

    0.635 1560 I-CITY 0.603 0.706 0.651 476 B-COUNTRY 0.791 0.479 0.597 434 I-COUNTRY 0.936 0.657 0.772 134 B-PER 0.761 0.210 0.329 940 I-PER 0.723 0.248 0.370 829
  16. BIO - BEGIN, INSIDE, OUTSIDE John Lives in New York

    and works for the European Union B-PER O O B-CITY I-CITY O O O O B-ORG I-ORG
  17. Логистическая регрессия

  18. “An Introduction to Conditional Random Fields” By Charles Sutton and

    Andrew McCallum
  19. eli5 на помощь

  20. Используемые признаки • Текстовые признаки - слово, префикс, суффикс, капитализация

    и т.д. • Словарные признаки - входит в название словарной статьи, первое слово названия словарной статьи и т.д. • Шаблонные признаки - выглядит как email, как дата, как месяц, как день недели и т.д. • HTML признаки - тэг в котором встретилось, расположено на границе тэга, размер блока текста тэга • Всё вышеперечисленное для соседних слов
  21. Направление дальнейшего развития

  22. ВОПРОСЫ?