Pro Yearly is on sale from $80 to $50! »

webstruct набор инструментов для извлечения именных групп

webstruct набор инструментов для извлечения именных групп

5682179f6924a43d371803f892fc8265?s=128

Vostretsov Nikita

March 17, 2018
Tweet

Transcript

  1. webstruct набор инструментов для извлечения именных групп из HTML

  2. О докладчике Вострецов Никита • https://github.com/whalebot-helmsman • https://opendatascience.slack.com/ @helmsman •

    https://www.linkedin.com/in/nikita-vostretsov-a6220722/ • whalebot.helmsman@gmail.com
  3. Часто используемые именные группы • PERSON (Иванов Иван Иванович, Петров

    Петр Петрович) • ORGANIZATION (Яндекс, Google) • ADDRESS(ул Красивых молдавских партизан дом 9) ◦ COUNTRY (Россия, Белоруссия) ◦ STATE (Техас, Аризона) ◦ CITY (Нижний Новгород, Москва) ◦ STREET (Ленина, 1905-го года)
  4. Не так часто используемые именные группы • SUPERPERSON (Супермен, Спайдермен)

    • PYLIB (webstruct, scrapy) • MLPAPER (Accelerated Gradient Boosting, Overcoming catastrophic forgetting in neural networks) • ...
  5. Сложности ООО “Ромашка” ресторан “Плакучая Ива” Ростова-Щорс Фрума Ефимовна Тимирязев

    - русский естествоиспытатель, специалист по физиологии растений. (PERSON) VS Митап прошел на улице Тимирязева. (STREET)
  6. Собираем данные по ресторанам 1. restoran.ru (первый по популярности агрегатор

    - 80% всех ресторанов) 2. restoran.su (второй по популярности агрегатор - еще 10%) 3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%) 4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%) 5. bigburger.ru (конкретное заведение ~ 0.00001%) 6. ...
  7. Инструменты • scrapy https://scrapy.org/ • scrapy cloud https://scrapinghub.com/scrapy-cloud • portia

    https://scrapinghub.com/portia
  8. Инструменты 2.0 • frontera https://github.com/scrapinghub/frontera • webstruct https://github.com/scrapinghub/webstruct

  9. Из HTML

  10. https://github.com/scrapinghub/webstruct /tree/master/example

  11. Именные группы • ORG - название организаций • TEL -

    телефон • FAX - факс • HOURS - часы работы • STREET - улица • CITY - город • STATE - штат • ZIPCODE - зипкод (90210) • COUNTRY - страна • EMAIL • PER - человек • FUNC - роль или должность (синьор девелопер) • SUBJ - отдел (Бухгалтерия, Продажи, HR)
  12. Корпусы в комплекте • webstruct_data/corpus/business_pages/ HTML страницы сайтов малых и

    средних предприятий, работающих на территории США, Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact", "locations", "about", "team" • webstruct_data/corpus/us_contact_pages/ HTML страницы, собранные из СЕРПов Google по запросам 'contact us <organization_type> usa', где <business type> это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store', 'plumber', 'bank', и т.д. • webstruct_data/corpus/random_pages/
  13. Газетиры(словари) • Страны http://www.opengeocode.org/download/countrynames.txt • Города http://download.geonames.org/export/dump/cities1000.zip

  14. Инструменты разметки • WebAnnotator https://github.com/xtannier/WebAnnotator и http://webstruct.readthedocs.io/en/latest/tutorial.html#get-annotated-data • GATE https://gate.ac.uk/

  15. Модель работает? Тэг Точность Полнота f1-мера Количество B-CITY 0.657 0.614

    0.635 1560 I-CITY 0.603 0.706 0.651 476 B-COUNTRY 0.791 0.479 0.597 434 I-COUNTRY 0.936 0.657 0.772 134 B-PER 0.761 0.210 0.329 940 I-PER 0.723 0.248 0.370 829
  16. BIO - BEGIN, INSIDE, OUTSIDE John Lives in New York

    and works for the European Union B-PER O O B-CITY I-CITY O O O O B-ORG I-ORG
  17. Логистическая регрессия

  18. “An Introduction to Conditional Random Fields” By Charles Sutton and

    Andrew McCallum
  19. eli5 на помощь

  20. Используемые признаки • Текстовые признаки - слово, префикс, суффикс, капитализация

    и т.д. • Словарные признаки - входит в название словарной статьи, первое слово названия словарной статьи и т.д. • Шаблонные признаки - выглядит как email, как дата, как месяц, как день недели и т.д. • HTML признаки - тэг в котором встретилось, расположено на границе тэга, размер блока текста тэга • Всё вышеперечисленное для соседних слов
  21. Направление дальнейшего развития

  22. ВОПРОСЫ?