Upgrade to Pro — share decks privately, control downloads, hide ads and more …

webstruct набор инструментов для извлечения именных групп

webstruct набор инструментов для извлечения именных групп

Vostretsov Nikita

March 17, 2018
Tweet

Other Decks in Programming

Transcript

  1. webstruct
    набор инструментов для извлечения именных
    групп из HTML

    View full-size slide

  2. О докладчике
    Вострецов Никита
    ● https://github.com/whalebot-helmsman
    ● https://opendatascience.slack.com/ @helmsman
    ● https://www.linkedin.com/in/nikita-vostretsov-a6220722/
    [email protected]

    View full-size slide

  3. Часто используемые именные группы
    ● PERSON (Иванов Иван Иванович, Петров Петр Петрович)
    ● ORGANIZATION (Яндекс, Google)
    ● ADDRESS(ул Красивых молдавских партизан дом 9)
    ○ COUNTRY (Россия, Белоруссия)
    ○ STATE (Техас, Аризона)
    ○ CITY (Нижний Новгород, Москва)
    ○ STREET (Ленина, 1905-го года)

    View full-size slide

  4. Не так часто используемые именные группы
    ● SUPERPERSON (Супермен, Спайдермен)
    ● PYLIB (webstruct, scrapy)
    ● MLPAPER (Accelerated Gradient Boosting, Overcoming catastrophic
    forgetting in neural networks)
    ● ...

    View full-size slide

  5. Сложности
    ООО “Ромашка”
    ресторан “Плакучая Ива”
    Ростова-Щорс Фрума Ефимовна
    Тимирязев - русский естествоиспытатель,
    специалист по физиологии растений.
    (PERSON)
    VS
    Митап прошел на улице Тимирязева.
    (STREET)

    View full-size slide

  6. Собираем данные по ресторанам
    1. restoran.ru (первый по популярности агрегатор - 80% всех ресторанов)
    2. restoran.su (второй по популярности агрегатор - еще 10%)
    3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%)
    4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%)
    5. bigburger.ru (конкретное заведение ~ 0.00001%)
    6. ...

    View full-size slide

  7. Инструменты
    ● scrapy https://scrapy.org/
    ● scrapy cloud https://scrapinghub.com/scrapy-cloud
    ● portia https://scrapinghub.com/portia

    View full-size slide

  8. Инструменты 2.0
    ● frontera https://github.com/scrapinghub/frontera
    ● webstruct https://github.com/scrapinghub/webstruct

    View full-size slide

  9. https://github.com/scrapinghub/webstruct
    /tree/master/example

    View full-size slide

  10. Именные группы
    ● ORG - название организаций
    ● TEL - телефон
    ● FAX - факс
    ● HOURS - часы работы
    ● STREET - улица
    ● CITY - город
    ● STATE - штат
    ● ZIPCODE - зипкод (90210)
    ● COUNTRY - страна
    ● EMAIL
    ● PER - человек
    ● FUNC - роль или должность (синьор девелопер)
    ● SUBJ - отдел (Бухгалтерия, Продажи, HR)

    View full-size slide

  11. Корпусы в комплекте
    ● webstruct_data/corpus/business_pages/
    HTML страницы сайтов малых и средних предприятий, работающих на территории США,
    Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact",
    "locations", "about", "team"
    ● webstruct_data/corpus/us_contact_pages/
    HTML страницы, собранные из СЕРПов Google по запросам 'contact us
    usa', где это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store',
    'plumber', 'bank', и т.д.
    ● webstruct_data/corpus/random_pages/

    View full-size slide

  12. Газетиры(словари)
    ● Страны http://www.opengeocode.org/download/countrynames.txt
    ● Города http://download.geonames.org/export/dump/cities1000.zip

    View full-size slide

  13. Инструменты разметки
    ● WebAnnotator https://github.com/xtannier/WebAnnotator и
    http://webstruct.readthedocs.io/en/latest/tutorial.html#get-annotated-data
    ● GATE https://gate.ac.uk/

    View full-size slide

  14. Модель работает?
    Тэг Точность Полнота f1-мера Количество
    B-CITY 0.657 0.614 0.635 1560
    I-CITY 0.603 0.706 0.651 476
    B-COUNTRY 0.791 0.479 0.597 434
    I-COUNTRY 0.936 0.657 0.772 134
    B-PER 0.761 0.210 0.329 940
    I-PER 0.723 0.248 0.370 829

    View full-size slide

  15. BIO - BEGIN, INSIDE, OUTSIDE
    John Lives in New York and works for the European Union
    B-PER O O B-CITY I-CITY O O O O B-ORG I-ORG

    View full-size slide

  16. Логистическая регрессия

    View full-size slide

  17. “An Introduction to Conditional Random Fields” By Charles Sutton and Andrew McCallum

    View full-size slide

  18. eli5 на помощь

    View full-size slide

  19. Используемые признаки
    ● Текстовые признаки - слово, префикс, суффикс, капитализация и т.д.
    ● Словарные признаки - входит в название словарной статьи, первое
    слово названия словарной статьи и т.д.
    ● Шаблонные признаки - выглядит как email, как дата, как месяц, как день
    недели и т.д.
    ● HTML признаки - тэг в котором встретилось, расположено на границе
    тэга, размер блока текста тэга
    ● Всё вышеперечисленное для соседних слов

    View full-size slide

  20. Направление дальнейшего развития

    View full-size slide

  21. ВОПРОСЫ?

    View full-size slide