Upgrade to Pro — share decks privately, control downloads, hide ads and more …

webstruct набор инструментов для извлечения именных групп

webstruct набор инструментов для извлечения именных групп

Vostretsov Nikita

March 17, 2018
Tweet

Other Decks in Programming

Transcript

  1. Часто используемые именные группы • PERSON (Иванов Иван Иванович, Петров

    Петр Петрович) • ORGANIZATION (Яндекс, Google) • ADDRESS(ул Красивых молдавских партизан дом 9) ◦ COUNTRY (Россия, Белоруссия) ◦ STATE (Техас, Аризона) ◦ CITY (Нижний Новгород, Москва) ◦ STREET (Ленина, 1905-го года)
  2. Не так часто используемые именные группы • SUPERPERSON (Супермен, Спайдермен)

    • PYLIB (webstruct, scrapy) • MLPAPER (Accelerated Gradient Boosting, Overcoming catastrophic forgetting in neural networks) • ...
  3. Сложности ООО “Ромашка” ресторан “Плакучая Ива” Ростова-Щорс Фрума Ефимовна Тимирязев

    - русский естествоиспытатель, специалист по физиологии растений. (PERSON) VS Митап прошел на улице Тимирязева. (STREET)
  4. Собираем данные по ресторанам 1. restoran.ru (первый по популярности агрегатор

    - 80% всех ресторанов) 2. restoran.su (второй по популярности агрегатор - еще 10%) 3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%) 4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%) 5. bigburger.ru (конкретное заведение ~ 0.00001%) 6. ...
  5. Именные группы • ORG - название организаций • TEL -

    телефон • FAX - факс • HOURS - часы работы • STREET - улица • CITY - город • STATE - штат • ZIPCODE - зипкод (90210) • COUNTRY - страна • EMAIL • PER - человек • FUNC - роль или должность (синьор девелопер) • SUBJ - отдел (Бухгалтерия, Продажи, HR)
  6. Корпусы в комплекте • webstruct_data/corpus/business_pages/ HTML страницы сайтов малых и

    средних предприятий, работающих на территории США, Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact", "locations", "about", "team" • webstruct_data/corpus/us_contact_pages/ HTML страницы, собранные из СЕРПов Google по запросам 'contact us <organization_type> usa', где <business type> это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store', 'plumber', 'bank', и т.д. • webstruct_data/corpus/random_pages/
  7. Модель работает? Тэг Точность Полнота f1-мера Количество B-CITY 0.657 0.614

    0.635 1560 I-CITY 0.603 0.706 0.651 476 B-COUNTRY 0.791 0.479 0.597 434 I-COUNTRY 0.936 0.657 0.772 134 B-PER 0.761 0.210 0.329 940 I-PER 0.723 0.248 0.370 829
  8. BIO - BEGIN, INSIDE, OUTSIDE John Lives in New York

    and works for the European Union B-PER O O B-CITY I-CITY O O O O B-ORG I-ORG
  9. Используемые признаки • Текстовые признаки - слово, префикс, суффикс, капитализация

    и т.д. • Словарные признаки - входит в название словарной статьи, первое слово названия словарной статьи и т.д. • Шаблонные признаки - выглядит как email, как дата, как месяц, как день недели и т.д. • HTML признаки - тэг в котором встретилось, расположено на границе тэга, размер блока текста тэга • Всё вышеперечисленное для соседних слов