Upgrade to Pro — share decks privately, control downloads, hide ads and more …

webstruct набор инструментов для извлечения име...

webstruct набор инструментов для извлечения именных групп

Avatar for Vostretsov Nikita

Vostretsov Nikita

March 17, 2018
Tweet

Other Decks in Programming

Transcript

  1. Часто используемые именные группы • PERSON (Иванов Иван Иванович, Петров

    Петр Петрович) • ORGANIZATION (Яндекс, Google) • ADDRESS(ул Красивых молдавских партизан дом 9) ◦ COUNTRY (Россия, Белоруссия) ◦ STATE (Техас, Аризона) ◦ CITY (Нижний Новгород, Москва) ◦ STREET (Ленина, 1905-го года)
  2. Не так часто используемые именные группы • SUPERPERSON (Супермен, Спайдермен)

    • PYLIB (webstruct, scrapy) • MLPAPER (Accelerated Gradient Boosting, Overcoming catastrophic forgetting in neural networks) • ...
  3. Сложности ООО “Ромашка” ресторан “Плакучая Ива” Ростова-Щорс Фрума Ефимовна Тимирязев

    - русский естествоиспытатель, специалист по физиологии растений. (PERSON) VS Митап прошел на улице Тимирязева. (STREET)
  4. Собираем данные по ресторанам 1. restoran.ru (первый по популярности агрегатор

    - 80% всех ресторанов) 2. restoran.su (второй по популярности агрегатор - еще 10%) 3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%) 4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%) 5. bigburger.ru (конкретное заведение ~ 0.00001%) 6. ...
  5. Именные группы • ORG - название организаций • TEL -

    телефон • FAX - факс • HOURS - часы работы • STREET - улица • CITY - город • STATE - штат • ZIPCODE - зипкод (90210) • COUNTRY - страна • EMAIL • PER - человек • FUNC - роль или должность (синьор девелопер) • SUBJ - отдел (Бухгалтерия, Продажи, HR)
  6. Корпусы в комплекте • webstruct_data/corpus/business_pages/ HTML страницы сайтов малых и

    средних предприятий, работающих на территории США, Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact", "locations", "about", "team" • webstruct_data/corpus/us_contact_pages/ HTML страницы, собранные из СЕРПов Google по запросам 'contact us <organization_type> usa', где <business type> это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store', 'plumber', 'bank', и т.д. • webstruct_data/corpus/random_pages/
  7. Модель работает? Тэг Точность Полнота f1-мера Количество B-CITY 0.657 0.614

    0.635 1560 I-CITY 0.603 0.706 0.651 476 B-COUNTRY 0.791 0.479 0.597 434 I-COUNTRY 0.936 0.657 0.772 134 B-PER 0.761 0.210 0.329 940 I-PER 0.723 0.248 0.370 829
  8. BIO - BEGIN, INSIDE, OUTSIDE John Lives in New York

    and works for the European Union B-PER O O B-CITY I-CITY O O O O B-ORG I-ORG
  9. Используемые признаки • Текстовые признаки - слово, префикс, суффикс, капитализация

    и т.д. • Словарные признаки - входит в название словарной статьи, первое слово названия словарной статьи и т.д. • Шаблонные признаки - выглядит как email, как дата, как месяц, как день недели и т.д. • HTML признаки - тэг в котором встретилось, расположено на границе тэга, размер блока текста тэга • Всё вышеперечисленное для соседних слов