Петр Петрович) • ORGANIZATION (Яндекс, Google) • ADDRESS(ул Красивых молдавских партизан дом 9) ◦ COUNTRY (Россия, Белоруссия) ◦ STATE (Техас, Аризона) ◦ CITY (Нижний Новгород, Москва) ◦ STREET (Ленина, 1905-го года)
- 80% всех ресторанов) 2. restoran.su (второй по популярности агрегатор - еще 10%) 3. mcdrummond.ru (крупная сеть общепита с точками по всей строне ~1%) 4. cafe-gavgav.ru (еще одна крупная сеть ~0.5%) 5. bigburger.ru (конкретное заведение ~ 0.00001%) 6. ...
телефон • FAX - факс • HOURS - часы работы • STREET - улица • CITY - город • STATE - штат • ZIPCODE - зипкод (90210) • COUNTRY - страна • EMAIL • PER - человек • FUNC - роль или должность (синьор девелопер) • SUBJ - отдел (Бухгалтерия, Продажи, HR)
средних предприятий, работающих на территории США, Великобритании или Канады. Для каждого сохранена главная страница и разделы "contact", "locations", "about", "team" • webstruct_data/corpus/us_contact_pages/ HTML страницы, собранные из СЕРПов Google по запросам 'contact us <organization_type> usa', где <business type> это 'restaurant', 'zoo', 'lawyer', 'car rental', 'church', 'clinic', 'pet store', 'plumber', 'bank', и т.д. • webstruct_data/corpus/random_pages/
и т.д. • Словарные признаки - входит в название словарной статьи, первое слово названия словарной статьи и т.д. • Шаблонные признаки - выглядит как email, как дата, как месяц, как день недели и т.д. • HTML признаки - тэг в котором встретилось, расположено на границе тэга, размер блока текста тэга • Всё вышеперечисленное для соседних слов