https://2017.codefest.ru/lecture/1173
Основа городского информационного сервиса - полная и актуальная информация о разнообразных фирмах, госучреждениях и прочих организациях. Сейчас в 2ГИС вся эта информация собирается нашими специалистами вручную. Но что, если на помощь живым людям придёт не знающий усталости робот? А поскольку практически все городские организации имеют свой веб-сайт или хотя бы страничку в соцсети, то такому роботу не придётся ходить по улицам или ездить на троллейбусе. Ему достаточно пройти по интернету в поисках корпоративных сайтов и прочитать там разные факты о фирмах: как называются, где находятся, когда работают… Однако веб-дизайнеры - люди творческие, и частенько один созданный ими сайт не похож на другой. В подобных условиях для извлечения фактов из корпоративных сайтов уже не обойтись одними лишь регулярками и XPath-выражениями. В своём докладе я расскажу, как мы использовали методы машинного обучения и компьютерной лингвистики для разработки такого робота, который умел бы понимать текстовый контент любых корпоративных сайтов и извлекать оттуда нужную нам информацию