Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Мегапьютер-31 мая TAdviser

Avatar for Cypok13 Cypok13
June 24, 2022
370

Мегапьютер-31 мая TAdviser

Avatar for Cypok13

Cypok13

June 24, 2022
Tweet

More Decks by Cypok13

Transcript

  1. Практика интеллектуального анализа текстовых данных: ОДНА система, ДВА подхода, СТО

    задач Дмитрий Гольцов Коммерческий директор +7 (916) 111-95-49, www.megaputer.ru
  2. МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ЭТО: Извлекаем и структурируем факты из текстовых документов

    Строим модели на основе аналитики и Искусственного Интеллекта Предоставляем кластерную платформу для анализа Больших Данных ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Оцифровываем и роботизируем бизнес-процессы Поддерживаем четверть компаний из списка Fortune 100 и еще более 100 клиентов 107 разработчиков, 16 лингвистов и аналитиков, 8 кандидатов наук Член Ассоциации Разработчиков Программных Продуктов «Отечественный софт» Платформа PolyAnalyst включена в реестр Российского ПО. Свидетельство №4414 №4414
  3. ПЛАТФОРМА PolyAnalyst –ТРИ В ОДНОМ! МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ПЛАТФОРМА POLYANALYST ТРИ

    СИСТЕМЫ, КОТОРЫЕ КОМПАНИИ ОБЫЧНО ПОКУПАЮТ КАК ОТДЕЛЬНЫЕ ПРОДУКТЫ (И ДОЛГО ЗАНИМАЮТСЯ ИХ ИНТЕГРАЦИЕЙ), МЫ ОБЪЕДИНИЛИ НА ОДНОЙ ЦИФРОВОЙ ПЛАТФОРМЕ BI DATA MINING + TEXT MINING ETL
  4. ИМПОРТОЗАМЕЩЕНИЕ/ РАЗМИНИРОВАНИЕ МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ПЛАТФОРМА POLYANALYST Extract/Transform/Load ТЕКСТОВЫЙ АНАЛИЗ МАШИННОЕ

    ОБУЧЕНИЕ БИЗНЕС-АНАЛИТИКА Alteryx, Tableau Prep, Pentaho Kettle, PowerCenter, IBM InfoSphere IBM Watson (SPSS Modeler), SAS Viya, RapidMiner SAS Text Analytics, KNIME, IBM Watson Qlik, Power BI, Tableau, SAS Visual Analytics, Oracle BI PolyAnalyst включен в Единый реестр российских программ для электронных вычислительных машин и баз данных. Офисы разработки PolyAnalyst находятся в Москве и Чебоксарах. ВСЕ системные компоненты и функциональные модули - собственной разработки.
  5. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ВЫ УЖЕ ТОНЕТЕ В ТЕКСТОВЫХ ДАННЫХ?

    >100 триллионов Гигабайт Данных будет создано в мире на конец 2022 года (IDC & Statista) ИЗ НИХ 70-90% ЭТО – НЕСТРУКТУРИРОВАННЫЕ ТЕКСТОВЫЕ ДАННЫЕ Записи и протоколы call центра Отзывы, соцсети Документация: правовая, финансовая, техническая Email, гарантийные претензии, обращения Новостные сводки Данные опросов
  6. МЕТОДЫ ТЕКСТОВОГО АНАЛИЗА ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС МАШИННОЕ ОБУЧЕНИЕ ПРОИЗВОДИТЕЛЬНОСТЬ

    Справляется с анализом больших объемов данных ЭФФЕКТИВНОСТЬ Способен учитывать множество факторов при принятии решения Для качественной модели требуется очень большое количество размеченных документов. Сложно понять логику принятия решений и исправить ошибки. Преимущества Недостатки ПОДХОД НА ПРАВИЛАХ ...подлежит уплате авансом за каждый квартал. ПРАВИЛО ПОИСКА И КЛАССИФИКАЦИИ (ИСКАТЬ в пределах 4 идущих слов синонимы (ПЛАТА), за, каждый, (ПЕРИОД)) = «УСЛОВИЯ ОПЛАТЫ» ...обязуется оплачивать за каждый квартал. ПАРСИНГ СТРУКТУРЫ ДОКУМЕНТА Поиск в определенных разделах. Например, найти слово «арендатор» в заголовке. ПОИСК С УЧЕТОМ КОНТЕКСТА Возможность указать требования к совместной встречаемости слов. ТАБЛИЦЫ Работа с таблицами и их содержимым. Например, найти слово «сумма» в ячейкетаблицы. ИСПОЛЬЗОВАНИЕ СЛОВАРЕЙ Поиск синонимов и словарей выражений. Например, найти синонимы слова «оплата».
  7. КЛАССИФИКАЦИЯ ПО МСФО (IFRS) 16 ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС МСФО

    (IFRS) 16 «Аренда» внес существенные изменения в требования к бухгалтерскому учету аренды для арендаторов. ЗАКАЗЧИК ПРОБЛЕМА Компания-оператор мобильной связи, обладающая набором действующих договоров аренды под базовые станции и склады телекоммуникационного оборудования. Сжатые сроки принятия решения – около 30 дней. Некоторые договоры исключались из стандарта по условиям, которые возможно извлечь только из текста. То есть необходимо изучить содержание каждого договора. Большой корпус действующих договоров – около 50 000 многостраничных документов.
  8. RULE-BASED ДЛЯ КЛАССИФИКАЦИИ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Ручная разметка для

    машинного обучения потребовала бы слишком много времени. Применялся rule-based подход. Аналитики Мегапьютера написали правила для извлечения информации. ПРОСТОЕ ИЗВЛЕЧЕНИЕ Номер договора Наименование и представитель Арендатора Наименование и представитель Арендодателя Адрес арендуемого объекта Площадь арендуемого объекта СЛОЖНЫЕ КОНСТРУКЦИИ Срок действия договора Год и более: • 1 год • Интервал 1 мая – 1 июня • Бессрочная • Свыше года, без опции досрочного расторжения Менее года: • 11 месяцев • Интервал 1 мая – 1 апреля • Свыше года, но с опцией досрочного расторжения СТРОИТСЯ КАРТОЧКА ДОГОВОРА ДОГОВОР КЛАССИФИЦИРУЕТСЯ Бух учет по МСФО 16 Бух учет не по МСФО 16 Свыше года: Менее года:
  9. ЭФФЕКТ АВТОМАТИЗАЦИИ АНАЛИЗА ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Вместо ручной обработки

    за 8 часов 70 человеко-дней ЭКОНОМИЯ ВРЕМЕНИ АНАЛИЗА Правила написаны одним экспертом. Не привлекались ни специалисты для ручного анализа, ни разметчики и дата- инженеры для машинного обучения 1 разработчик ЭКОНОМИЯ ЧЕЛОВЕЧЕСКИХ РЕСУРСОВ Разработанный один раз сценарий анализа может использоваться регулярно ∞ ПОВТОРЯЕМОСТЬ АНАЛИЗА количество использований фактической информации из неструктурированного текста. Система на основе ИИ ТАКОГО НЕ ДАСТ. >90% ТОЧНОСТЬ ИЗВЛЕЧЕНИЯ Количество контрактов, преобразованных в текст без потери важных для учета данных >85% КАЧЕСТВО РАСПОЗНАВАНИЯ
  10. ТАМОЖЕННОЕ КОДИРОВАНИЕ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Логистическая компания оказывает таможенные

    услуги, в том числе услуги по классификации товаров по ТН ВЭД. Это десятизначный код, присваиваемый товару исходя из его характеристик. 62 02 12 XXXX ТОВАРНАЯ ГРУППА: предметы одежды ТОВАРНАЯ ПОЗИЦИЯ: пальто, накидки ТОВАРНАЯ СУБПОЗИЦИЯ: из хлопчатобумажной пряжи Проблемы классификации: Кодов много! Одних товарных групп 96. У каждой имеются позиции и субпозиции (около 5000). Это масса информации. Коды присваиваются вручную за счет навыка специалиста и на основе описания товара импортером. Код проверяется таможенным инспектором. За неправильно указанную информацию грозит штраф.
  11. АВТОМАТИЗАЦИЯ КОДИРОВАНИЯ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Задача: разработка автоматического решения

    для классификации товаров по ТН ВЭД. Формат анализируемых данных: Код ТН ВЭД Описание продукта 6404199000 Кроссовки Industries SPA Monder 94% полиамид 6% эластан Муж 44 Путем написания лингвистических правил извлечения текстовой информации данные привели к виду: Код ТН ВЭД Наименование номенклатуры Производитель Торговая марка Пол Размер Эластан Полиамид Хлопок Шерсть … 6404199000 Кроссовки Industries SPA Monder М 44 94 6 0 0 0 В процессе разработки решения были применены три аналитические методики: 3.МАШИННОЕ ОБУЧЕНИЕ RULE-BASED +
  12. РЕЗУЛЬТАТЫ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС МО + RULE-BASED: машинное обучение

    вывело правила, основываясь на которых аналитик строит классификатор в виде таксономии, который можно дописывать вручную. Плюсы Таксономия легко и быстро исправляется/дополняется при появлении новых данных; Если не хватает данных о товаре, система предлагает несколько кодов; Правила пишутся не с 0, а уже на имеющейся основе из МО, что экономит время. Минусы Точность ниже, чем у полного Rule-based подхода. ОПТИМАЛЬНЫЙ ВАРИАНТ
  13. СИСТЕМА УПРАВЛЕНИЯ ДАННЫМИ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Автоматизированная система управления

    данными об изделиях медицинской техники АСМТ, обеспечивающая контроль за отраслью медицинских изделий МИ по направлениям: БД Аналитическая подсистема от Мегапьютер АСМТ Модуль извлечения данных из текстовых документов Модуль построения аналитической отчетности Спецификации мед. изделий от производителей Сайт Госзакупок Контракты на поставки мед. изделий Обогащение Данные для визуализации Неструктурированные текстовые данные Импорт данных Импорт данных Оператор вносит структурированные данные: • Количество МИ • План поставок • Регионы и т.д. 1. Обеспеченности регионов; 2. Объемы производства и сбыта; 3. Государственные закупки; 4. Экспорт и импорт
  14. ИЗВЛЕЧЕНИЕ ИЗ КОНТРАКТОВ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Контракты в виде

    отсканированных растровых изображений. Применялся собственный модуль распознавания текста OCR, основанный на использовании нейросетей. Исправление орфографии и нормализация написания названий регистрационных удостоверений и дат («ОКДП2» вместо «ОКПД2» или «ОКДП-2» или «кодОКДП2» / дата в формат «dd.mm.yyyy») Из текстов государственных контрактов необходимо извлекать информацию о номерах регистрационных удостоверений медицинских изделий: ОКПД2/КТРУ/ФСЗ/РЗН Регистрационный номер Тип удостоверения Номер Дата ФСЗ 2007/00002 ФСЗ 00002 19.08.2015 РЗН 2019/9296 РЗН 9296 20.01.2020 КТРУ 20.59.52.140-00000432 КТРУ 20.59.52.140-00000432 ОКПД2 32.50.13.11000005042 ОКПД2 32.50.13.11000005042 Лингвистические правила извлекают «разбросанную» по тексту информация о типе регистрационного удостоверения, дате выдачи удостоверения, номере регистрационного удостоверения за вычетом года и прочие атрибуты Извлеченная и нормализованная информация сводилась в таблицу и вносилась в базу АСМТ
  15. ИЗВЛЕЧЕНИЕ ИЗ ГОСЗАКУПОК И СПЕЦИФИКАЦИЙ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Извлечение,

    разбиение и очистка описания МИ из спецификации Система проводила интеллектуальный парсинг сайта государственных закупок Аналитик задал правила, по которым система распознавала в документах: «Наименование» «ТУ» «Комплект» «Нерелевантно» - вычищаем Извлеченные объекты формируют структурированную таблицу Правила PolyAnalyst выявляют в неструктурированном тексте объекты Структурированные данные обогащают АСМТ Система распознает как размеченные, так и неразмеченные табличные области, именно как таблицы. А лингвистические правила позволяют извлекать данные из строк, колонок и ячеек.
  16. ВИЗУАЛИЗАЦИЯ ДАННЫХ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС На основании информации из

    АСМТ, в том числе обогащенной путем анализа текстовых данных, с помощью системы PolyAnalyst формируются интерактивные аналитические панели. АНАЛИТИЗ ГОСЗАКУПОК ОБЕСПЕЧЕННОСТЬ РЕГИОНОВ МЕД. ИЗДЕЛИЯМИ
  17. КОМАНДА МЕГАПЬЮТЕР Алексей Русских Генеральный директор [email protected] Давид Сазонов Руководитель

    направления текстового анализа [email protected] Сергей Ананян Исполнительный директор [email protected] Мегапьютер Интеллидженс Москва, ул. Бауманская 6, офис 723 +7 (499) 753-01-29 www.megaputer.ru ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Гольцов Дмитрий Заместитель ген. директора Коммерческое направление [email protected]