Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Как ИИ повышает эффективность расследований при...

Как ИИ повышает эффективность расследований при анализе массивов данных и документов: российская система PolyAnalyst.

Доклад Мегапьютер для межведомственной научно-практической конференции «Искусственный интеллект на службе полиции».

Avatar for Cypok13

Cypok13

May 28, 2021
Tweet

More Decks by Cypok13

Other Decks in Technology

Transcript

  1. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС СЛОЖНОСТЬ БОЛЬШИХ ДАННЫХ Как работать с

    такими данными? ВРУЧНУЮ ИСПОЛНИТЕЛЕМ (ВЛАДЕЛЬЦЕМ ДАННЫХ) 10% Структурированные данные Аудит 10 000 бухгалтерских транзакций финансовым инспектором занимает 20 человеко-дней. Чтение аналитиком/оперативным работником новостей/ документов о компании требует СОТНИ ЧАСОВ. 90% Неструктурированные: тексты, изображения, видео Деятельность МВД включает непрерывный процесс большого количества расследований. Эта деятельность порождает необходимость сбора/анализа /интерпретации данных. Решение многих задач сталкивается со следующими сложностями: • Данные необходимо собирать сразу из множества источников • Данные, находясь у разных владельцев, могут иметь разное качество • Данные имеют множество форматов: структурированные данные (финансовые проводки) и неструктурированные (фотоизображения, видеофиксации, тексты).
  2. 5 --- ПАРНИ, ДАЖЕ КРИПТАНЫ МЭНИКАМ И ДИПФЕЙКИ ЮЗАЛИ ДЛЯ

    АККАУНТОВ НА КРИПТОБИРЖАХ ПАРУ ЛЕТ НАЗАД ) --- ДА ТУТ ОБЫЧНАЯ ГОНКА ВООРУЖЕНИЙ ПО GAN НЕЙРОНКАМ. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ПАТТЕРНЫ МОЖНО ПОДДЕЛАТЬ….. И ОБМАНУТЬ ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
  3. 6 --- ПАРНИ, ДАЖЕ КРИПТАНЫ МЭНИКАМ И ДИПФЕЙКИ ЮЗАЛИ ДЛЯ

    АККАУНТОВ НА КРИПТОБИРЖАХ ПАРУ ЛЕТ НАЗАД ) --- ДА ТУТ ОБЫЧНАЯ ГОНКА ВООРУЖЕНИЙ ПО GAN НЕЙРОНКАМ. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС РАЗГОВОР В ЧАТЕ ИТ СПЕЦИАЛИСТОВ ПО ПОВОДУ ПУБЛИКАЦИИ О МОШЕННИКАХ
  4. 8 МОШЕННИКИ В КИТАЕ С ПОМОЩЬЮ ДИПФЕЙКОВ ОБМАНУЛИ ГОССИСТЕМУ РАСПОЗНАВАНИЯ

    ЛИЦ НА $76,2 МЛН. Для ее обмана мошенники покупали фотографии в высоком качестве и поддельные личные данные на чёрном рынке. Это стоит от $5. Полученные фотографии Ву и Чжоу обрабатывали в дипфейк-приложениях — они могут «оживить» загруженную картинку и сделать из неё видео, создавая впечатление, что лица кивают, моргают, двигаются и открывают рот. Такие приложения можно скачать бесплатно. Для следующего этапа мошенники покупали специальные перепрошитые смартфоны: во время распознавания лица фронтальная камера такого устройства не включается, вместо этого система получает заранее подготовленное видео, воспринимает его как изображение с камеры. Такие телефоны стоят примерно $250. С помощью такой схемы мошенники зарегистрировали компанию-пустышку, которая могла выдавать своим клиентам поддельные налоговые декларации. За два года мошенники заработали на этом $76,2 млн. Биометрия широко распространена в Китае — с её помощью подтверждают платежи и покупки, проверяют личность при оформлении госуслуг и так далее. Но вместе с развитием технологии одной из главных проблем стала защита данных. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС DEEPFAKE МОШЕННИЧАЕТ
  5. Исходя из всего, что удалось нарыть, - они пренебрегают интерактивностью

    в попытке угнаться за "лучшим пользовательским опытом". Из-за чего собственно полагаются на проверки в рамках минимальной серии кадров, что как правило не позволяет раскрутиться в полную силу не только сеткам, которые в динамике ловят искажения, но в том числе и тем что выполняют поиск "патернов" и "световых наложений". Как результат - тулы типа "мэникам" из-за недостаточной энтропии (количества вариантов сочетаний интерактивных действий), умудряются пройти "ваншот проверки" в сочетании с дипфейк-тулами. Что при подсчёте конечного скора даёт апрув на "легитимные действия". АНАЛИЗ В ЧАТЕ…… )))
  6. Проверка «живучести» (lifeness detection) одномодальных систем (только лицо или только

    голоса) всегда слабее бимодальных (голос и лицо вместе). БИМОДАЛЬНЫЕ СИСТЕМЫ ПРОВЕРКИ
  7. ЧТО ТАКОЕ NLP И КАКОВА ЕГО РОЛЬ? ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР

    ИНТЕЛЛИДЖЕНС Министерство здравоохранения В рамках проектов цифровой трансформации широкий набор бизнес-задач решается с применением алгоритмов обработки текстов на естественном языке (NLP - Natural Language Processing). ПРИМЕНЕНИЕ: МАШИННЫЙ ПЕРЕВОД С ОДНОГО ЯЗЫКА НА ДРУГОЙ- В мире активно продается множество голосовых и текстовых переводчиков. КЛАССИФИКАЦИЯ ТЕКСТОВ- борьба со спамом, маршрутизация входящих обращений, чат-боты АНАЛИЗ ТОНАЛЬНОСТИ-частный случай классификации, анализа отзывов о товарах и услугах, анализ мнений и настроений граждан ИЗВЛЕЧЕНИЕ СУЩНОСТЕЙ/ФАКТОВ- карточка заявления/договора, конкурентная разведка через анализ новостей АНАЛИЗ СВЯЗЕЙ- построение концептуальной карты текстовых документов ГЕНЕРАЦИЯ КОНТЕНТА И ТЕКСТОВ- автоматическое формирование аннотаций, например, новостей, статей, а также управление электронными устройствами, диалоговые системы, текстовые и голосовых чат-ботов и ассистентов
  8. На его основе работает, например, более трех сотен приложений. Интересна

    цифра производительности: по запросам этих компаний GPT-3 ежедневно генерирует текстов на 4,5 миллиарда слов. Книга на английском, в которой 100 000 слов, содержит в среднем 400 страниц. Так что GPT-3 генерит в день 45 тысяч томов такого объема, целую библиотеку. Алгоритм GPT-3 сейчас благодаря эксклюзивной сделке с Microsoft доступен через API всем желающим компаниям https://www.theverge.com/2021/3/29/22356180/openai-gpt-3-text-generation-words-day ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ТРЕТЬЕ ПОКОЛЕНИЕ ПРОГРАММЫ ОБРАБОТКИ ЕСТЕСТВЕННОГО ЯЗЫКА
  9. ИИ ДЛЯ АНАЛИЗА ТЕКСТОВЫХ ДАННЫХ АНАЛИТИКА ЗВОНКОВ- Систематизация записей из

    дежурных частей и анализ полученных данных АВТОМАТИЗИРОВАННАЯ КЛАССИФИКАЦИЯ- и маршрутизация входящих обращений граждан в форме электронного документа СТРУКТУРИРОВАНИЕ И УСТАНОВЛЕНИЕ СВЯЗЕЙ- В наборе разрозненной электронной документации f ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ВЫЯВЛЕНИЕ МОШЕННИЧЕСТВА- Определение типовых моделей поведения и анализ системных отклонений АНАЛИТИКА ИНТЕРНЕТ-РЕСУРСОВ- Изучение мнения граждан, определение наиболее важных тем для населения @ ИНТЕЛЛЕКТУАЛЬНЫЙ ПОИСК- Поиск среди всех информационных систем по контексту, паттернам и онтологиям
  10. МИНИСТЕРСТВО ЗАКЛЮЧИЛО КОНТРАКТ С ПОСТАВЩИКОМ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство

    здравоохранения Крупная фарма компания Директор отдела закупок Трутень Василий Петрович Контракт на поставку лекарств Министерство здравоохранения
  11. НО ПОСТАВКИ ИДУТ ЧЕРЕЗ ПОСРЕДНИКА… ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство

    здравоохранения Крупная фарма компания Директор отдела закупок Трутень Василий Петрович Контракт на поставку лекарств ООО Пилюли Ру Министерство здравоохранения
  12. ЗАДАЧИ - РЕШЕНИЯ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство здравоохранения Вопрос:

    Откуда и зачем взялся посредник? Проблемы: А) Необходимо собрать из множества различных баз огромный набор данных об объектах: директоре, его родственниках, коллегах, компании посреднике и прочих. Сбор таких объемов информации либо просто невозможно провести вручную, либо слишком трудозатратен. Поэтому сразу возникает необходимость применения машинных алгоритмов. Б) Доступные описания объектов в разных источниках данных часто содержат неполную или противоречивую информацию, не позволяющую выявить разные представления одного объекта. Задача: Определить, описывают ли записи из разных источников один и тот же объект. Решение: А решением является применение интеллектуальных алгоритмов для нечеткой сверки разных атрибутов объектов (имена, адреса, телефоны, коды), чтобы разделить информации о различных объектах и наоборот отождествить информации об одном и том же объекте.
  13. НЕТ ЛИ КОНФЛИКТА ИНТЕРЕСОВ? ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство здравоохранения

    Директор отдела закупок Трутень Василий Петрович ООО Пилюли Ру Прекрасная Елена Андреевна женаты Ms Helen Prekrasnaya ? Тот же человек? ? Тот же адрес? Зарегистрировано по адресу: Москва, улица Пятая парковая 2 Живет по адресу: Москва, 5я Парковая ул. д.2 Министерство здравоохранения Проверяем ЕГРЮЛ Проверяем ЗАГС Проверяем ЕГРН
  14. Гоша, он же Гога, он же Жора НЕТ ЛИ КОНФЛИКТА

    ИНТЕРЕСОВ? ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство здравоохранения Директор отдела закупок Трутень Василий Петрович ООО Пилюли Ру Прекрасная Елена Андреевна женаты Ms Helen Prekrasnaya Тот же человек! Тот же адрес Зарегистрировано по адресу: Москва, улица Пятая парковая 2 Живет по адресу: Москва, 5я Парковая ул. д.2 Министерство здравоохранения
  15. ВЫЯВЛЕНА КОРРУПЦИОННАЯ СХЕМА ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Министерство здравоохранения Директор

    отдела закупок Трутень Василий Петрович ООО Пилюли Ру Ms Helen Prekrasnaya ? Министерство здравоохранения $$ $ $ $ $ Зарегистрировано по адресу: Москва, улица Пятая парковая 2 Живет по адресу: Москва, 5я Парковая ул. д.2 Крупная фарма компания Контракт на поставку лекарств Елена Прекрасная Ms Helen Prekrasnaya 94% Москва, 5я Парковая ул. д.2 99% Москва, улица Пятая парковая 2
  16. ВЫЯВЛЕНИЕ МОШЕННИКОВ ПО ДАННЫМ ПЕРЕПИСКИ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Заказчик:

    Надзорный орган Данные: арестованная переписка ( мейлы) сотрудников Банка топ-10 Цель: Найти следы мошенничества и определить участников махинаций на рынке недвижимости (Банк выдавал кредит некредитоспособным получателям по завышенной цене от независимого Оценщика) Вызовы: • Объём - 3 000 000 писем -- 15 000 корреспондентов • Только 4 следователя в отделе • Неизвестно, что именно надо искать • И с кого начинать расследование?
  17. ВНЕЗАПНЫЙ РОСТ ЦЕНЫ НА ОБЪЕКТ НЕДВИЖИМОСТИ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС

    Алгоритм исследования: 1) Cначала определялись письма с известными проблемными паттернами. Например, аналитик просил искусственный интеллект определить, что в письме кто-то из сотрудников банка обсуждал резкий рост стоимости оценки недвижимости, даже при том, что рынок просел. Это довольно очевидный паттерн, свидетельствующий о возможной махинации.
  18. АНОМАЛИИ В ЛЕКСИКОНЕ ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Оценка стоимости Фраза

    «оценка стоимости» аномально часто встречается в переписке Сотрудника А121 и Сотрудника Е274 Сотрудник В14 и Сотрудник F317 употребляют жаргонизмы «Человеческая цена» и «Нечеловеческая цена» 2) Если не знаем, как начать, то сначала анализируем частоты использования слов в полном корпусе, а потом исследуем существенные отклонения в переписках отдельных пар (групп) корреспондентов:
  19. КТО ВЕДЕТ ЭТИ ОБСУЖДЕНИЯ? ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС Роман Ларин

    Степан Иванов Главные исполнители: Координатор: Михаил Жарин 4)Уточняем вновь обнаруженные паттерны и делаем поиск по ним (может быть несколько итераций 3)Смотрим, кто писал и получал эти письма. + какие еще отличительные паттерны есть в переписках этих корреспондентов 5)Выявляем и визуализируем графовую структуру группы людей, ответственных за планирование и исполнение мошеннических операций 6)Фокусируем внимание следователей на самых проблемных людях и письмах
  20. РЕЗУЛЬТАТ: БАНК ОШТРАФОВАН ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС В счет полного

    урегулирования разбирательства Банк выплатил штраф для компенсации противоправных действий Банка, обнаруженных в ходе расследования проведенного Надзорным органом.
  21. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС В 2020 году МВД разработало и

    направило на рассмотрение в Правительство РФ дорожную карту по цифровой трансформации ведомства. Методические рекомендации Правительства РФ по цифровой трансформации включают указание на активное внедрение инструментов предиктивной и предписывающей аналитики, опирающихся на технологии искусственного интеллекта. Как российская компания с широким опытом работы в области продвинутого анализ данных с применением искусственного интеллекта мы готовы принять участие в процедуре цифровой трансформации Министерства внутренних дел: Построить для Министерства аналитические решения с использованием NLP и ML (AI) Предоставить Министерству мощный аналитический инструмент PolyAnalyst
  22. ПЛАТФОРМА POLYANALYST МЕГАПЬЮТЕР ИНТЕЛЛИДЖЕНС ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ СТАЛ ДОСТУПНЕЕ PolyAnalyst –

    российская платформа для визуального построения сценариев анализа данных и текстов на основе искусственного интеллекта и NLP, не требующая от пользователя навыков программирования.