Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenTalks.AI - Юлия Шевченко, Фемида и трансформеры: использование лингвистических моделей на основе архитектуры "трансформер" в юридической практике.

opentalks3
February 05, 2021

OpenTalks.AI - Юлия Шевченко, Фемида и трансформеры: использование лингвистических моделей на основе архитектуры "трансформер" в юридической практике.

opentalks3

February 05, 2021
Tweet

More Decks by opentalks3

Other Decks in Business

Transcript

  1. Фемида и
    трансформеры:
    Использование лингвистических
    моделей на основе архитектуры
    «трансформер» в юридической
    практике

    View Slide

  2. рансформеры:
    Т
    Attention Is All You Need - 12 Jun 2017

    Generative Pre-trained Transformer 3 (GPT-3) - 11 June 2020
    *http://jalammar.github.io/illustrated-transformer/

    View Slide

  3. ели и задачи:
    Ц
    Автоматическая обработка больших массивов юридической документации -
    Делим массив документов на элементы регулирующие техническую, финансовую и юридическую сторону отношений
    (договор и приложения, технические задания и спецификации, акты и счета, и т.д. ).
    (более 20 т. договоров, контрактов и соглашений) с учётом контекста документов:

    ⦁ Делим массив документов на элементы регулирующие схожие отношения (поставку определенного вида товаров и
    услуг, договоры с большими рисками ответственности, штрафами и пеней и т.д.)
    Поиск «спрятанных» и «забытых» положений договора внутри текста документа –
    Ищем положения договора по контексту внутри текста документа
    положения о штрафах «случайно» оказавшиеся вне соответствующего раздела договора:

    ⦁ Ищем какие положения договора не внесены в договор (автоматический «чек-лист»)
    Суммаризация – «упрощение» и сокращение контекста документа:
    Делаем краткое резюме текста

    ⦁ Ищем «ключевые» слова и фразы

    View Slide

  4. Baseline
    Классификация и кластеризация на основе TFIDF: оценка важности слова в контексте документа,
    являющегося частью коллекции документов или корпуса. Вес слова пропорционален частоте употребления
    этого слова в документе и обратно пропорционален частоте употребления слова во всех документах
    коллекции.
    Использование существующих лингвистических моделей (мультиязычных и для русского
    языка):
    LASER (Language-Agnostic Sentence
    Representations)- мультиязычная
    лингвистическая модель от Facebook на основе
    PyTorch
    ⦁ ⦁ MUSE (Multilingual Universal Sentence Encoder) -
    мультиязычная лингвистическая модель от
    Google в Tensorflow
    Обучение специализированных ИНС моделей на корпусе юридических документов:
    Делаем краткое резюме текста

    ⦁ Ищем «ключевые» слова и фразы
    арианты решения:
    В

    View Slide

  5. редварительная обработка
    датасета:
    П
    Подготовка корпуса юридический документов для обработки и обучения ИНС
    модели:
    "Нормализация» текста (с использованием nltk)
    Анонимизация (удаление личной информации, имён, телефонов, наименований
    организаций, ручная проверка )
    вертикальный корпус (полный текст документа и приложений к нему)

    горизонтальный корпус (схожие по контексту элементы всех документов
    корпуса)


    View Slide

  6. 24 000 контрактов

    из 5 источников

    2000 самостоятельно,

    вручную размеченных документов

    View Slide

  7. ipeline:
    P
    1 4
    2
    3
    5
    6
    7
    Готовим корпус документов Используем полученные
    “embeddings” для кластеризации и
    классификации
    Обучаем выбранные ИНС модели
    на подготовленном корпусе
    С использованием полученных
    моделей получаем “embeddings”
    (векторные представления слов,
    предложений и параграфов текста
    документов)
    Применяем полученные модели для решения заявленных задач (классификация
    текста и семантическая близость в реальных документах).
    Сравниваем обученные модели
    между собой
    Сравниваем с Baseline и моделями
    общего назначения

    View Slide

  8. lectra // GeForce RTX 2070 18ч:
    E
    Предполагаемая
    команда
    BertWordPieceTokenizer

    Vocab 20000 tokens
    Config
    215 000 row * 128 tokens

    Summary_type = 'cls_index'
    Training args
    Fp16=True,

    Fp16_opt_level='O1',

    Batch_size=64
    Result
    Epoch 148.62

    Eval_loss 1.252

    Learning_rate 4.600e-7

    Loss 1.14

    View Slide

  9. Result
    Epoch 300

    Learning_rate 6.614e-8

    Loss 0.02301



    ongformer Tesla T4 AWS 37 часов
    L

    View Slide

  10. ласстеризация:
    К
    Документы разной правовой природы и разного смыслового
    содержания (контекста) могут быть представлены в виде
    кластеров с помощью разных типов лингвистических моделей
    TF IDF (Baseline)

    View Slide

  11. ласстеризация:
    К
    Legal_Ru_Bert (Митлабс)
    Deepavlov/Rubert (Deep Pavlov) legal_ru_electra (Митлабс) LASER (Facebook)
    MUSE (Google) legal_ru_longformer (Митлабс)

    View Slide

  12. равнение моделей в задаче
    классификации:
    C
    Metric

    (weighted)


    Precision


    Recall


    F1


    roc-auc


    Average precision score
    Baseline(TFIDF)
    (OVR(RF))


    0.71


    0.25


    0.36


    0.74


    0.47
    Electra

    (OVR(RF))


    0.91


    0.57


    0.70


    0.95


    0.81

    Muse

    (OVR(RF))


    0.92


    0.56


    0.69


    0.95


    0.81



    Rubert
    (OVR(RF))


    0.93


    0.53


    0.67


    0.94


    0.77



    Laser
    (OVR(RF))


    0.92


    0.57


    0.69


    0.95


    0.81



    legal_ru_bert

    (OVR(RF))


    0.93


    0.52


    0.66


    0.88


    0.76




    Longformer



    0.95


    0.26


    0.41


    0.88


    0.59






    View Slide

  13. водный график метрик моделей:
    C

    View Slide

  14. еревод с “канцелярита” на
    “русский”:
    П

    View Slide

  15. лассификация пунктов договора
    по значению (clause type):
    К
    Цена и порядок расчетов:
    Цена Товара включает стоимость товара, НДС, стоимость упаковки, доставки до
    места передачи товара по указанному в Спецификации адресу.


    Стоимость каждой партии Товара указывается сторонами в Спецификации,
    соответствующем счете-фактуре Поставщика и товарных накладных.



    Покупатель оплачивает Товар на следующих условиях:


    Оплата Товара осуществляется Покупателем в размере 100% от стоимости Товара,
    согласованной Сторонами в спецификации в течение 15 рабочих дней с даты передачи
    Поставщиком Покупателю Товара надлежащего качества в месте назначения, что
    подтверждается датой отметки Покупателя о получении груза, указанная в товарной накладной.
    Моментом исполнения денежных обязательств Покупателя по настоящему договору является
    дата списания денежных средств с расчетного счета Покупателя.

    View Slide

  16. лассификация пунктов договора
    по значению (clause type):
    К
    Разрешение споров:
    Все споры и разногласия разрешаются путем переговоров и (или) путем
    направления Стороне претензии. Сторона, получившая претензию, обязана
    рассмотреть и ответить на нее в течение десяти рабочих дней с момента
    получения.

    ⦁ В случае не достижения согласия в процессе переговоров споры
    передаются на разрешение Арбитражный суд Приморского края в порядке,
    предусмотренном действующим законодательством РФ.

    View Slide

  17. лассификация пунктов договора
    по значению (clause type):
    К
    Ответственность сторон:
    В случае неисполнения или ненадлежащего исполнения обязательств по
    настоящему Договору виновная сторона несет имущественную
    ответственность в объеме требования (претензии или иска), письменно
    предъявленного и документально подтвержденного другой стороной, по
    основаниям, указанным в договоре, либо в соответствии с действующим
    законодательством РФ.




    Ответственность сторон, предусмотренная настоящим Договором, наступает
    в случае признания должником или подлежащих уплате должником на
    основании решения суда, вступившего в законную силу, штрафов, пеней и
    (или) иных санкций за нарушение договорных обязательств, а также сумм
    возмещения убытков или ущерба.
    Поставщик несет ответственность за нарушение сроков поставки в размере
    0,25% от стоимости недопоставленного Товара за каждый день просрочки.
    Покупатель несет ответственность за нарушение сроков оплаты в размере
    0,25% от стоимости указанной в счете за каждый день задержки.

    View Slide

  18. одель ELECTRA обученная на
    специализированном корпусе:
    М
    Быстрая работа Минимум
    вычислительных
    ресурсов
    Понятная
    архитектура
    Задачи:
    Кластеризация

    Классификация

    Семантическая близость



    View Slide

  19. Спасибо!
    Юлия Шевченко
    www.mitlabs.ru

    View Slide