Upgrade to Pro — share decks privately, control downloads, hide ads and more …

OpenTalks.AI - Юлия Шевченко, Фемида и трансформеры: использование лингвистических моделей на основе архитектуры "трансформер" в юридической практике.

4153fb64761a860efdb4d7029f1c64d4?s=47 opentalks3
February 05, 2021

OpenTalks.AI - Юлия Шевченко, Фемида и трансформеры: использование лингвистических моделей на основе архитектуры "трансформер" в юридической практике.

4153fb64761a860efdb4d7029f1c64d4?s=128

opentalks3

February 05, 2021
Tweet

Transcript

  1. Фемида и трансформеры: Использование лингвистических моделей на основе архитектуры «трансформер»

    в юридической практике
  2. рансформеры: Т Attention Is All You Need - 12 Jun

    2017 Generative Pre-trained Transformer 3 (GPT-3) - 11 June 2020 *http://jalammar.github.io/illustrated-transformer/
  3. ели и задачи: Ц Автоматическая обработка больших массивов юридической документации

    - Делим массив документов на элементы регулирующие техническую, финансовую и юридическую сторону отношений (договор и приложения, технические задания и спецификации, акты и счета, и т.д. ). (более 20 т. договоров, контрактов и соглашений) с учётом контекста документов: ⦁ ⦁ Делим массив документов на элементы регулирующие схожие отношения (поставку определенного вида товаров и услуг, договоры с большими рисками ответственности, штрафами и пеней и т.д.) Поиск «спрятанных» и «забытых» положений договора внутри текста документа – Ищем положения договора по контексту внутри текста документа положения о штрафах «случайно» оказавшиеся вне соответствующего раздела договора: ⦁ ⦁ Ищем какие положения договора не внесены в договор (автоматический «чек-лист») Суммаризация – «упрощение» и сокращение контекста документа: Делаем краткое резюме текста ⦁ ⦁ Ищем «ключевые» слова и фразы
  4. Baseline Классификация и кластеризация на основе TFIDF: оценка важности слова

    в контексте документа, являющегося частью коллекции документов или корпуса. Вес слова пропорционален частоте употребления этого слова в документе и обратно пропорционален частоте употребления слова во всех документах коллекции. Использование существующих лингвистических моделей (мультиязычных и для русского языка): LASER (Language-Agnostic Sentence Representations)- мультиязычная лингвистическая модель от Facebook на основе PyTorch ⦁ ⦁ MUSE (Multilingual Universal Sentence Encoder) - мультиязычная лингвистическая модель от Google в Tensorflow Обучение специализированных ИНС моделей на корпусе юридических документов: Делаем краткое резюме текста ⦁ ⦁ Ищем «ключевые» слова и фразы арианты решения: В
  5. редварительная обработка датасета: П Подготовка корпуса юридический документов для обработки

    и обучения ИНС модели: "Нормализация» текста (с использованием nltk) Анонимизация (удаление личной информации, имён, телефонов, наименований организаций, ручная проверка ) вертикальный корпус (полный текст документа и приложений к нему) горизонтальный корпус (схожие по контексту элементы всех документов корпуса) ⦁ ⦁
  6. 24 000 контрактов из 5 источников 2000 самостоятельно, вручную размеченных

    документов
  7. ipeline: P 1 4 2 3 5 6 7 Готовим

    корпус документов Используем полученные “embeddings” для кластеризации и классификации Обучаем выбранные ИНС модели на подготовленном корпусе С использованием полученных моделей получаем “embeddings” (векторные представления слов, предложений и параграфов текста документов) Применяем полученные модели для решения заявленных задач (классификация текста и семантическая близость в реальных документах). Сравниваем обученные модели между собой Сравниваем с Baseline и моделями общего назначения
  8. lectra // GeForce RTX 2070 18ч: E Предполагаемая команда BertWordPieceTokenizer

    Vocab 20000 tokens Config 215 000 row * 128 tokens Summary_type = 'cls_index' Training args Fp16=True, Fp16_opt_level='O1', Batch_size=64 Result Epoch 148.62 Eval_loss 1.252 Learning_rate 4.600e-7 Loss 1.14
  9. Result Epoch 300 Learning_rate 6.614e-8 Loss 0.02301 ⦁ ⦁ ⦁

    ongformer Tesla T4 AWS 37 часов L
  10. ласстеризация: К Документы разной правовой природы и разного смыслового содержания

    (контекста) могут быть представлены в виде кластеров с помощью разных типов лингвистических моделей TF IDF (Baseline)
  11. ласстеризация: К Legal_Ru_Bert (Митлабс) Deepavlov/Rubert (Deep Pavlov) legal_ru_electra (Митлабс) LASER

    (Facebook) MUSE (Google) legal_ru_longformer (Митлабс)
  12. равнение моделей в задаче классификации: C Metric (weighted) Precision Recall

    F1 roc-auc Average precision score Baseline(TFIDF) (OVR(RF)) 0.71 0.25 0.36 0.74 0.47 Electra (OVR(RF)) 0.91 0.57 0.70 0.95 0.81 Muse (OVR(RF)) 0.92 0.56 0.69 0.95 0.81 Rubert (OVR(RF)) 0.93 0.53 0.67 0.94 0.77 Laser (OVR(RF)) 0.92 0.57 0.69 0.95 0.81 legal_ru_bert (OVR(RF)) 0.93 0.52 0.66 0.88 0.76 Longformer 0.95 0.26 0.41 0.88 0.59
  13. водный график метрик моделей: C

  14. еревод с “канцелярита” на “русский”: П

  15. лассификация пунктов договора по значению (clause type): К Цена и

    порядок расчетов: Цена Товара включает стоимость товара, НДС, стоимость упаковки, доставки до места передачи товара по указанному в Спецификации адресу. Стоимость каждой партии Товара указывается сторонами в Спецификации, соответствующем счете-фактуре Поставщика и товарных накладных. ⦁ ⦁ ⦁ Покупатель оплачивает Товар на следующих условиях: Оплата Товара осуществляется Покупателем в размере 100% от стоимости Товара, согласованной Сторонами в спецификации в течение 15 рабочих дней с даты передачи Поставщиком Покупателю Товара надлежащего качества в месте назначения, что подтверждается датой отметки Покупателя о получении груза, указанная в товарной накладной. Моментом исполнения денежных обязательств Покупателя по настоящему договору является дата списания денежных средств с расчетного счета Покупателя.
  16. лассификация пунктов договора по значению (clause type): К Разрешение споров:

    Все споры и разногласия разрешаются путем переговоров и (или) путем направления Стороне претензии. Сторона, получившая претензию, обязана рассмотреть и ответить на нее в течение десяти рабочих дней с момента получения. ⦁ ⦁ В случае не достижения согласия в процессе переговоров споры передаются на разрешение Арбитражный суд Приморского края в порядке, предусмотренном действующим законодательством РФ.
  17. лассификация пунктов договора по значению (clause type): К Ответственность сторон:

    В случае неисполнения или ненадлежащего исполнения обязательств по настоящему Договору виновная сторона несет имущественную ответственность в объеме требования (претензии или иска), письменно предъявленного и документально подтвержденного другой стороной, по основаниям, указанным в договоре, либо в соответствии с действующим законодательством РФ. ⦁ ⦁ ⦁ ⦁ Ответственность сторон, предусмотренная настоящим Договором, наступает в случае признания должником или подлежащих уплате должником на основании решения суда, вступившего в законную силу, штрафов, пеней и (или) иных санкций за нарушение договорных обязательств, а также сумм возмещения убытков или ущерба. Поставщик несет ответственность за нарушение сроков поставки в размере 0,25% от стоимости недопоставленного Товара за каждый день просрочки. Покупатель несет ответственность за нарушение сроков оплаты в размере 0,25% от стоимости указанной в счете за каждый день задержки.
  18. одель ELECTRA обученная на специализированном корпусе: М Быстрая работа Минимум

    вычислительных ресурсов Понятная архитектура Задачи: Кластеризация Классификация Семантическая близость ⦁ ⦁ ⦁
  19. Спасибо! Юлия Шевченко www.mitlabs.ru