Slide 1

Slide 1 text

NLPの データとモデルの解釈について ーリーガル領域を例にしてー 2019年8⽉27⽇ ML@Loft #5 @inazo18

Slide 2

Slide 2 text

⾃⼰紹介 0% | |self-introduction GVA TECH株式会社 MLエンジニア/データ分析 もともとは⾔語学のひと。 • 北京⼤学⼤学院 中⽂系 修⼠修了 • 東京⼤学⼤学院 総合⽂化研究科 ⾔語情報科学専攻 修⼠修了 • 専⾨は⼀般⾔語学と中国語⽂法研究 2018年 18卒でデータ分析会社に新卒⼊社 2019年 現職(社会⼈2年⽬) @inazo18 ふじいみな ©2019 GVA TECH Co., Ltd 2

Slide 3

Slide 3 text

会社紹介 2% |# |Sec.0 • リーガルテック(法務分野) • 機械学習を使⽤した契約書レビューサービスを、 ⽇本で初めて提供した会社です。 ©2019 GVA TECH Co., Ltd 3

Slide 4

Slide 4 text

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 5% |### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成 登記⼿続き⾃動化 契約書リスク判定 修正箇所レコメンド |Sec.0 ©2019 GVA TECH Co., Ltd 4

Slide 5

Slide 5 text

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 7% |##### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成 登記⼿続き⾃動化 契約書リスク判定 修正箇所レコメンド ビジネスに携わるすべての⼈が、⾃⾝の業務に集中できるために。 |Sec.0 ֎ࠃޠରԠ ४උதʂ ©2019 GVA TECH Co., Ltd 5

Slide 6

Slide 6 text

今⽇お話すること 1. 契約書データis何︖ 2. データの解釈 2.1 品詞構成の⽐較 2.2 頻出語彙の⽐較 3. モデルの解釈性 10% |####### |todayʼs topic ©2019 GVA TECH Co., Ltd 6

Slide 7

Slide 7 text

契約書データis何︖ レア度★★★の契約書データの所在と概要 14% |######### |Sec.1 ©2019 GVA TECH Co., Ltd 7

Slide 8

Slide 8 text

契約書の所在 • 労働契約 • 秘密保持契約 • 業務委託契約 17% |############ |Sec.1 ๏຿෦ ๏຿ スタートアップ 中⼩企業 ⼤企業 個⼈ 例えば… • 業務委託契約 • システム開発契約 • ソフトウェア、 ライセンス契約 • 売買契約 ©2019 GVA TECH Co., Ltd 8

Slide 9

Slide 9 text

契約書の所在 20% |############### |Sec.1 ๏຿෦ ๏຿ スタートアップ 中⼩企業法務 ⼤企業法務 業務委託契約 コンテンツ開発契約 ソフトウェア・ ライセンス契約 売買契約 個⼈ 鍵付きキャビネット ⾦庫 貸し⾦庫 ・おおよその契約書は⾦庫に⼊っている。 ・(⼀部テンプレートを除いて)クローラーやスクレイピングでは 取ってこれない。そもそも情報化されていない。 ・需要は⾼いが全く出回ることのない⾃然⾔語データ ©2019 GVA TECH Co., Ltd 9

Slide 10

Slide 10 text

データの解釈 ⽇常のことば/契約のことば/法律のことばは、何が同じで何が異なるのか︖ 23% |################# |Sec.2 ©2019 GVA TECH Co., Ltd 10

Slide 11

Slide 11 text

分野別の“⾃然⾔語”について 27% |################### |Sec.2 • 各分野/各会社でモデル構築や分析に⽤いる「⾃然⾔語」データは、果たして同 じ傾向をもつのか︖ • ⾔語学において、「分野ごとに語彙も⽂型も異なる」ことは広く知られている。 • 分野ごとに取り扱う⾃然⾔語データは異なるので、その傾向も異なるはずだが、 どうすれば違いを⽐較できるのか︖ ©2019 GVA TECH Co., Ltd 11

Slide 12

Slide 12 text

分野別の“⾃然⾔語”について 30% |###################### |Sec.2 • 各分野/各会社でモデル構築や分析に⽤いる「⾃然⾔語」データは、果たして同 じ傾向をもつのか︖(そんなはずはない) • ⾔語学において、「分野ごとに語彙も⽂型も異なる」ことは広く知られている。 • 分野ごとに取り扱う⾃然⾔語データは異なるので、その傾向も異なるはずだが、 どうすれば違いを⽐較できるのか︖ コーパスを使って やってみた。 ©2019 GVA TECH Co., Ltd 12

Slide 13

Slide 13 text

品詞構成の⽐較 品詞構成でどんな⽂なのかを把握する 34% |######################### |Sec.2.1 ©2019 GVA TECH Co., Ltd 13

Slide 14

Slide 14 text

⼿法について 37% |########################### • 契約書に現れることばが、⼀般的に使⽤されることばとどれだけ近い/同 じか、または遠い/違うかを調べたい。 • コーパスには、国⽴国語研究所が⾏ってきた語彙調査の⼿法を⽣かし現代 ⽇本語の縮図となるように設計された「現代⽇本語書き⾔葉均衡コーパス (以下、BCCWJ)[1]」を使⽤する。 • ⾃社の契約書データ(約10万⽂)と、 BCCWJの出版書籍/出版雑誌/出版 新聞/図書館書籍/コアデータと特定⽬的データ9種、計15領域(注1)の品 詞構成の⽐較を⾏った。 • また、⽐較に使⽤した単位は短単位であり、解析には解析エンジン MeCabと形態素解析⽤辞書UniDicを使⽤した。 (注1)コーパスにおけるデータ収集期間、サンプル数、サンプリング⽅法は「BCCWJ関連報告書」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc.html を御覧ください。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 14

Slide 15

Slide 15 text

使⽤データについて 40% |############################# 契約書データ(約10万件) 「BCCWJ関連報告書 第3章サンプリング」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/manual/BCCWJ_Manual_03.pdfより引⽤ |Sec.2.1 ©2019 GVA TECH Co., Ltd 15

Slide 16

Slide 16 text

品詞構成表(語数) 43% |############################## |Sec.2.1 契約書 出版 図書 出版 雑誌 出版 新聞 図書館 書籍 ⽩書 教科書 広報紙 ベスト セラー Yahoo! 知恵袋 Yahoo! ブログ 韻⽂ 法律 国会 議事録 コア データ 品 詞 の 延 べ 語 数 品 詞 の 異 な り 語 数 ©2019 GVA TECH Co., Ltd

Slide 17

Slide 17 text

品詞構成表(割合) 46% |############################### |Sec.2.1 契約書 出版 図書 出版 雑誌 出版 新聞 図書館 書籍 ⽩書 教科書 広報紙 ベスト セラー Yahoo! 知恵袋 Yahoo! ブログ 韻⽂ 法律 国会 議事録 コア データ 品 詞 の 延 べ 語 割 合 品 詞 の 異 な り 語 割 合 ©2019 GVA TECH Co., Ltd

Slide 18

Slide 18 text

まとめ 49% |################################ • 「契約書」は15の領域の中では「法律」に品詞構成が最も似ている。 = ⽂の書き⽅が似ている。 • しかし、「契約書」の副詞、代名詞、連体詞は「法律」の2倍近く多い。 = より表現豊かな⽂の書き⽅になっている。 • 接続詞が「法律」より「契約書」の⽅が多い。 = 但し書きを、後⽂にどんどん追加して書いていく契約書の特徴が 現れている。⽂脈の意味が反転するところも注意が必要。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 18

Slide 19

Slide 19 text

頻出語彙の⽐較 51% |################################# |Sec.2.2 ©2019 GVA TECH Co., Ltd 19

Slide 20

Slide 20 text

契約書⽂/法律⽂/コアデータの頻出名詞 55% |################################### |Sec.2.2 契約書 法律 コア データ 頻 出 順 契約書データで頻出の甲/⼄は、 法律⽂書には全く現れず、 ⽇本語コアデータでも5000番代前後。 契約書データで頻出の受領は、 法律⽂書には少々現れるものの、 ⽇本語コアデータではめったに現れ ない。 灰⾊部分はそのカテゴリーで⼀度も数 えられなかったことを表している。 ⻩⾊部分はそのカテゴリーで頻出順位 が100番以降のものを指している。 ©2019 GVA TECH Co., Ltd 20

Slide 21

Slide 21 text

契約書⽂/法律⽂/コアデータの頻出動詞 59% |##################################### |Sec.2.2 契約書 法律 コア データ 頻 出 順 ⻩⾊部分はそのカテゴリーで頻出順位 が100番以降のものを指している。 ⾦銭に関わる動詞、特に「返す」は 法律ではあまり使⽤がみられないが、 契約書では頻出。 責任の所在に関わる動詞はコアデー タはあまり使⽤がみられないが、契 約書データでは頻出。 ©2019 GVA TECH Co., Ltd 21

Slide 22

Slide 22 text

まとめ 65% |######################################## • 品詞構成は似ていても、使⽤語彙は異なる点が多い。 = ⽂の書き⽅は似ていても、書く内容が違うことを⽰唆している。 • 「法律」では使⽤しない名詞が「契約書」の頻出1位と2位に。 = 「契約書」最⼤の特徴。 • 「契約書」では頻出する⾦銭に関する動詞と責任のとり⽅に関わる動詞は、 「法律」ではあまり⽤いられない。 = 具体的な⾦銭⽀払いに関する取り決め事象⾃体「法律」に あまり出て来ない。 = 「契約書」と「法律」で責任の課し⽅が異なる。 |Sec.2.2 ©2019 GVA TECH Co., Ltd 22

Slide 23

Slide 23 text

データ解釈前の(雑な)予想 68% |########################################### だいたい こんな感じ だろうなー |Sec.2.3 ©2019 GVA TECH Co., Ltd 23

Slide 24

Slide 24 text

実際のデータの分布 71% |############################################# 予想 実際の分布(分析結果) • 例えば、モデルの精度を上げようとして「⼀⾒関係ありそうな法律⽂を学 習データとして⼊⼒しないほうが良い」というようなことが分かる。 |Sec.2.3 ©2019 GVA TECH Co., Ltd 24

Slide 25

Slide 25 text

実際のデータの分布 74% |################################################ • ⾃分が持っている⾃然⾔語データがどういうものか、 実は意外と知らない。 • コーパスは、学習データに⼊れて使⽤するのももちろん 良いが、分析⽤の⽐較データとして使⽤すると便利。 |Sec.2.3 ©2019 GVA TECH Co., Ltd 25

Slide 26

Slide 26 text

モデルの解釈性 何のためにモデルの判断根拠を探るか 78% |#################################################### |Sec.3 ©2019 GVA TECH Co., Ltd 26

Slide 27

Slide 27 text

モデルの解釈性 80% |###################################################### |Sec.3 • 近年、深層学習モデルの解釈性について ワークショップ等で活発に議論されてお り、解釈可能なモデルが流⾏っている。 • 明確な答えはまだなく発展途上。 • 気をつける点 • 誤説明の可能性 • 導⼊コストの検討 • ⼈間による判断の必要性 Riccardo, G., at al.(2018) A Survey Of Methods For Explaining Black Box Models[2], p.20 ©2019 GVA TECH Co., Ltd

Slide 28

Slide 28 text

解釈性アプローチマップ 83% |######################################################## |Sec.3 ⼤局的な説明 局所的な説明 説明可能なモデル設計 深層学習モデルの説明 ©2019 GVA TECH Co., Ltd 28

Slide 29

Slide 29 text

“解釈性”のいろんな解釈 85% |####################################################### |Sec.3 • Attentionで(タスクによっては)うまく解釈できる説 • Attentionの重みを⼿がかりにモデルの解釈性を探る⼿法 • Attention matrixの可視化がよく⽤いられる • 感情分析ではAttentionの情報で隣接単語の関係性が分類に重要であるこ とが⽰唆されている • Gael, L., et al. (2018) Importance of Self-Attention for Sentiment Analysis[3] • Attentionでうまく解釈できない説 • Sarthank, J., Byron, C. W. (2019) Attention in not Explanation[4] • Attentionを加⼯すればうまくいく説︓saliency • NLPのAttention層に対する勾配ベースの解釈性の導⼊ • Reza, G., et al.(2018) Interpreting Recurrent and Attention-Based Neural Model: a Case Study on Natural Language Inference[5] ©2019 GVA TECH Co., Ltd 29

Slide 30

Slide 30 text

解釈の対象とモチベーション 89% |######################################################### |Sec.3 u 結局何が分かればモデルを解釈したことになるのか︖ • モデルの判断根拠 u なぜモデルの判断根拠が知りたいのか︖ • ネットワークが好ましい学習をしているか どうかの確認 • 精度向上のための突破⼝(誤予測を引き起こ してしまった⼊⼒を探すなど) • ユーザーへの説明責任 ©2019 GVA TECH Co., Ltd 30

Slide 31

Slide 31 text

弊社の場合 92% |########################################################### |Sec.3 • ⼤事な契約書締結に関わる契約書内容の判断=ミスが許されない。 • どう判断しているか分からないものを使⽤するのが不安なユーザーへの説明 責任。 • ユーザーとしても根拠がほしい。安⼼感は、いわゆる精度の数値が良いだけ では得られない。 • 数字(精度)的にもよく、⼈間の感覚にも合っていれば、モデルの信頼性は ⾼いといえる。 課題 ©2019 GVA TECH Co., Ltd 31

Slide 32

Slide 32 text

弊社の場合 95% |############################################################# |Sec.3 • リーガルサイド(弁護⼠)が契約書レビューする時の注⽬しているポイント と、モデルが注⽬しているポイントを、解釈性を⽤いて提⽰できれば、ユー ザーが受け⼊れ易くなる効果がある(のでは…) • モデル構築とその精度向上だけではなく、扱うデータの詳細な分析や 説明可能な⼈⼯知能(Explainable AI)に向けて、試⾏錯誤中。 ©2019 GVA TECH Co., Ltd 32

Slide 33

Slide 33 text

引⽤/参考⽂献 <>ݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʢ#$$8+ʣIUUQTQKOJOKBMBDKQDPSQVT@DFOUFSCDDXK <>3JDDBSEP(VJEPUUJ "OOB.POSFBMF 4BMWBUPSF3VHHJFSJ 'SBODP5VSJOJ %JOP1FESFTDIJ BOE 'PTDB (JBOOPUUJ " 4VSWFZ0G.FUIPET'PS&YQMBJOJOH#MBDL#PY.PEFMT <>(BËM -FUBSUF 'SÉEÉSJL1BSBEJT 1IJMJQQF(JHVÈSF BOE 'SBOÇPJT-BWJPMFUUF *NQPSUBODFPG4FMG"UUFOUJPOGPS 4FOUJNFOU"OBMZTJT 1SPDFFEJOHTPGUIF&./-18PSLTIPQ#MBDLCPY/-1"OBMZ[JOHBOE*OUFSQSFUJOH/FVSBM /FUXPSLTGPS/-1 <>4BSUIBL +BJO #ZSPO$8BMMBDF "UUFOUJPOJTOPU&YQMBOBUJPO /""$- <>3F[B(IBFJOJ 9JBPMJ;'FSO 1SBTBE5BEFQBMMJ *OUFSQSFUJOH3FDVSSFOUBOE"UUFOUJPO#BTFE/FVSBM.PEFMTB $BTF4UVEZPO/BUVSBM-BOHVBHF*OGFSFODF &./-1 <>ਓ޻஌ೳֶձʮػցֶशʹ͓͚Δղऍੑ *OUFSQSFUBCJMJUZJO.BDIJOF-FBSOJOH ʯIUUQTXXXBJHBLLBJPSKQNZ CPPLNBSL@WPMOP <>,JLVP .BFLBXB .BLPUP:BNB[BLJ 5PTIJOPCV 0HJTP 5BLFIJLP.BSVZBNB )JEFLJ0HVSB 8BLBLP ,BTIJOP )BOBF ,PJTP .BTBZB:BNBHVDIJ .BLJSP 5BOBLB BOE:BTVIBSV %FO#BMBODFEDPSQVTPGDPOUFNQPSBSZXSJUUFO+BQBOFTF -BOHVBHF3FTPVSDFTBOE&WBMVBUJPO QQ %0*T <>ࠃཱࠃޠݚڀॴίʔύε։ൃηϯλʔʮʰݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʱར༻ͷख Ҿୈ ൛ʯࠃཱࠃޠݚڀॴ 98% |############################################################## |References ©2019 GVA TECH Co., Ltd 33

Slide 34

Slide 34 text

100% |############################################################### |fin. ご清聴ありがとうございました︕ ͝ײ૝ͳͲ5XFFU͍͚ͨͩΔͱخ͍͠Ͱ͢ɻ @inazo18 ©2019 GVA TECH Co., Ltd 34