20190827_AWS_MLLoft_LT5

NLPのデータとモデルの解釈についてーリーガル領域を例にしてー 2019年8⽉27⽇ ML@Loft #5 @inazo18

⾃⼰紹介 0% | |self-introduction GVA TECH株式会社 MLエンジニア/データ分析もともとは⾔語学のひと。 • 北京⼤学⼤学院
中⽂系修⼠修了 • 東京⼤学⼤学院総合⽂化研究科⾔語情報科学専攻修⼠修了 • 専⾨は⼀般⾔語学と中国語⽂法研究 2018年 18卒でデータ分析会社に新卒⼊社 2019年現職（社会⼈2年⽬）＠inazo18 ふじいみな ©2019 GVA TECH Co., Ltd 2

会社紹介 2% |# |Sec.0 • リーガルテック（法務分野） • 機械学習を使⽤した契約書レビューサービスを、⽇本で初めて提供した会社です。 ©2019
GVA TECH Co., Ltd 3

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 5%
|### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成登記⼿続き⾃動化契約書リスク判定修正箇所レコメンド |Sec.0 ©2019 GVA TECH Co., Ltd 4

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 7%
|##### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成登記⼿続き⾃動化契約書リスク判定修正箇所レコメンドビジネスに携わるすべての⼈が、⾃⾝の業務に集中できるために。 |Sec.0 ֎ࠃޠରԠ ४උதʂ ©2019 GVA TECH Co., Ltd 5

今⽇お話すること 1. 契約書データis何︖ 2. データの解釈 2.1 品詞構成の⽐較 2.2 頻出語彙の⽐較 3.
モデルの解釈性 10% |####### |todayʼs topic ©2019 GVA TECH Co., Ltd 6

契約書データis何︖ レア度★★★の契約書データの所在と概要 14% |######### |Sec.1 ©2019 GVA TECH Co., Ltd
7

契約書の所在 • 労働契約 • 秘密保持契約 • 業務委託契約 17% |############ |Sec.1
๏຿෦ ๏຿ スタートアップ中⼩企業⼤企業個⼈例えば… • 業務委託契約 • システム開発契約 • ソフトウェア、ライセンス契約 • 売買契約 ©2019 GVA TECH Co., Ltd 8

契約書の所在 20% |############### |Sec.1 ๏຿෦ ๏຿ スタートアップ中⼩企業法務⼤企業法務業務委託契約
コンテンツ開発契約ソフトウェア・ライセンス契約売買契約個⼈鍵付きキャビネット⾦庫貸し⾦庫・おおよその契約書は⾦庫に⼊っている。・（⼀部テンプレートを除いて）クローラーやスクレイピングでは取ってこれない。そもそも情報化されていない。・需要は⾼いが全く出回ることのない⾃然⾔語データ ©2019 GVA TECH Co., Ltd 9

データの解釈⽇常のことば/契約のことば/法律のことばは、何が同じで何が異なるのか︖ 23% |################# |Sec.2 ©2019 GVA TECH Co., Ltd
10

分野別の“⾃然⾔語”について 27% |################### |Sec.2 • 各分野/各会社でモデル構築や分析に⽤いる「⾃然⾔語」データは、果たして同じ傾向をもつのか︖ • ⾔語学において、「分野ごとに語彙も⽂型も異なる」ことは広く知られている。 •
分野ごとに取り扱う⾃然⾔語データは異なるので、その傾向も異なるはずだが、どうすれば違いを⽐較できるのか︖ ©2019 GVA TECH Co., Ltd 11

分野別の“⾃然⾔語”について 30% |###################### |Sec.2 • 各分野/各会社でモデル構築や分析に⽤いる「⾃然⾔語」データは、果たして同じ傾向をもつのか︖（そんなはずはない） • ⾔語学において、「分野ごとに語彙も⽂型も異なる」ことは広く知られている。 •
分野ごとに取り扱う⾃然⾔語データは異なるので、その傾向も異なるはずだが、どうすれば違いを⽐較できるのか︖ コーパスを使ってやってみた。 ©2019 GVA TECH Co., Ltd 12

品詞構成の⽐較品詞構成でどんな⽂なのかを把握する 34% |######################### |Sec.2.1 ©2019 GVA TECH Co., Ltd
13

⼿法について 37% |########################### • 契約書に現れることばが、⼀般的に使⽤されることばとどれだけ近い/同じか、または遠い/違うかを調べたい。 • コーパスには、国⽴国語研究所が⾏ってきた語彙調査の⼿法を⽣かし現代⽇本語の縮図となるように設計された「現代⽇本語書き⾔葉均衡コーパス（以下、BCCWJ）[1]」を使⽤する。
• ⾃社の契約書データ（約10万⽂）と、 BCCWJの出版書籍/出版雑誌/出版新聞/図書館書籍/コアデータと特定⽬的データ9種、計15領域（注１）の品詞構成の⽐較を⾏った。 • また、⽐較に使⽤した単位は短単位であり、解析には解析エンジン MeCabと形態素解析⽤辞書UniDicを使⽤した。（注1）コーパスにおけるデータ収集期間、サンプル数、サンプリング⽅法は「BCCWJ関連報告書」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc.html を御覧ください。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 14

使⽤データについて 40% |############################# 契約書データ(約10万件) 「BCCWJ関連報告書第3章サンプリング」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/manual/BCCWJ_Manual_03.pdfより引⽤ |Sec.2.1 ©2019 GVA
TECH Co., Ltd 15

品詞構成表(語数) 43% |############################## |Sec.2.1 契約書出版図書出版雑誌出版
新聞図書館書籍⽩書教科書広報紙ベストセラー Yahoo! 知恵袋 Yahoo! ブログ韻⽂法律国会議事録コアデータ品詞の延べ語数品詞の異なり語数 ©2019 GVA TECH Co., Ltd

品詞構成表（割合） 46% |############################### |Sec.2.1 契約書出版図書出版雑誌出版
新聞図書館書籍⽩書教科書広報紙ベストセラー Yahoo! 知恵袋 Yahoo! ブログ韻⽂法律国会議事録コアデータ品詞の延べ語割合品詞の異なり語割合 ©2019 GVA TECH Co., Ltd

まとめ 49% |################################ • 「契約書」は15の領域の中では「法律」に品詞構成が最も似ている。 = ⽂の書き⽅が似ている。 • しかし、「契約書」の副詞、代名詞、連体詞は「法律」の2倍近く多い。 =
より表現豊かな⽂の書き⽅になっている。 • 接続詞が「法律」より「契約書」の⽅が多い。 = 但し書きを、後⽂にどんどん追加して書いていく契約書の特徴が現れている。⽂脈の意味が反転するところも注意が必要。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 18

契約書⽂/法律⽂/コアデータの頻出名詞 55% |################################### |Sec.2.2 契約書法律コアデータ頻出
順契約書データで頻出の甲/⼄は、法律⽂書には全く現れず、⽇本語コアデータでも5000番代前後。契約書データで頻出の受領は、法律⽂書には少々現れるものの、⽇本語コアデータではめったに現れない。灰⾊部分はそのカテゴリーで⼀度も数えられなかったことを表している。⻩⾊部分はそのカテゴリーで頻出順位が100番以降のものを指している。 ©2019 GVA TECH Co., Ltd 20

契約書⽂/法律⽂/コアデータの頻出動詞 59% |##################################### |Sec.2.2 契約書法律コアデータ頻出
順⻩⾊部分はそのカテゴリーで頻出順位が100番以降のものを指している。⾦銭に関わる動詞、特に「返す」は法律ではあまり使⽤がみられないが、契約書では頻出。責任の所在に関わる動詞はコアデータはあまり使⽤がみられないが、契約書データでは頻出。 ©2019 GVA TECH Co., Ltd 21

まとめ 65% |######################################## • 品詞構成は似ていても、使⽤語彙は異なる点が多い。 = ⽂の書き⽅は似ていても、書く内容が違うことを⽰唆している。 • 「法律」では使⽤しない名詞が「契約書」の頻出1位と2位に。 =
「契約書」最⼤の特徴。 • 「契約書」では頻出する⾦銭に関する動詞と責任のとり⽅に関わる動詞は、「法律」ではあまり⽤いられない。 = 具体的な⾦銭⽀払いに関する取り決め事象⾃体「法律」にあまり出て来ない。 = 「契約書」と「法律」で責任の課し⽅が異なる。 |Sec.2.2 ©2019 GVA TECH Co., Ltd 22

データ解釈前の(雑な)予想 68% |########################################### だいたいこんな感じだろうなー |Sec.2.3 ©2019 GVA TECH
Co., Ltd 23

実際のデータの分布 71% |############################################# 予想実際の分布（分析結果） • 例えば、モデルの精度を上げようとして「⼀⾒関係ありそうな法律⽂を学習データとして⼊⼒しないほうが良い」というようなことが分かる。 |Sec.2.3 ©2019
GVA TECH Co., Ltd 24

実際のデータの分布 74% |################################################ • ⾃分が持っている⾃然⾔語データがどういうものか、実は意外と知らない。 • コーパスは、学習データに⼊れて使⽤するのももちろん良いが、分析⽤の⽐較データとして使⽤すると便利。 |Sec.2.3
©2019 GVA TECH Co., Ltd 25

モデルの解釈性 80% |###################################################### |Sec.3 • 近年、深層学習モデルの解釈性についてワークショップ等で活発に議論されており、解釈可能なモデルが流⾏っている。 • 明確な答えはまだなく発展途上。
• 気をつける点 • 誤説明の可能性 • 導⼊コストの検討 • ⼈間による判断の必要性 Riccardo, G., at al.(2018) A Survey Of Methods For Explaining Black Box Models[2], p.20 ©2019 GVA TECH Co., Ltd

解釈性アプローチマップ 83% |######################################################## |Sec.3 ⼤局的な説明局所的な説明説明可能なモデル設計深層学習モデルの説明 ©2019 GVA
TECH Co., Ltd 28

“解釈性”のいろんな解釈 85% |####################################################### |Sec.3 • Attentionで（タスクによっては）うまく解釈できる説 • Attentionの重みを⼿がかりにモデルの解釈性を探る⼿法 • Attention
matrixの可視化がよく⽤いられる • 感情分析ではAttentionの情報で隣接単語の関係性が分類に重要であることが⽰唆されている • Gael, L., et al. (2018) Importance of Self-Attention for Sentiment Analysis[3] • Attentionでうまく解釈できない説 • Sarthank, J., Byron, C. W. (2019) Attention in not Explanation[4] • Attentionを加⼯すればうまくいく説︓saliency • NLPのAttention層に対する勾配ベースの解釈性の導⼊ • Reza, G., et al.(2018) Interpreting Recurrent and Attention-Based Neural Model: a Case Study on Natural Language Inference[5] ©2019 GVA TECH Co., Ltd 29

解釈の対象とモチベーション 89% |######################################################### |Sec.3 u 結局何が分かればモデルを解釈したことになるのか︖ • モデルの判断根拠 u なぜモデルの判断根拠が知りたいのか︖
• ネットワークが好ましい学習をしているかどうかの確認 • 精度向上のための突破⼝(誤予測を引き起こしてしまった⼊⼒を探すなど) • ユーザーへの説明責任 ©2019 GVA TECH Co., Ltd 30

弊社の場合 92% |########################################################### |Sec.3 • ⼤事な契約書締結に関わる契約書内容の判断=ミスが許されない。 • どう判断しているか分からないものを使⽤するのが不安なユーザーへの説明責任。 •
ユーザーとしても根拠がほしい。安⼼感は、いわゆる精度の数値が良いだけでは得られない。 • 数字（精度）的にもよく、⼈間の感覚にも合っていれば、モデルの信頼性は⾼いといえる。課題 ©2019 GVA TECH Co., Ltd 31

弊社の場合 95% |############################################################# |Sec.3 • リーガルサイド（弁護⼠）が契約書レビューする時の注⽬しているポイントと、モデルが注⽬しているポイントを、解釈性を⽤いて提⽰できれば、ユーザーが受け⼊れ易くなる効果がある（のでは…） • モデル構築とその精度向上だけではなく、扱うデータの詳細な分析や
説明可能な⼈⼯知能（Explainable AI）に向けて、試⾏錯誤中。 ©2019 GVA TECH Co., Ltd 32

引⽤/参考⽂献 <>ݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʢ#$$8+ʣIUUQTQKOJOKBMBDKQDPSQVT@DFOUFSCDDXK <>3JDDBSEP(VJEPUUJ "OOB.POSFBMF 4BMWBUPSF3VHHJFSJ 'SBODP5VSJOJ %JOP1FESFTDIJ BOE 'PTDB (JBOOPUUJ
" 4VSWFZ0G.FUIPET'PS&YQMBJOJOH#MBDL#PY.PEFMT <>(BËM -FUBSUF 'SÉEÉSJL1BSBEJT 1IJMJQQF(JHVÈSF BOE 'SBOÇPJT-BWJPMFUUF *NQPSUBODFPG4FMG"UUFOUJPOGPS 4FOUJNFOU"OBMZTJT 1SPDFFEJOHTPGUIF&./-18PSLTIPQ#MBDLCPY/-1"OBMZ[JOHBOE*OUFSQSFUJOH/FVSBM /FUXPSLTGPS/-1 <>4BSUIBL +BJO #ZSPO$8BMMBDF "UUFOUJPOJTOPU&YQMBOBUJPO /""$- <>3F[B(IBFJOJ 9JBPMJ;'FSO 1SBTBE5BEFQBMMJ *OUFSQSFUJOH3FDVSSFOUBOE"UUFOUJPO#BTFE/FVSBM.PEFMTB $BTF4UVEZPO/BUVSBM-BOHVBHF*OGFSFODF &./-1 <>ਓ޻஌ೳֶձʮػցֶशʹ͓͚Δղऍੑ *OUFSQSFUBCJMJUZJO.BDIJOF-FBSOJOH ʯIUUQTXXXBJHBLLBJPSKQNZ CPPLNBSL@WPMOP <>,JLVP .BFLBXB .BLPUP:BNB[BLJ 5PTIJOPCV 0HJTP 5BLFIJLP.BSVZBNB )JEFLJ0HVSB 8BLBLP ,BTIJOP )BOBF ,PJTP .BTBZB:BNBHVDIJ .BLJSP 5BOBLB BOE:BTVIBSV %FO#BMBODFEDPSQVTPGDPOUFNQPSBSZXSJUUFO+BQBOFTF -BOHVBHF3FTPVSDFTBOE&WBMVBUJPO QQ %0*T <>ࠃཱࠃޠݚڀॴίʔύε։ൃηϯλʔʮʰݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʱར༻ͷख Ҿୈ ൛ʯࠃཱࠃޠݚڀॴ 98% |############################################################## |References ©2019 GVA TECH Co., Ltd 33

100% |############################################################### |fin. ご清聴ありがとうございました︕ ͝ײ૝ͳͲ5XFFU͍͚ͨͩΔͱخ͍͠Ͱ͢ɻ ＠inazo18 ©2019 GVA TECH Co.,
Ltd 34

20190827_AWS_MLLoft_LT5

20190827_AWS_MLLoft_LT5

Mina Fujii

More Decks by Mina Fujii

Other Decks in Research

Featured

Transcript

NLPのデータとモデルの解釈についてーリーガル領域を例にしてー 2019年8⽉27⽇ ML@Loft #5 @inazo18

⾃⼰紹介 0% | |self-introduction GVA TECH株式会社 MLエンジニア/データ分析もともとは⾔語学のひと。 • 北京⼤学⼤学院

会社紹介 2% |# |Sec.0 • リーガルテック（法務分野） • 機械学習を使⽤した契約書レビューサービスを、⽇本で初めて提供した会社です。 ©2019

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 5%

法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 7%

今⽇お話すること 1. 契約書データis何︖ 2. データの解釈 2.1 品詞構成の⽐較 2.2 頻出語彙の⽐較 3.

契約書データis何︖ レア度★★★の契約書データの所在と概要 14% |######### |Sec.1 ©2019 GVA TECH Co., Ltd

契約書の所在 • 労働契約 • 秘密保持契約 • 業務委託契約 17% |############ |Sec.1

契約書の所在 20% |############### |Sec.1 ๏຿෦ ๏຿ スタートアップ中⼩企業法務⼤企業法務業務委託契約

データの解釈⽇常のことば/契約のことば/法律のことばは、何が同じで何が異なるのか︖ 23% |################# |Sec.2 ©2019 GVA TECH Co., Ltd

品詞構成の⽐較品詞構成でどんな⽂なのかを把握する 34% |######################### |Sec.2.1 ©2019 GVA TECH Co., Ltd

使⽤データについて 40% |############################# 契約書データ(約10万件) 「BCCWJ関連報告書第3章サンプリング」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc/manual/BCCWJ_Manual_03.pdfより引⽤ |Sec.2.1 ©2019 GVA

品詞構成表(語数) 43% |############################## |Sec.2.1 契約書出版図書出版雑誌出版

品詞構成表（割合） 46% |############################### |Sec.2.1 契約書出版図書出版雑誌出版

まとめ 49% |################################ • 「契約書」は15の領域の中では「法律」に品詞構成が最も似ている。 = ⽂の書き⽅が似ている。 • しかし、「契約書」の副詞、代名詞、連体詞は「法律」の2倍近く多い。 =

頻出語彙の⽐較 51% |################################# |Sec.2.2 ©2019 GVA TECH Co., Ltd 19

契約書⽂/法律⽂/コアデータの頻出名詞 55% |################################### |Sec.2.2 契約書法律コアデータ頻出

契約書⽂/法律⽂/コアデータの頻出動詞 59% |##################################### |Sec.2.2 契約書法律コアデータ頻出

データ解釈前の(雑な)予想 68% |########################################### だいたいこんな感じだろうなー |Sec.2.3 ©2019 GVA TECH

モデルの解釈性何のためにモデルの判断根拠を探るか 78% |#################################################### |Sec.3 ©2019 GVA TECH Co., Ltd

解釈性アプローチマップ 83% |######################################################## |Sec.3 ⼤局的な説明局所的な説明説明可能なモデル設計深層学習モデルの説明 ©2019 GVA

“解釈性”のいろんな解釈 85% |####################################################### |Sec.3 • Attentionで（タスクによっては）うまく解釈できる説 • Attentionの重みを⼿がかりにモデルの解釈性を探る⼿法 • Attention

解釈の対象とモチベーション 89% |######################################################### |Sec.3 u 結局何が分かればモデルを解釈したことになるのか︖ • モデルの判断根拠 u なぜモデルの判断根拠が知りたいのか︖

弊社の場合 92% |########################################################### |Sec.3 • ⼤事な契約書締結に関わる契約書内容の判断=ミスが許されない。 • どう判断しているか分からないものを使⽤するのが不安なユーザーへの説明責任。 •

引⽤/参考⽂献 <>ݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʢ#$$8+ʣIUUQTQKOJOKBMBDKQDPSQVT@DFOUFSCDDXK <>3JDDBSEP(VJEPUUJ "OOB.POSFBMF 4BMWBUPSF3VHHJFSJ 'SBODP5VSJOJ %JOP1FESFTDIJ BOE 'PTDB (JBOOPUUJ

100% |############################################################### |fin. ご清聴ありがとうございました︕ ͝ײ૝ͳͲ5XFFU͍͚ͨͩΔͱخ͍͠Ͱ͢ɻ ＠inazo18 ©2019 GVA TECH Co.,