Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20190827_AWS_MLLoft_LT5

Mina Fujii
August 27, 2019

 20190827_AWS_MLLoft_LT5

Mina Fujii

August 27, 2019
Tweet

More Decks by Mina Fujii

Other Decks in Research

Transcript

  1. ⾃⼰紹介 0% | |self-introduction GVA TECH株式会社 MLエンジニア/データ分析 もともとは⾔語学のひと。 • 北京⼤学⼤学院

    中⽂系 修⼠修了 • 東京⼤学⼤学院 総合⽂化研究科 ⾔語情報科学専攻 修⼠修了 • 専⾨は⼀般⾔語学と中国語⽂法研究 2018年 18卒でデータ分析会社に新卒⼊社 2019年 現職(社会⼈2年⽬) @inazo18 ふじいみな ©2019 GVA TECH Co., Ltd 2
  2. 法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 5%

    |### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成 登記⼿続き⾃動化 契約書リスク判定 修正箇所レコメンド |Sec.0 ©2019 GVA TECH Co., Ltd 4
  3. 法務格差をなくす試み 3% (0 of 6chp.) |## Elapsed Time: 0:00:01 7%

    |##### υϥϑτ ϨϏϡʔ ొه ʁʁ 鋭意開発中!! 契約書⾃動⽣成 登記⼿続き⾃動化 契約書リスク判定 修正箇所レコメンド ビジネスに携わるすべての⼈が、⾃⾝の業務に集中できるために。 |Sec.0 ֎ࠃޠରԠ ४උதʂ ©2019 GVA TECH Co., Ltd 5
  4. 契約書の所在 • 労働契約 • 秘密保持契約 • 業務委託契約 17% |############ |Sec.1

    ๏຿෦ ๏຿ スタートアップ 中⼩企業 ⼤企業 個⼈ 例えば… • 業務委託契約 • システム開発契約 • ソフトウェア、 ライセンス契約 • 売買契約 ©2019 GVA TECH Co., Ltd 8
  5. 契約書の所在 20% |############### |Sec.1 ๏຿෦ ๏຿ スタートアップ 中⼩企業法務 ⼤企業法務 業務委託契約

    コンテンツ開発契約 ソフトウェア・ ライセンス契約 売買契約 個⼈ 鍵付きキャビネット ⾦庫 貸し⾦庫 ・おおよその契約書は⾦庫に⼊っている。 ・(⼀部テンプレートを除いて)クローラーやスクレイピングでは 取ってこれない。そもそも情報化されていない。 ・需要は⾼いが全く出回ることのない⾃然⾔語データ ©2019 GVA TECH Co., Ltd 9
  6. ⼿法について 37% |########################### • 契約書に現れることばが、⼀般的に使⽤されることばとどれだけ近い/同 じか、または遠い/違うかを調べたい。 • コーパスには、国⽴国語研究所が⾏ってきた語彙調査の⼿法を⽣かし現代 ⽇本語の縮図となるように設計された「現代⽇本語書き⾔葉均衡コーパス (以下、BCCWJ)[1]」を使⽤する。

    • ⾃社の契約書データ(約10万⽂)と、 BCCWJの出版書籍/出版雑誌/出版 新聞/図書館書籍/コアデータと特定⽬的データ9種、計15領域(注1)の品 詞構成の⽐較を⾏った。 • また、⽐較に使⽤した単位は短単位であり、解析には解析エンジン MeCabと形態素解析⽤辞書UniDicを使⽤した。 (注1)コーパスにおけるデータ収集期間、サンプル数、サンプリング⽅法は「BCCWJ関連報告書」 https://pj.ninjal.ac.jp/corpus_center/bccwj/doc.html を御覧ください。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 14
  7. 品詞構成表(語数) 43% |############################## |Sec.2.1 契約書 出版 図書 出版 雑誌 出版

    新聞 図書館 書籍 ⽩書 教科書 広報紙 ベスト セラー Yahoo! 知恵袋 Yahoo! ブログ 韻⽂ 法律 国会 議事録 コア データ 品 詞 の 延 べ 語 数 品 詞 の 異 な り 語 数 ©2019 GVA TECH Co., Ltd
  8. 品詞構成表(割合) 46% |############################### |Sec.2.1 契約書 出版 図書 出版 雑誌 出版

    新聞 図書館 書籍 ⽩書 教科書 広報紙 ベスト セラー Yahoo! 知恵袋 Yahoo! ブログ 韻⽂ 法律 国会 議事録 コア データ 品 詞 の 延 べ 語 割 合 品 詞 の 異 な り 語 割 合 ©2019 GVA TECH Co., Ltd
  9. まとめ 49% |################################ • 「契約書」は15の領域の中では「法律」に品詞構成が最も似ている。 = ⽂の書き⽅が似ている。 • しかし、「契約書」の副詞、代名詞、連体詞は「法律」の2倍近く多い。 =

    より表現豊かな⽂の書き⽅になっている。 • 接続詞が「法律」より「契約書」の⽅が多い。 = 但し書きを、後⽂にどんどん追加して書いていく契約書の特徴が 現れている。⽂脈の意味が反転するところも注意が必要。 |Sec.2.1 ©2019 GVA TECH Co., Ltd 18
  10. 契約書⽂/法律⽂/コアデータの頻出名詞 55% |################################### |Sec.2.2 契約書 法律 コア データ 頻 出

    順 契約書データで頻出の甲/⼄は、 法律⽂書には全く現れず、 ⽇本語コアデータでも5000番代前後。 契約書データで頻出の受領は、 法律⽂書には少々現れるものの、 ⽇本語コアデータではめったに現れ ない。 灰⾊部分はそのカテゴリーで⼀度も数 えられなかったことを表している。 ⻩⾊部分はそのカテゴリーで頻出順位 が100番以降のものを指している。 ©2019 GVA TECH Co., Ltd 20
  11. 契約書⽂/法律⽂/コアデータの頻出動詞 59% |##################################### |Sec.2.2 契約書 法律 コア データ 頻 出

    順 ⻩⾊部分はそのカテゴリーで頻出順位 が100番以降のものを指している。 ⾦銭に関わる動詞、特に「返す」は 法律ではあまり使⽤がみられないが、 契約書では頻出。 責任の所在に関わる動詞はコアデー タはあまり使⽤がみられないが、契 約書データでは頻出。 ©2019 GVA TECH Co., Ltd 21
  12. まとめ 65% |######################################## • 品詞構成は似ていても、使⽤語彙は異なる点が多い。 = ⽂の書き⽅は似ていても、書く内容が違うことを⽰唆している。 • 「法律」では使⽤しない名詞が「契約書」の頻出1位と2位に。 =

    「契約書」最⼤の特徴。 • 「契約書」では頻出する⾦銭に関する動詞と責任のとり⽅に関わる動詞は、 「法律」ではあまり⽤いられない。 = 具体的な⾦銭⽀払いに関する取り決め事象⾃体「法律」に あまり出て来ない。 = 「契約書」と「法律」で責任の課し⽅が異なる。 |Sec.2.2 ©2019 GVA TECH Co., Ltd 22
  13. モデルの解釈性 80% |###################################################### |Sec.3 • 近年、深層学習モデルの解釈性について ワークショップ等で活発に議論されてお り、解釈可能なモデルが流⾏っている。 • 明確な答えはまだなく発展途上。

    • 気をつける点 • 誤説明の可能性 • 導⼊コストの検討 • ⼈間による判断の必要性 Riccardo, G., at al.(2018) A Survey Of Methods For Explaining Black Box Models[2], p.20 ©2019 GVA TECH Co., Ltd
  14. “解釈性”のいろんな解釈 85% |####################################################### |Sec.3 • Attentionで(タスクによっては)うまく解釈できる説 • Attentionの重みを⼿がかりにモデルの解釈性を探る⼿法 • Attention

    matrixの可視化がよく⽤いられる • 感情分析ではAttentionの情報で隣接単語の関係性が分類に重要であるこ とが⽰唆されている • Gael, L., et al. (2018) Importance of Self-Attention for Sentiment Analysis[3] • Attentionでうまく解釈できない説 • Sarthank, J., Byron, C. W. (2019) Attention in not Explanation[4] • Attentionを加⼯すればうまくいく説︓saliency • NLPのAttention層に対する勾配ベースの解釈性の導⼊ • Reza, G., et al.(2018) Interpreting Recurrent and Attention-Based Neural Model: a Case Study on Natural Language Inference[5] ©2019 GVA TECH Co., Ltd 29
  15. 解釈の対象とモチベーション 89% |######################################################### |Sec.3 u 結局何が分かればモデルを解釈したことになるのか︖ • モデルの判断根拠 u なぜモデルの判断根拠が知りたいのか︖

    • ネットワークが好ましい学習をしているか どうかの確認 • 精度向上のための突破⼝(誤予測を引き起こ してしまった⼊⼒を探すなど) • ユーザーへの説明責任 ©2019 GVA TECH Co., Ltd 30
  16. 弊社の場合 92% |########################################################### |Sec.3 • ⼤事な契約書締結に関わる契約書内容の判断=ミスが許されない。 • どう判断しているか分からないものを使⽤するのが不安なユーザーへの説明 責任。 •

    ユーザーとしても根拠がほしい。安⼼感は、いわゆる精度の数値が良いだけ では得られない。 • 数字(精度)的にもよく、⼈間の感覚にも合っていれば、モデルの信頼性は ⾼いといえる。 課題 ©2019 GVA TECH Co., Ltd 31
  17. 引⽤/参考⽂献 <>ݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʢ#$$8+ʣIUUQTQKOJOKBMBDKQDPSQVT@DFOUFSCDDXK <>3JDDBSEP(VJEPUUJ "OOB.POSFBMF 4BMWBUPSF3VHHJFSJ 'SBODP5VSJOJ %JOP1FESFTDIJ BOE 'PTDB (JBOOPUUJ

     " 4VSWFZ0G.FUIPET'PS&YQMBJOJOH#MBDL#PY.PEFMT <>(BËM -FUBSUF 'SÉEÉSJL1BSBEJT 1IJMJQQF(JHVÈSF BOE 'SBOÇPJT-BWJPMFUUF  *NQPSUBODFPG4FMG"UUFOUJPOGPS 4FOUJNFOU"OBMZTJT 1SPDFFEJOHTPGUIF&./-18PSLTIPQ#MBDLCPY/-1"OBMZ[JOHBOE*OUFSQSFUJOH/FVSBM /FUXPSLTGPS/-1 <>4BSUIBL +BJO #ZSPO$8BMMBDF  "UUFOUJPOJTOPU&YQMBOBUJPO /""$- <>3F[B(IBFJOJ 9JBPMJ;'FSO 1SBTBE5BEFQBMMJ  *OUFSQSFUJOH3FDVSSFOUBOE"UUFOUJPO#BTFE/FVSBM.PEFMTB $BTF4UVEZPO/BUVSBM-BOHVBHF*OGFSFODF &./-1 <>ਓ޻஌ೳֶձʮػցֶशʹ͓͚Δղऍੑ *OUFSQSFUBCJMJUZJO.BDIJOF-FBSOJOH ʯIUUQTXXXBJHBLLBJPSKQNZ CPPLNBSL@WPMOP <>,JLVP .BFLBXB .BLPUP:BNB[BLJ 5PTIJOPCV 0HJTP 5BLFIJLP.BSVZBNB )JEFLJ0HVSB 8BLBLP ,BTIJOP )BOBF ,PJTP .BTBZB:BNBHVDIJ .BLJSP 5BOBLB BOE:BTVIBSV %FO#BMBODFEDPSQVTPGDPOUFNQPSBSZXSJUUFO+BQBOFTF -BOHVBHF3FTPVSDFTBOE&WBMVBUJPO  QQ %0*T  <>ࠃཱࠃޠݚڀॴίʔύε։ൃηϯλʔʮʰݱ୅೔ຊޠॻ͖ݴ༿ۉߧίʔύεʱར༻ͷख Ҿୈ ൛ʯࠃཱࠃޠݚڀॴ  98% |############################################################## |References ©2019 GVA TECH Co., Ltd 33