Upgrade to Pro — share decks privately, control downloads, hide ads and more …

法律文書の自動解析

puripuri2100
June 03, 2023
620

 法律文書の自動解析

筑波大学産学間連携推進室( http://www.ac-room.org/ )で研究している内容の成果報告です
https://github.com/puripuri2100/law-analysis-report/blob/master/2022/law.pdf に成果報告書があります

puripuri2100

June 03, 2023
Tweet

Transcript

  1. 読み替え規定文の解析 4/75 準用・読み替え規定の具体例 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略) 第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として

    薬局 の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで ない。
  2. 読み替え規定文の解析 4/75 準用・読み替え規定の具体例 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略) 第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として

    薬局 の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで ない。 第十七条第八項: 医薬品製造管理者 については、第七条第四項及び第八 条第一項の規定を準用する。この場合において、第七条第四項中「 その薬 局の所在地の都道府県知事 」とあるのは、 「 厚生労働大臣 」と読み替える ものとする。
  3. 読み替え規定文の解析 4/75 準用・読み替え規定の具体例 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略) 第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として

    薬局 の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで ない。 第十七条第八項(改): 医薬品製造管理者 は、その 医薬品製造 以外の場 所で業として 医薬品製造 その他薬事に関する実務に従事する者であつて はならない。ただし、厚生労働大臣 の許可を受けたときは、この限りでな い。
  4. 読み替え規定文の解析 6/75 準用・読み替え規定の難しさ 文を上書きすることの本質的な難しさに起因する難しさがある: 登場する文が不自然で混乱しがち 内容によってはとても長くなる 第七十条の七の二第二十二項から第二十六項までの規定は、認定相続承継会社について同条第二十二項に規定する評定が行 われた場合における納税猶予分の相続税額の計算及び免除について準用する。 この場合において、 同項から同条第二十五

    項までの規定中 「経営承継期間」 とあるのは 「経営相続承継期間 (第七十条の七の四第一項の規定の適用を受ける経営相 続承継受贈者に係る贈与者が同条第二項第五号イ又はロに掲げる日のいずれか早い日の翌日以後に死亡した場合にあつては、 当該経営相続承継受贈者に係る前条第二項第六号に規定する経営贈与承継期間) 」 と、 「、 第一項」 とあるのは 「、 第七 十条の七の四第一項」 と、 「対象非上場株式等に」 とあるのは 「対象相続非上場株式等に」 と、 「認定承継会社」 とある のは 「認定相続承継会社」 と、 「経営承継相続人等」 とあるのは 「経営相続承継受贈者」 と、 「対象非上場株式等 (」 と あるのは「対象相続非上場株式等(」と、 「相続により取得をした対象非上場株式等の当該相続の時における」とあるのは 「対象相続非上場株式等の」 と、 同条第二十三項中 「を第一項」 とあるのは 「を同条第一項」 と、 「第二項第五号」 とあ るのは「同条第二項第四号」と読み替えるものとする。 租税特別措置法 第七十条の七の四第十三項
  5. 読み替え規定文の解析 6/75 準用・読み替え規定の難しさ 文を上書きすることの本質的な難しさに起因する難しさがある: 登場する文が不自然で混乱しがち 内容によってはとても長くなる 第七十条の七の二第二十二項から第二十六項までの規定は、認定相続承継会社について同条第二十二項に規定する評定が行 われた場合における 納税猶予分の相続税額の計算及び免除について準用する。 この場合において、同項から同条第二十五項

    までの規定中「 経営承継期間 」とあるのは「 経営相続承継期間(第七十条の七の四第一項の規定の適用を受ける経営相続承 継受贈者に係る贈与者が同条第二項第五号イ又はロに掲げる日のいずれか早い日の翌日以後に死亡した場合にあつては、当 該経営相続承継受贈者に係る前条第二項第六号に規定する経営贈与承継期間) 」と、 「 、第一項 」とあるのは「 、第七十条の 七の四第一項 」と、 「 対象非上場株式等に 」とあるのは「 対象相続非上場株式等に 」と、 「 認定承継会社 」とあるのは「 認 定相続承継会社 」 と、 「 経営承継相続人等 」 とあるのは 「 経営相続承継受贈者 」 と、 「 対象非上場株式等 ( 」 とあるのは 「 対 象相続非上場株式等( 」と、 「 相続により取得をした対象非上場株式等の当該相続の時における 」とあるのは「 対象相続 非上場株式等の 」と、同条第二十三項中「 を第一項 」とあるのは「 を同条第一項 」と、 「 第二項第五号 」とあるのは「 同条 第二項第四号 」と読み替えるものとする。 租税特別措置法 第七十条の七の四第十三項
  6. 読み替え規定文の解析 7/75 読み替え規定文の平易化 現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正 が無い限り残り続ける 解決策: 読み替え規定文の解析 「何が」 「どう」読み替えられるのか? 読み替え後の文の自動生成ができるとよさそう

    読み替え規定文への注釈の自動付与 前述の例のように色が付くとまだわかりやすくなる つまり、読み替え規定文中に出現する読み替えられる語(「何が」)・読み 替える語(「どう」)を抽出できれば良い
  7. 読み替え規定文の解析 7/75 読み替え規定文の平易化 現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正 が無い限り残り続ける 解決策: 読み替え規定文の解析 「何が」 「どう」読み替えられるのか? 読み替え後の文の自動生成ができるとよさそう

    読み替え規定文への注釈の自動付与 前述の例のように色が付くとまだわかりやすくなる つまり、読み替え規定文中に出現する読み替えられる語(「何が」)・読み 替える語(「どう」)を抽出できれば良い ← やりました
  8. 読み替え規定文の解析 9/75 先行研究 法令を解析する研究は過去に様々ある: 信岡俊祐 , 中村誠 , 島津明.法例文の論理式への変換.言語処理学会第 13

    回年次大会発表論文集. 2007, pp.254-257 木村 祐介. 号の列挙や参照表現をもつ法令文への論理式への変換. 北陸 先端科学技術大学院大学情報科学研究科情報処理学専攻修士論文. 2008. 主なアプローチ手法は法令の構造化である。
  9. 読み替え規定文の解析 9/75 先行研究 法令を解析する研究は過去に様々ある: 信岡俊祐 , 中村誠 , 島津明.法例文の論理式への変換.言語処理学会第 13

    回年次大会発表論文集. 2007, pp.254-257 木村 祐介. 号の列挙や参照表現をもつ法令文への論理式への変換. 北陸 先端科学技術大学院大学情報科学研究科情報処理学専攻修士論文. 2008. 主なアプローチ手法は法令の構造化である。 しかし、これらの中では読み替え規定文は そもそもとして構造化の対象としない 構造化を諦める のどちらかとなっており、扱われていない ← 準用文から語を抽出するのが とても難しいのが理由?
  10. 読み替え規定文の解析 11/75 読み替え規定文のパターン 細かなブレはあるものの、概ね以下の 3 つに分けられることが観察の結果わ かった: 「A」とあるのは、 「B」と読み替えるものとする。 A→B

    の置換 「A」とあるのは「B」と、 「C」とあるのは「D」と読み替えるものとする。 A→B の置換 C→D の置換 「A1」とあり、 「A2」とあるのは、 「B」と読み替えるものとする。 A1→B の置換 A2→B の置換
  11. 読み替え規定文の解析 12/75 読み替え規定文のパターンを合体させる 前述の 3 つのパターンをより一般化して正規表現っぽい記法で書く: (( 「~」 とあり、 )*

    「~」 とあるのは、 「~」 と、 )* (「~」 とあり、 )* 「~」 とあるのは、 「~」 と読み替えるものとする。
  12. 読み替え規定文の解析 12/75 読み替え規定文のパターンを合体させる 前述の 3 つのパターンをより一般化して正規表現っぽい記法で書く: (( 「~」 とあり、 )*

    「~」 とあるのは、 「~」 と、 )* (「~」 とあり、 )* 「~」 とあるのは、 「~」 と読み替えるものとする。 正規表現 like に書けるならばキーワードの出現規則に着目することで先頭 から読んでいくだけで解析できるのでは?
  13. 読み替え規定文の解析 14/75 実験の設定 解析対象の法令データは以下のとおりである: e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML データ全て

    2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699 個) 読み替え規定文には必ず 「と読み替える」 という語が出現するため、 こ れを含む条文に対して解析を行った 「と読み替える」という語を含む条文は 11,681 個 うち、読み替え規定文が引用されていた条文が 9 つ この 9 つの条文は解析対象とはしない つまり、 11,672 個の条文を解析した
  14. 読み替え規定文の解析 15/75 実験結果 11,672 個の条文のうち、 11,428 個の条文の解析・語の抽出に成功した (98%) 抽出した読み替えられる語・読み替える語の組は 40,673

    組 244 個の条文については失敗した 失敗した理由: 文中の括弧の対応が壊れているものがある 表形式で与えているものがある 読み替える語等の指定に鍵括弧をしていないものがある
  15. 読み替え規定文の解析 19/75 まとめ 鍵括弧及びキーワードを手掛かりにすることで、法令の構造化をせずに既 存の読み替え規定文の 98% から語を抽出することができた 全体の 2% で解析に失敗する場合がある

    表形式で与えられる場合には特別に表の中身も解析することで対応したい 括弧の対応が壊れている条文を自動補正することで対応したい この解析によって以下のような発展が考えられる 読み替え規定文の平易化 準用後の条文の自動生成 → 法令執務の負担を軽減する 法令単語の辞書の自動作成への寄与
  16. 略称・定義規定文の解析 24/75 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい

    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第九条 国及び地方公共団体は、 青少年がインターネットを適切に活用する能力 を習得することができるよう、 学校教育、 社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。
  17. 略称・定義規定文の解析 24/75 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい

    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第九条 国及び地方公共団体は、 青少年が インターネットを適切に活用する能 力 を習得することができるよう、学校教育、社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。
  18. 略称・定義規定文の解析 24/75 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい

    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、青少年自ら が、 主体的に情報通信機器を使い、 インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。
  19. 略称・定義規定文の解析 24/75 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい

    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自 らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。
  20. 略称・定義規定文の解析 27/75 先行研究 略称・定義規定文を解析する方法についての先行研究: Makoto Nakamura, Ryusei Kobayashi, Yasuhiro Ogawa,

    and Katsuhiko Toyama. A Pattern-Based Approach to Hyponymy Relation Acquisition for the Agricultural Thesaurus. In Proceedings of AOS2012, pages 2-9, 2012. 中村誠,小川泰弘,外山勝彦.法令文中において括弧書きで定義されてい る法令用語とその語釈文の抽出. 言語処理学会第 19 回年次大会発表論文 集. 2013, pp.670-673 基本的に法令コーパスを用いて解析する手法を取っている。 ただし、複数の規定文の解析ができないなどの制約が存在している
  21. 略称・定義規定文の解析 29/75 略称・定義規定文のパターン 中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている: トイウ形:「A、 B 及び C

    (以下「〇〇〇」という。)」 ヲイウ形:「〇〇〇(A、 B 及び C をいう。以下同じ。)」 どちらも 略称:〇〇〇 正式名称: A、 B 及び C という意味であるが、書き方が 2 通りあることがわかる。
  22. 略称・定義規定文の解析 31/75 判定アルゴリズムの案 係り受け解析を用いる 〇 〇 〇 〇 〇 〇

    〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう
  23. 略称・定義規定文の解析 31/75 判定アルゴリズムの案 係り受け解析を用いる 〇 〇 〇 〇 〇 〇

    〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×
  24. 略称・定義規定文の解析 32/75 実装 1. 正規表現を用いて略称・定義規定文が含まれる条文を抽出する 2. GiNZA という NLP ライブラリに渡して係り受け解析をする

    3. 係り受けの関係の有向グラフを解析し、分割位置を決定する 4. 分割位置を元に略称と正式名称を抽出する 5. 抽出した組み合わせを JSON ファイル形式で出力 GiNZA*1は Python で実装された、事前学習モデルを用いた自然言語処理ラ イブラリである 1 https://github.com/megagonlabs/ginza
  25. 略称・定義規定文の解析 33/75 実験の設定 解析対象の法令データは以下のとおりである: e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML データ全て

    2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699 個) GiNZA のバージョンは v5.0 系列を用いた (精度が以前の物より向上して いる)
  26. 法令名の自動抽出 45/75 先行研究 木村祐介.号の列挙や参照表現をもつ法令文への論理式への変換.北陸先 端科学技術大学院大学情報科学研究科情報処理学専攻修士論文. 2008. 参照表現の整理をしている Koichiro Shibao. “可視化法学”.

    https://www.lawvis.info/, 2023 年 6 月 1 日確認. 法令間の参照情報を元に、結びつきの強さなどを可視化するプロジェクト 関本大樹. 租税法令の自動機械処理に関する一つの試み : ハッシュ法に 基づく条項名の実用的な抽出方法について. 久留米大学法学 79. 2019. 180-147. 法令名と法令番号のみをハッシュ表をもとに抽出
  27. 法令名の自動抽出 45/75 先行研究 木村祐介.号の列挙や参照表現をもつ法令文への論理式への変換.北陸先 端科学技術大学院大学情報科学研究科情報処理学専攻修士論文. 2008. 参照表現の整理をしている Koichiro Shibao. “可視化法学”.

    https://www.lawvis.info/, 2023 年 6 月 1 日確認. 法令間の参照情報を元に、結びつきの強さなどを可視化するプロジェクト 関本大樹. 租税法令の自動機械処理に関する一つの試み : ハッシュ法に 基づく条項名の実用的な抽出方法について. 久留米大学法学 79. 2019. 180-147. 法令名と法令番号のみをハッシュ表をもとに抽出 法令名の略称に対応できていない・相対的な参照表現への対応が甘いという課題が存在している
  28. 法令名の自動抽出 46/75 本研究の目的 1. 法令名の略称を収集する ← 今回の成果 2. 略称含む法令名が参照されている位置を記録する 3.

    記録した位置を元に参照表現を抽出する 4. 抽出した参照表現を具体的な条項に置き換える を行うことで網羅的な参照表現の抽出を行いたい
  29. 法令名の自動抽出 48/75 法令名の略称のパターン <法令の正式名称>(<法令番号>。<条件文>において「<略称>」と いう。) ← ほぼこのパターン 郵政民営化法第六条の二 郵便局株式会社は、 郵政民営化法等の一部を改正する等の法律

    (平成二 十四年法律第三十号。 以下 「平成二十四年改正法」 という。 ) の施行 の日(以下「平成二十四年改正法施行日」という。)に、その商号を日本 郵便株式会社に変更するものとする。
  30. 法令名の自動抽出 48/75 法令名の略称のパターン <法令の正式名称>(<法令番号>。<条件文>において「<略称>」と いう。) ← ほぼこのパターン 郵政民営化法第百七十四条第二項 この法律の施行の際現に存する整備法第二条の規定による廃止前の 郵便

    振替法(昭和二十三年法律第六十号。 次項において 「旧郵便振替法」と いう。) の規定による郵便振替の口座(軍事郵便貯金等特別処理法(昭 和二十九年法律第百八号)第二条第五号に規定する外地郵便振替貯金に係 るものを除く。)の預り金は、この法律の施行の時において、承継計画 において定めるところに従い、郵便貯金銀行が受け入れた預金となるもの とする。
  31. 法令名の自動抽出 49/75 略称定義からの抽出の実装 法令番号から法令名は特定できるため、正規表現を用いて 法令番号 条件文 略称 の 3 つの情報を取り出す。

    ((明治|大正|昭和|平成|令和)(一|二|三|四|五|六|七|八|九|十|〇)+年 [^ () 、 。 あ-ん]+第(一|二|三|四|五|六|七|八|九|十|百|千|〇)+号。 ?(以下)?([^」 ) ]+において)?、 ? 「[^」 ]*(法|令)」 という。
  32. 法令名の自動抽出 51/75 実験結果 3504 個の条例から合計 11193 個の定義された略称情報を抽出した 例: 地方分権の推進を図るための関係法律の整備等に関する法律(平成十一年 法律第八十七号)

    → 地方分権推進整備法 国立研究開発法人日本原子力研究開発機構法(平成十六年法律第百五十五 号) → 機構法 犯罪による収益の移転防止に関する法律施行規則の一部を改正する命令 (平成二十七年内閣府・総務省・法務省・財務省・厚生労働省・農林水産 省・経済産業省・国土交通省令第三号) → 平成二十七年改正命令
  33. 判例の自動収集およびテキストデータ化 64/75 実装 スクレイピングでデータを収集する 1. 日付による期間指定検索のクエリをつけてアクセス 2. 取得した一覧ページを元に個別の判例詳細ページにアクセス 3. 判例詳細ページから必要なデータを取り出し、

    判決文の PDF ファイル をダウンロード 4. ダウンロードした判決文の PDF ファイルからテキスト抽出 スクレイピング部分は Rust で実装し、テキスト抽出には poppler ライブラ リ*7が提供する pdftotext コマンドを使用 7 https://poppler.freedesktop.org/
  34. 判例の自動収集およびテキストデータ化 65/75 実験 2023 年 1 月 15 日に、1926 年から2023

    年までの期間の裁判例を収集した 69962 件のデータの収集に成功
  35. 判例の自動収集およびテキストデータ化 65/75 実験 2023 年 1 月 15 日に、1926 年から2023

    年までの期間の裁判例を収集した 69962 件のデータの収集に成功 テキスト抽出の精度があまり高くなかった
  36. 判例の自動収集およびテキストデータ化 65/75 実験 2023 年 1 月 15 日に、1926 年から2023

    年までの期間の裁判例を収集した 69962 件のデータの収集に成功 テキスト抽出の精度があまり高くなかった 行番号がある PDF ファイルや均等割り付けなどのノイズとなる情報が多かっ た
  37. まとめ 72/75 各研究のまとめ (1) 読み替え規定文の解析 ルールベース解析で 98% のデータから情報を抽出した 情報処理学会第 85

    回全国大会で発表 学生奨励賞と大会奨励賞を受賞 略称・定義規定文の解析 係り受け解析の結果から自動判定を行う手法を開発 改善の余地はまだまだあるものの、それなりの精度が出ている雰囲気がある
  38. まとめ 73/75 各研究のまとめ (2) 法令名の自動抽出 法令名の略称一覧を生成 次にやることだらけ 法令名出現箇所の特定 条項の抽出 判例の自動収集およびテキストデータ化

    裁判所が公開している判例を全て収集 判決文のテキスト化については改善の余地がある ページのミスを発見し、最高裁判所に報告して修正してもらった