$30 off During Our Annual Pro Sale. View Details »

法律文書の自動解析

puripuri2100
June 03, 2023
460

 法律文書の自動解析

筑波大学産学間連携推進室( http://www.ac-room.org/ )で研究している内容の成果報告です
https://github.com/puripuri2100/law-analysis-report/blob/master/2022/law.pdf に成果報告書があります

puripuri2100

June 03, 2023
Tweet

More Decks by puripuri2100

Transcript

  1. 法律文書の自動解析
    筑波大学情報学群情報科学類
    金子尚樹 [[email protected]]
    産学間連携推進室成果報告会
    2023 年 6 月 3 日

    View Slide

  2. 本プロジェクトの概要
    本プロジェクトの概要

    View Slide

  3. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!

    View Slide

  4. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!
    条文に書かれている一文の長さが長い

    View Slide

  5. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!
    条文に書かれている一文の長さが長い
    参照される条文や判例の数が多い

    View Slide

  6. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!
    条文に書かれている一文の長さが長い
    参照される条文や判例の数が多い
    日本語としてかなり不自然

    View Slide

  7. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!
    条文に書かれている一文の長さが長い
    参照される条文や判例の数が多い
    日本語としてかなり不自然
    などなど ……

    View Slide

  8. 本プロジェクトの概要 1/75
    解決したい課題
    法律文書は読みにくい!
    条文に書かれている一文の長さが長い
    参照される条文や判例の数が多い
    日本語としてかなり不自然
    などなど ……
    → 法律文書の真横に適切な補足情報が自動で出てきたら結構便利かも

    View Slide

  9. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか

    View Slide

  10. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか
    沢山あるが、今回報告するのは以下の 4 つ

    View Slide

  11. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか
    沢山あるが、今回報告するのは以下の 4 つ
    準用・読み替え規定文

    View Slide

  12. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか
    沢山あるが、今回報告するのは以下の 4 つ
    準用・読み替え規定文
    略称の定義

    View Slide

  13. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか
    沢山あるが、今回報告するのは以下の 4 つ
    準用・読み替え規定文
    略称の定義
    他の条項への参照

    View Slide

  14. 本プロジェクトの概要 2/75
    課題の分割
    何に関する補足情報が出てきてほしいか
    沢山あるが、今回報告するのは以下の 4 つ
    準用・読み替え規定文
    略称の定義
    他の条項への参照
    判例全般

    View Slide

  15. 読み替え規定文の解析
    読み替え規定文の解析

    View Slide

  16. 読み替え規定文の解析 3/75
    準用・読み替え規定とは
    準用とは「似ている規定について一つの条文を使いまわして適用する手法」
    読み替え規定とは「使いまわす際に必要な修正の指示」

    View Slide

  17. 読み替え規定文の解析 3/75
    準用・読み替え規定とは
    準用とは「似ている規定について一つの条文を使いまわして適用する手法」
    読み替え規定とは「使いまわす際に必要な修正の指示」

    View Slide

  18. 読み替え規定文の解析 3/75
    準用・読み替え規定とは
    準用とは「似ている規定について一つの条文を使いまわして適用する手法」
    読み替え規定とは「使いまわす際に必要な修正の指示」
    プログラミングでの似た概念としては準用 = 継承システム・読み替え規定 =
    変数・定数のオーバーライド

    View Slide

  19. 読み替え規定文の解析 4/75
    準用・読み替え規定の具体例
    医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略)
    第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として 薬局
    の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ
    し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで
    ない。

    View Slide

  20. 読み替え規定文の解析 4/75
    準用・読み替え規定の具体例
    医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略)
    第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として 薬局
    の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ
    し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで
    ない。
    第十七条第八項: 医薬品製造管理者 については、第七条第四項及び第八
    条第一項の規定を準用する。この場合において、第七条第四項中「 その薬
    局の所在地の都道府県知事 」とあるのは、
    「 厚生労働大臣 」と読み替える
    ものとする。

    View Slide

  21. 読み替え規定文の解析 4/75
    準用・読み替え規定の具体例
    医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略)
    第七条第四項: 薬局の管理者 は、 その 薬局 以外の場所で業として 薬局
    の管理 その他薬事に関する実務に従事する者であつてはならない。 ただ
    し、その薬局の所在地の都道府県知事 の許可を受けたときは、この限りで
    ない。
    第十七条第八項(改): 医薬品製造管理者 は、その 医薬品製造 以外の場
    所で業として 医薬品製造 その他薬事に関する実務に従事する者であつて
    はならない。ただし、厚生労働大臣 の許可を受けたときは、この限りでな
    い。

    View Slide

  22. 読み替え規定文の解析 5/75
    準用・読み替え規定の意義
    部品の再利用
    条文の過度な増大を防ぐ
    人になるべくやさしく
    似ているものをまとめ、似ている中での相違点を明確にする
    判断の時に便利
    似ている事例での解釈や裁判例などをとても参考にできる
    ただ当てはめるだけではなく、違う場所を意識しながら必要な箇所だけを当
    てはめられる

    View Slide

  23. 読み替え規定文の解析 5/75
    準用・読み替え規定の意義
    部品の再利用
    条文の過度な増大を防ぐ
    人になるべくやさしく
    似ているものをまとめ、似ている中での相違点を明確にする
    判断の時に便利
    似ている事例での解釈や裁判例などをとても参考にできる
    ただ当てはめるだけではなく、違う場所を意識しながら必要な箇所だけを当
    てはめられる
    準用・読み替え規定はとても大事で、分野を問わず法律文書で多用される

    View Slide

  24. 読み替え規定文の解析 6/75
    準用・読み替え規定の難しさ
    文を上書きすることの本質的な難しさに起因する難しさがある:
    登場する文が不自然で混乱しがち
    内容によってはとても長くなる

    View Slide

  25. 読み替え規定文の解析 6/75
    準用・読み替え規定の難しさ
    文を上書きすることの本質的な難しさに起因する難しさがある:
    登場する文が不自然で混乱しがち
    内容によってはとても長くなる
    第七十条の七の二第二十二項から第二十六項までの規定は、認定相続承継会社について同条第二十二項に規定する評定が行
    われた場合における納税猶予分の相続税額の計算及び免除について準用する。 この場合において、 同項から同条第二十五
    項までの規定中 「経営承継期間」 とあるのは 「経営相続承継期間 (第七十条の七の四第一項の規定の適用を受ける経営相
    続承継受贈者に係る贈与者が同条第二項第五号イ又はロに掲げる日のいずれか早い日の翌日以後に死亡した場合にあつては、
    当該経営相続承継受贈者に係る前条第二項第六号に規定する経営贈与承継期間) 」 と、
    「、 第一項」 とあるのは 「、 第七
    十条の七の四第一項」 と、
    「対象非上場株式等に」 とあるのは 「対象相続非上場株式等に」 と、
    「認定承継会社」 とある
    のは 「認定相続承継会社」 と、
    「経営承継相続人等」 とあるのは 「経営相続承継受贈者」 と、
    「対象非上場株式等 (」 と
    あるのは「対象相続非上場株式等(」と、
    「相続により取得をした対象非上場株式等の当該相続の時における」とあるのは
    「対象相続非上場株式等の」 と、 同条第二十三項中 「を第一項」 とあるのは 「を同条第一項」 と、
    「第二項第五号」 とあ
    るのは「同条第二項第四号」と読み替えるものとする。
    租税特別措置法 第七十条の七の四第十三項

    View Slide

  26. 読み替え規定文の解析 6/75
    準用・読み替え規定の難しさ
    文を上書きすることの本質的な難しさに起因する難しさがある:
    登場する文が不自然で混乱しがち
    内容によってはとても長くなる
    第七十条の七の二第二十二項から第二十六項までの規定は、認定相続承継会社について同条第二十二項に規定する評定が行
    われた場合における 納税猶予分の相続税額の計算及び免除について準用する。 この場合において、同項から同条第二十五項
    までの規定中「 経営承継期間 」とあるのは「 経営相続承継期間(第七十条の七の四第一項の規定の適用を受ける経営相続承
    継受贈者に係る贈与者が同条第二項第五号イ又はロに掲げる日のいずれか早い日の翌日以後に死亡した場合にあつては、当
    該経営相続承継受贈者に係る前条第二項第六号に規定する経営贈与承継期間) 」と、
    「 、第一項 」とあるのは「 、第七十条の
    七の四第一項 」と、
    「 対象非上場株式等に 」とあるのは「 対象相続非上場株式等に 」と、
    「 認定承継会社 」とあるのは「 認
    定相続承継会社 」
    と、
    「 経営承継相続人等 」
    とあるのは
    「 経営相続承継受贈者 」
    と、
    「 対象非上場株式等
    ( 」
    とあるのは
    「 対
    象相続非上場株式等( 」と、
    「 相続により取得をした対象非上場株式等の当該相続の時における 」とあるのは「 対象相続
    非上場株式等の 」と、同条第二十三項中「 を第一項 」とあるのは「 を同条第一項 」と、
    「 第二項第五号 」とあるのは「 同条
    第二項第四号 」と読み替えるものとする。
    租税特別措置法 第七十条の七の四第十三項

    View Slide

  27. 読み替え規定文の解析 7/75
    読み替え規定文の平易化
    現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正
    が無い限り残り続ける

    View Slide

  28. 読み替え規定文の解析 7/75
    読み替え規定文の平易化
    現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正
    が無い限り残り続ける
    解決策:
    読み替え規定文の解析
    「何が」
    「どう」読み替えられるのか?
    読み替え後の文の自動生成ができるとよさそう
    読み替え規定文への注釈の自動付与
    前述の例のように色が付くとまだわかりやすくなる

    View Slide

  29. 読み替え規定文の解析 7/75
    読み替え規定文の平易化
    現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正
    が無い限り残り続ける
    解決策:
    読み替え規定文の解析
    「何が」
    「どう」読み替えられるのか?
    読み替え後の文の自動生成ができるとよさそう
    読み替え規定文への注釈の自動付与
    前述の例のように色が付くとまだわかりやすくなる
    つまり、読み替え規定文中に出現する読み替えられる語(「何が」)・読み
    替える語(「どう」)を抽出できれば良い

    View Slide

  30. 読み替え規定文の解析 7/75
    読み替え規定文の平易化
    現実問題として読み替え規定文は法令中に数多く存在するし、それらは改正
    が無い限り残り続ける
    解決策:
    読み替え規定文の解析
    「何が」
    「どう」読み替えられるのか?
    読み替え後の文の自動生成ができるとよさそう
    読み替え規定文への注釈の自動付与
    前述の例のように色が付くとまだわかりやすくなる
    つまり、読み替え規定文中に出現する読み替えられる語(「何が」)・読み
    替える語(「どう」)を抽出できれば良い ← やりました

    View Slide

  31. 読み替え規定文の解析 8/75
    本研究の目的
    1. 法令中の読み替え規定文を解析し、
    2. 読み替えられる語と
    3. 読み替える語を
    4. 自動で抽出する

    View Slide

  32. 読み替え規定文の解析 9/75
    先行研究
    法令を解析する研究は過去に様々ある:
    信岡俊祐 , 中村誠 , 島津明.法例文の論理式への変換.言語処理学会第 13
    回年次大会発表論文集.
    2007,
    pp.254-257
    木村 祐介. 号の列挙や参照表現をもつ法令文への論理式への変換. 北陸
    先端科学技術大学院大学情報科学研究科情報処理学専攻修士論文.
    2008.
    主なアプローチ手法は法令の構造化である。

    View Slide

  33. 読み替え規定文の解析 9/75
    先行研究
    法令を解析する研究は過去に様々ある:
    信岡俊祐 , 中村誠 , 島津明.法例文の論理式への変換.言語処理学会第 13
    回年次大会発表論文集.
    2007,
    pp.254-257
    木村 祐介. 号の列挙や参照表現をもつ法令文への論理式への変換. 北陸
    先端科学技術大学院大学情報科学研究科情報処理学専攻修士論文.
    2008.
    主なアプローチ手法は法令の構造化である。
    しかし、これらの中では読み替え規定文は
    そもそもとして構造化の対象としない
    構造化を諦める
    のどちらかとなっており、扱われていない ← 準用文から語を抽出するのが
    とても難しいのが理由?

    View Slide

  34. 読み替え規定文の解析 10/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  35. 読み替え規定文の解析 11/75
    読み替え規定文のパターン
    細かなブレはあるものの、概ね以下の 3 つに分けられることが観察の結果わ
    かった:

    View Slide

  36. 読み替え規定文の解析 11/75
    読み替え規定文のパターン
    細かなブレはあるものの、概ね以下の 3 つに分けられることが観察の結果わ
    かった:
    「A」とあるのは、
    「B」と読み替えるものとする。
    A→B の置換

    View Slide

  37. 読み替え規定文の解析 11/75
    読み替え規定文のパターン
    細かなブレはあるものの、概ね以下の 3 つに分けられることが観察の結果わ
    かった:
    「A」とあるのは、
    「B」と読み替えるものとする。
    A→B の置換
    「A」とあるのは「B」と、
    「C」とあるのは「D」と読み替えるものとする。
    A→B の置換
    C→D の置換

    View Slide

  38. 読み替え規定文の解析 11/75
    読み替え規定文のパターン
    細かなブレはあるものの、概ね以下の 3 つに分けられることが観察の結果わ
    かった:
    「A」とあるのは、
    「B」と読み替えるものとする。
    A→B の置換
    「A」とあるのは「B」と、
    「C」とあるのは「D」と読み替えるものとする。
    A→B の置換
    C→D の置換
    「A1」とあり、
    「A2」とあるのは、
    「B」と読み替えるものとする。
    A1→B の置換
    A2→B の置換

    View Slide

  39. 読み替え規定文の解析 12/75
    読み替え規定文のパターンを合体させる
    前述の 3 つのパターンをより一般化して正規表現っぽい記法で書く:

    View Slide

  40. 読み替え規定文の解析 12/75
    読み替え規定文のパターンを合体させる
    前述の 3 つのパターンをより一般化して正規表現っぽい記法で書く:
    ((
    「~」
    とあり、
    )* 「~」
    とあるのは、
    「~」
    と、
    )* (「~」
    とあり、
    )* 「~」
    とあるのは、
    「~」
    と読み替えるものとする。

    View Slide

  41. 読み替え規定文の解析 12/75
    読み替え規定文のパターンを合体させる
    前述の 3 つのパターンをより一般化して正規表現っぽい記法で書く:
    ((
    「~」
    とあり、
    )* 「~」
    とあるのは、
    「~」
    と、
    )* (「~」
    とあり、
    )* 「~」
    とあるのは、
    「~」
    と読み替えるものとする。
    正規表現 like に書けるならばキーワードの出現規則に着目することで先頭
    から読んでいくだけで解析できるのでは?

    View Slide

  42. 読み替え規定文の解析 13/75
    実装
    条文の文字列を特定のトークンごとに分割する(これは形態素ごとでも一
    文字ごとでも良い)
    一トークンごとに読み込み、鍵括弧とキーワード:
    とあり、
    とある
    と、
    と読み替える
    を元に出現する語を記録する
    記録されていた語を取り出し、ファイルに書きだす

    View Slide

  43. 読み替え規定文の解析 14/75
    実験の設定
    解析対象の法令データは以下のとおりである:
    e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML
    データ全て
    2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699
    個)
    読み替え規定文には必ず 「と読み替える」 という語が出現するため、 こ
    れを含む条文に対して解析を行った
    「と読み替える」という語を含む条文は 11,681 個
    うち、読み替え規定文が引用されていた条文が 9 つ
    この 9 つの条文は解析対象とはしない
    つまり、
    11,672 個の条文を解析した

    View Slide

  44. 読み替え規定文の解析 15/75
    実験結果
    11,672 個の条文のうち、
    11,428 個の条文の解析・語の抽出に成功した (98%)
    抽出した読み替えられる語・読み替える語の組は 40,673 組
    244 個の条文については失敗した

    View Slide

  45. 読み替え規定文の解析 15/75
    実験結果
    11,672 個の条文のうち、
    11,428 個の条文の解析・語の抽出に成功した (98%)
    抽出した読み替えられる語・読み替える語の組は 40,673 組
    244 個の条文については失敗した
    失敗した理由:
    文中の括弧の対応が壊れているものがある
    表形式で与えているものがある
    読み替える語等の指定に鍵括弧をしていないものがある

    View Slide

  46. 読み替え規定文の解析 16/75
    文中の括弧の対応が壊れている場合
    農業委員会等に関する法律 附則(平成二七年九月四日法律第六三号)第三
    十九条
    この場合において、附則第十三条第二項中(中略)
    「 内容」とあるのは 」
    とあるのは「 内容」とあるのは、」と(中略)と読み替えるものとする。

    View Slide

  47. 読み替え規定文の解析 17/75
    表形式で与えている場合
    信託業法施行規則第五十一条の九
    法第五十条の二第一項の登録を受けた者については(中略)の規定を適用
    する。この場合において、これらの規定中「信託業務」とあり、及び「信託
    業」とあるのは、
    「信託法第三条第三号に掲げる方法によってする信託に
    係る事務」とするほか、次の表の上欄に掲げる規定中同表中欄に掲げる字
    句は、同表下欄に掲げる字句と読み替えるものとする。

    View Slide

  48. 読み替え規定文の解析 18/75
    語の指定に鍵括弧を用いない場合
    消防法第 37 条
    特別区の存する区域においては、この法律中 市町村、市町村長又は市町村
    条例 とあるのは、
    それぞれ
    夫々これを 都、都知事又は都条例 と読み替えるものと
    する。

    View Slide

  49. 読み替え規定文の解析 19/75
    まとめ
    鍵括弧及びキーワードを手掛かりにすることで、法令の構造化をせずに既
    存の読み替え規定文の 98% から語を抽出することができた
    全体の 2% で解析に失敗する場合がある
    表形式で与えられる場合には特別に表の中身も解析することで対応したい
    括弧の対応が壊れている条文を自動補正することで対応したい
    この解析によって以下のような発展が考えられる
    読み替え規定文の平易化
    準用後の条文の自動生成 → 法令執務の負担を軽減する
    法令単語の辞書の自動作成への寄与

    View Slide

  50. 読み替え規定文の解析 20/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  51. 略称・定義規定文の解析
    略称・定義規定文の解析

    View Slide

  52. 略称・定義規定文の解析 21/75
    略称・定義規定文とは
    略称規定は「法令中の一定範囲の文字列に略称を与える規定」
    定義規定は「法令で使われる用語を定義する規定」

    View Slide

  53. 略称・定義規定文の解析 21/75
    略称・定義規定文とは
    略称規定は「法令中の一定範囲の文字列に略称を与える規定」
    定義規定は「法令で使われる用語を定義する規定」
    エイリアスの定義と同じ概念であり、略称の使用箇所においては単純に展開
    することができる。

    View Slide

  54. 略称・定義規定文の解析 22/75
    略称・定義規定の具体例
    会社法第二十二条にある文
    事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲
    渡会社の商号を引き続き使用する場合には、その譲受会社も、譲渡会社の
    事業によって生じた債務を弁済する責任を負う。

    View Slide

  55. 略称・定義規定文の解析 22/75
    略称・定義規定の具体例
    会社法第二十二条にある文
    事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲
    渡会社の商号を引き続き使用する場合には、その譲受会社も、譲渡会社の
    事業によって生じた債務を弁済する責任を負う。
    事業を譲り受けた会社 = 譲受会社が定義されている。

    View Slide

  56. 略称・定義規定文の解析 22/75
    略称・定義規定の具体例
    会社法第二十二条にある文
    事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲
    渡会社の商号を引き続き使用する場合には、その 譲受会社 も、譲渡会社の
    事業によって生じた債務を弁済する責任を負う。
    事業を譲り受けた会社 = 譲受会社が定義されている。

    View Slide

  57. 略称・定義規定文の解析 22/75
    略称・定義規定の具体例
    会社法第二十二条にある文
    事業を譲り受けた会社(以下この章において「譲受会社」という。) が
    譲渡会社の商号を引き続き使用する場合には、 その 事業を譲り受けた会
    社 も、譲渡会社の事業によって生じた債務を弁済する責任を負う。
    事業を譲り受けた会社 = 譲受会社が定義されている。

    View Slide

  58. 略称・定義規定文の解析 23/75
    略称・定義規定の意義
    長い文章を一々書かなくても良い
    文章量の圧縮
    読みやすさの向上
    似た概念同士の整理
    似た概念には似た名前を
    命名規則の整理ができる

    View Slide

  59. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。

    View Slide

  60. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい

    View Slide

  61. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない

    View Slide

  62. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない
    3. 定義箇所がわかっても、正式名称がわかりにくい

    View Slide

  63. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない
    3. 定義箇所がわかっても、正式名称がわかりにくい
    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関
    する法律第九条
    国及び地方公共団体は、 青少年がインターネットを適切に活用する能力
    を習得することができるよう、 学校教育、 社会教育及び家庭教育におけ
    るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる
    ものとする。

    View Slide

  64. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない
    3. 定義箇所がわかっても、正式名称がわかりにくい
    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関
    する法律第九条
    国及び地方公共団体は、 青少年が インターネットを適切に活用する能
    力 を習得することができるよう、学校教育、社会教育及び家庭教育におけ
    るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる
    ものとする。

    View Slide

  65. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない
    3. 定義箇所がわかっても、正式名称がわかりにくい
    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関
    する法律第三条第一項
    青少年が安全に安心してインターネットを利用できるようにするための施策は、青少年自ら
    が、 主体的に情報通信機器を使い、 インターネットにおいて流通する情報を適切に取捨選
    択して利用するとともに、適切にインターネットによる情報発信を行う能力( 以下「イン
    ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな
    らない。

    View Slide

  66. 略称・定義規定文の解析 24/75
    略称が生み出す難しさ
    厳密な解釈をしたいときに困る。
    1. 詳細な定義に立ち返りたい
    2. 略称の定義箇所がわからない
    3. 定義箇所がわかっても、正式名称がわかりにくい
    例:青少年が安全に安心してインターネットを利用できる環境の整備等に関
    する法律第三条第一項
    青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自
    らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選
    択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン
    ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな
    らない。

    View Slide

  67. 略称・定義規定文の解析 25/75
    略称の平易化
    略称はとても便利

    View Slide

  68. 略称・定義規定文の解析 25/75
    略称の平易化
    略称はとても便利
    多用されれば多用されるほど定義箇所にたどり着きにくい

    View Slide

  69. 略称・定義規定文の解析 25/75
    略称の平易化
    略称はとても便利
    多用されれば多用されるほど定義箇所にたどり着きにくい
    元の定義が長い文であればあるほど効果がある

    View Slide

  70. 略称・定義規定文の解析 25/75
    略称の平易化
    略称はとても便利
    多用されれば多用されるほど定義箇所にたどり着きにくい
    元の定義が長い文であればあるほど効果がある
    しかし、元の定義が長ければ長いほど元の定義の文がわかりにくくなる

    View Slide

  71. 略称・定義規定文の解析 25/75
    略称の平易化
    略称はとても便利
    多用されれば多用されるほど定義箇所にたどり着きにくい
    元の定義が長い文であればあるほど効果がある
    しかし、元の定義が長ければ長いほど元の定義の文がわかりにくくなる
    解決策:
    略称の定義箇所を自動で抽出
    使われている略称の近くに元の定義文を表示できるようになると便利

    View Slide

  72. 略称・定義規定文の解析 26/75
    本研究の目的
    1. 法令中の略称・定義規定文を解析し
    2. 略称部分と
    3. 正式名称部分を
    4. 自動で抽出する

    View Slide

  73. 略称・定義規定文の解析 27/75
    先行研究
    略称・定義規定文を解析する方法についての先行研究:
    Makoto Nakamura, Ryusei Kobayashi, Yasuhiro Ogawa, and Katsuhiko
    Toyama. A Pattern-Based Approach to Hyponymy Relation Acquisition
    for the Agricultural Thesaurus. In Proceedings of AOS2012, pages 2-9,
    2012.
    中村誠,小川泰弘,外山勝彦.法令文中において括弧書きで定義されてい
    る法令用語とその語釈文の抽出. 言語処理学会第 19 回年次大会発表論文
    集.
    2013,
    pp.670-673
    基本的に法令コーパスを用いて解析する手法を取っている。
    ただし、複数の規定文の解析ができないなどの制約が存在している

    View Slide

  74. 略称・定義規定文の解析 28/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  75. 略称・定義規定文の解析 29/75
    略称・定義規定文のパターン
    中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている:
    トイウ形:「A、
    B 及び C
    (以下「〇〇〇」という。)」
    ヲイウ形:「〇〇〇(A、
    B 及び C をいう。以下同じ。)」

    View Slide

  76. 略称・定義規定文の解析 29/75
    略称・定義規定文のパターン
    中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている:
    トイウ形:「A、
    B 及び C
    (以下「〇〇〇」という。)」
    ヲイウ形:「〇〇〇(A、
    B 及び C をいう。以下同じ。)」
    どちらも
    略称:〇〇〇
    正式名称: A、
    B 及び C
    という意味であるが、書き方が 2 通りあることがわかる。

    View Slide

  77. 略称・定義規定文の解析 30/75
    略称・定義規定文の難しいパターン
    正式名称部分に読点が含まれている
    正式名称部分が文の先頭から始まらない

    View Slide

  78. 略称・定義規定文の解析 30/75
    略称・定義規定文の難しいパターン
    正式名称部分に読点が含まれている
    正式名称部分が文の先頭から始まらない
    具体例:
    青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自
    らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選
    択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン
    ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな
    らない。

    View Slide

  79. 略称・定義規定文の解析 30/75
    略称・定義規定文の難しいパターン
    正式名称部分に読点が含まれている
    正式名称部分が文の先頭から始まらない
    具体例:
    青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自
    らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選
    択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン
    ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな
    らない。
    上記の分割ポイントの判定は非自明

    View Slide

  80. 略称・定義規定文の解析 31/75
    判定アルゴリズムの案
    係り受け解析を用いる

    View Slide

  81. 略称・定義規定文の解析 31/75
    判定アルゴリズムの案
    係り受け解析を用いる
    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×

    View Slide

  82. 略称・定義規定文の解析 31/75
    判定アルゴリズムの案
    係り受け解析を用いる
    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×
    括弧書きの直前に係る語は抽出部分に含まれる
    括弧書きの後ろに係る語は抽出部分に含まれない
    という制約を満たすような位置が分割位置と言えそう

    View Slide

  83. 略称・定義規定文の解析 31/75
    判定アルゴリズムの案
    係り受け解析を用いる
    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×
    括弧書きの直前に係る語は抽出部分に含まれる
    括弧書きの後ろに係る語は抽出部分に含まれない
    という制約を満たすような位置が分割位置と言えそう
    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×

    View Slide

  84. 略称・定義規定文の解析 32/75
    実装
    1. 正規表現を用いて略称・定義規定文が含まれる条文を抽出する
    2. GiNZA という NLP ライブラリに渡して係り受け解析をする
    3. 係り受けの関係の有向グラフを解析し、分割位置を決定する
    4. 分割位置を元に略称と正式名称を抽出する
    5. 抽出した組み合わせを JSON ファイル形式で出力
    GiNZA*1は Python で実装された、事前学習モデルを用いた自然言語処理ラ
    イブラリである
    1 https://github.com/megagonlabs/ginza

    View Slide

  85. 略称・定義規定文の解析 33/75
    実験の設定
    解析対象の法令データは以下のとおりである:
    e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML
    データ全て
    2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699
    個)
    GiNZA のバージョンは v5.0 系列を用いた (精度が以前の物より向上して
    いる)

    View Slide

  86. 略称・定義規定文の解析 34/75
    実験結果
    128100 個のペアを抽出した
    精度はやや低め
    例に挙げた「青少年自らが、主体的に情報通信機器を使い、インターネット
    において流通する情報を適切に取捨選択して利用するとともに、適切にイン
    ターネットによる情報発信を行う能力」という正解に対して
    「自らが、主体的に情報通信機器を使い、インターネットにおいて流通する
    情報を適切に取捨選択して利用するとともに、適切にインターネットによる
    情報発信を行う能力」と抽出している

    View Slide

  87. 略称・定義規定文の解析 35/75
    まとめ
    係り受け解析の結果を使うアプローチは良さそう
    アルゴリズムなどをアップデートする必要がありそう
    品詞情報を使うようにする
    分割単位を句読点ごとにする
    係り受け解析の際の辞書を法律コーパスに変更する
    などなど
    この解析が上手くいくと以下のような発展が考えられる
    文章中に登場する略称に対して自動で定義を与える
    法令から様々な情報を抽出する際の、技術の転用

    View Slide

  88. 略称・定義規定文の解析 36/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  89. 略称・定義規定文の解析 37/75
    情報処理学会での発表
    情報処理学会第 85 回全国大会で発表してきました

    View Slide

  90. 略称・定義規定文の解析 37/75
    情報処理学会での発表
    情報処理学会第 85 回全国大会で発表してきました
    論文・発表が優れていたため、表彰 ×2

    View Slide

  91. 略称・定義規定文の解析 37/75
    情報処理学会での発表
    情報処理学会第 85 回全国大会で発表してきました
    論文・発表が優れていたため、表彰 ×2
    学生奨励賞・

    View Slide

  92. 略称・定義規定文の解析 37/75
    情報処理学会での発表
    情報処理学会第 85 回全国大会で発表してきました
    論文・発表が優れていたため、表彰 ×2
    学生奨励賞・大会奨励賞

    View Slide

  93. 略称・定義規定文の解析 37/75
    情報処理学会での発表
    情報処理学会第 85 回全国大会で発表してきました
    論文・発表が優れていたため、表彰 ×2
    学生奨励賞・大会奨励賞

    View Slide

  94. 法令名の自動抽出
    法令名の自動抽出

    View Slide

  95. 法令名の自動抽出 38/75
    参照とは
    法律文書から法律文書への矢印のこと

    View Slide

  96. 法令名の自動抽出 38/75
    参照とは
    法律文書から法律文書への矢印のこと
    特定の法令の特定の条項を指す
    中身を暗に引用する役割を持つ
    などの特徴を持っている

    View Slide

  97. 法令名の自動抽出 38/75
    参照とは
    法律文書から法律文書への矢印のこと
    特定の法令の特定の条項を指す
    中身を暗に引用する役割を持つ
    などの特徴を持っている
    循環参照は発生していないはず

    View Slide

  98. 法令名の自動抽出 39/75
    参照の具体例 (法令内での参照)
    郵政民営化法第四十四条第一項
    経営委員会は、委員長(委員長に事故があるときは、前条第八項 に規定す
    る委員長の職務を代理する者。以下この条において同じ。)が招集する。

    View Slide

  99. 法令名の自動抽出 39/75
    参照の具体例 (法令内での参照)
    郵政民営化法第四十四条第一項
    経営委員会は、委員長(委員長に事故があるときは、前条第八項 に規定す
    る委員長の職務を代理する者。以下この条において同じ。)が招集する。
    前条第八項 = 郵政民営化法第四十三条第八項

    View Slide

  100. 法令名の自動抽出 40/75
    参照の具体例 (他の法令の参照)
    郵政民営化法第三十六条第十項
    日本郵政株式会社は、会社法第九百十一条第一項の規定 にかかわらず、日
    本郵政株式会社の成立後遅滞なく、 その設立の登記をしなければならな
    い。

    View Slide

  101. 法令名の自動抽出 41/75
    参照の意義
    文章量の圧縮
    読みやすくなる
    変更への強さ
    参照先が改正されても参照している条文はそのまま改正無しで使えることも
    ある
    依存関係の明示
    根拠があることが重要

    View Slide

  102. 法令名の自動抽出 42/75
    参照表現を解析する意義
    参照先の中身を自動で確認取り出すことができる
    大量列挙されているとき便利
    深い表が参照されているとき便利

    View Slide

  103. 法令名の自動抽出 42/75
    参照表現を解析する意義
    参照先の中身を自動で確認取り出すことができる
    大量列挙されているとき便利
    深い表が参照されているとき便利
    準用・読み替え規定文の自動適用
    読み替え後の条文を自動生成できると理解の助けになる

    View Slide

  104. 法令名の自動抽出 42/75
    参照表現を解析する意義
    参照先の中身を自動で確認取り出すことができる
    大量列挙されているとき便利
    深い表が参照されているとき便利
    準用・読み替え規定文の自動適用
    読み替え後の条文を自動生成できると理解の助けになる
    法令・判例間の参照情報の解析
    依存関係の明示化
    法改正の手助けに
    関連する判例の自動検索
    結びつきの強さの判定

    View Slide

  105. 法令名の自動抽出 43/75
    大量の参照の具体例
    郵政民営化法第四十五条第五項
    会社法第八百六十八条第一項、第八百六十九条、第八百七十条第二項(第
    一号に係る部分に限る。)
    、第八百七十条の二、第八百七十一条本文、第
    八百七十二条 (第五号に係る部分に限る。 )
    、 第八百七十二条の二、 第
    八百七十三条本文、 第八百七十五条及び第八百七十六条の規定は、 第二
    項及び第三項の許可について準用する。

    View Slide

  106. 法令名の自動抽出 44/75
    表の参照の具体例
    関税暫定措置法施行令第一条
    関税暫定措置法(以下「法」という。)の別表第一第〇四〇四・一〇号
    の一の(一)の(2)の(ii)の1及び2並びに(二)の(2)の(i
    i) の1及び2に規定する配合飼料のうち政令で定めるものは、 飼料以
    外の用途に適さないもので、財務省令で定める規格を備えるものとする。

    View Slide

  107. 法令名の自動抽出 44/75
    表の参照の具体例
    関税暫定措置法施行令第一条
    別表第一第〇四〇四・一〇号 の 一の(一)の(2)の(ii)の1 及び
    2 並びに (二)の(2)の(ii)の1 及び 2

    View Slide

  108. 法令名の自動抽出 44/75
    表の参照の具体例
    関税暫定措置法施行令第一条
    別表第一第〇四〇四・一〇号 の 一の(一)の(2)の(ii)の1 及び
    2 並びに (二)の(2)の(ii)の1 及び 2

    View Slide

  109. 法令名の自動抽出 45/75
    先行研究
    木村祐介.号の列挙や参照表現をもつ法令文への論理式への変換.北陸先
    端科学技術大学院大学情報科学研究科情報処理学専攻修士論文.
    2008.
    参照表現の整理をしている
    Koichiro Shibao.
    “可視化法学”. https://www.lawvis.info/,
    2023 年 6
    月 1 日確認.
    法令間の参照情報を元に、結びつきの強さなどを可視化するプロジェクト
    関本大樹. 租税法令の自動機械処理に関する一つの試み : ハッシュ法に
    基づく条項名の実用的な抽出方法について. 久留米大学法学 79.
    2019.
    180-147.
    法令名と法令番号のみをハッシュ表をもとに抽出

    View Slide

  110. 法令名の自動抽出 45/75
    先行研究
    木村祐介.号の列挙や参照表現をもつ法令文への論理式への変換.北陸先
    端科学技術大学院大学情報科学研究科情報処理学専攻修士論文.
    2008.
    参照表現の整理をしている
    Koichiro Shibao.
    “可視化法学”. https://www.lawvis.info/,
    2023 年 6
    月 1 日確認.
    法令間の参照情報を元に、結びつきの強さなどを可視化するプロジェクト
    関本大樹. 租税法令の自動機械処理に関する一つの試み : ハッシュ法に
    基づく条項名の実用的な抽出方法について. 久留米大学法学 79.
    2019.
    180-147.
    法令名と法令番号のみをハッシュ表をもとに抽出
    法令名の略称に対応できていない・相対的な参照表現への対応が甘いという課題が存在している

    View Slide

  111. 法令名の自動抽出 46/75
    本研究の目的
    1. 法令名の略称を収集する
    2. 略称含む法令名が参照されている位置を記録する
    3. 記録した位置を元に参照表現を抽出する
    4. 抽出した参照表現を具体的な条項に置き換える
    を行うことで網羅的な参照表現の抽出を行いたい

    View Slide

  112. 法令名の自動抽出 46/75
    本研究の目的
    1. 法令名の略称を収集する ← 今回の成果
    2. 略称含む法令名が参照されている位置を記録する
    3. 記録した位置を元に参照表現を抽出する
    4. 抽出した参照表現を具体的な条項に置き換える
    を行うことで網羅的な参照表現の抽出を行いたい

    View Slide

  113. 法令名の自動抽出 47/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  114. 法令名の自動抽出 48/75
    法令名の略称のパターン
    <法令の正式名称>(<法令番号>。<条件文>において「<略称>」と
    いう。)
    ← ほぼこのパターン

    View Slide

  115. 法令名の自動抽出 48/75
    法令名の略称のパターン
    <法令の正式名称>(<法令番号>。<条件文>において「<略称>」と
    いう。)
    ← ほぼこのパターン
    郵政民営化法第六条の二
    郵便局株式会社は、 郵政民営化法等の一部を改正する等の法律 (平成二
    十四年法律第三十号。 以下 「平成二十四年改正法」 という。 ) の施行
    の日(以下「平成二十四年改正法施行日」という。)に、その商号を日本
    郵便株式会社に変更するものとする。

    View Slide

  116. 法令名の自動抽出 48/75
    法令名の略称のパターン
    <法令の正式名称>(<法令番号>。<条件文>において「<略称>」と
    いう。)
    ← ほぼこのパターン
    郵政民営化法第百七十四条第二項
    この法律の施行の際現に存する整備法第二条の規定による廃止前の 郵便
    振替法(昭和二十三年法律第六十号。 次項において 「旧郵便振替法」と
    いう。) の規定による郵便振替の口座(軍事郵便貯金等特別処理法(昭
    和二十九年法律第百八号)第二条第五号に規定する外地郵便振替貯金に係
    るものを除く。)の預り金は、この法律の施行の時において、承継計画
    において定めるところに従い、郵便貯金銀行が受け入れた預金となるもの
    とする。

    View Slide

  117. 法令名の自動抽出 49/75
    略称定義からの抽出の実装
    法令番号から法令名は特定できるため、正規表現を用いて
    法令番号
    条件文
    略称
    の 3 つの情報を取り出す。

    View Slide

  118. 法令名の自動抽出 49/75
    略称定義からの抽出の実装
    法令番号から法令名は特定できるため、正規表現を用いて
    法令番号
    条件文
    略称
    の 3 つの情報を取り出す。
    ((明治|大正|昭和|平成|令和)(一|二|三|四|五|六|七|八|九|十|〇)+年
    [^
    ()


    あ-ん]+第(一|二|三|四|五|六|七|八|九|十|百|千|〇)+号。
    ?(以下)?([^」

    ]+において)?、
    ?
    「[^」
    ]*(法|令)」
    という。

    View Slide

  119. 法令名の自動抽出 50/75
    実験の設定
    解析対象の法令データは以下のとおりである:
    e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML
    データ全て
    2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699
    個)

    View Slide

  120. 法令名の自動抽出 51/75
    実験結果
    3504 個の条例から合計 11193 個の定義された略称情報を抽出した

    View Slide

  121. 法令名の自動抽出 51/75
    実験結果
    3504 個の条例から合計 11193 個の定義された略称情報を抽出した
    例:
    地方分権の推進を図るための関係法律の整備等に関する法律(平成十一年
    法律第八十七号)
    → 地方分権推進整備法
    国立研究開発法人日本原子力研究開発機構法(平成十六年法律第百五十五
    号)
    → 機構法
    犯罪による収益の移転防止に関する法律施行規則の一部を改正する命令
    (平成二十七年内閣府・総務省・法務省・財務省・厚生労働省・農林水産
    省・経済産業省・国土交通省令第三号)
    → 平成二十七年改正命令

    View Slide

  122. 法令名の自動抽出 52/75
    略称法令名一覧
    政府が公式で出している略称一覧がある:https://elaws.e-gov.go.jp/abb/

    View Slide

  123. 法令名の自動抽出 53/75
    略称法令名一覧サイトのスクレイピング
    略称情報の拡充のために、https://elaws.e-gov.go.jp/abb/をスクレイピン
    グして略称法令名のデータを作成

    View Slide

  124. 法令名の自動抽出 53/75
    略称法令名一覧サイトのスクレイピング
    略称情報の拡充のために、https://elaws.e-gov.go.jp/abb/をスクレイピン
    グして略称法令名のデータを作成
    Rust でサクッと実装

    View Slide

  125. 法令名の自動抽出 53/75
    略称法令名一覧サイトのスクレイピング
    略称情報の拡充のために、https://elaws.e-gov.go.jp/abb/をスクレイピン
    グして略称法令名のデータを作成
    Rust でサクッと実装
    2412 個の法令名に対して延べ3276個の略称が登録されていた

    View Slide

  126. 法令名の自動抽出 54/75
    まとめ
    参照情報の取得の前処理として、法令の略称の収集を行った

    View Slide

  127. 法令名の自動抽出 54/75
    まとめ
    参照情報の取得の前処理として、法令の略称の収集を行った
    公式に公開されている略称のおよそ3 倍にのぼる量の 「定義された略称」
    の情報を抽出した

    View Slide

  128. 法令名の自動抽出 54/75
    まとめ
    参照情報の取得の前処理として、法令の略称の収集を行った
    公式に公開されている略称のおよそ3 倍にのぼる量の 「定義された略称」
    の情報を抽出した
    この情報を使うことでより高精度な参照表現の抽出を行えることが期待で
    きる

    View Slide

  129. 法令名の自動抽出 54/75
    まとめ
    参照情報の取得の前処理として、法令の略称の収集を行った
    公式に公開されている略称のおよそ3 倍にのぼる量の 「定義された略称」
    の情報を抽出した
    この情報を使うことでより高精度な参照表現の抽出を行えることが期待で
    きる
    これらの解析が上手くいくと以下のような発展が考えられる
    参照されている条文のテキストの自動抽出
    準用後の条文の自動生成
    法令間の依存関係のより詳細な解析

    View Slide

  130. 法令名の自動抽出 55/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  131. 判例の自動収集およびテキストデータ化
    判例の自動収集およびテキストデータ化

    View Slide

  132. 判例の自動収集およびテキストデータ化 56/75
    判例とは
    過去に行われた裁判の判決のこと
    ただし、その中でも前例が無い判断をしたものなどがよく取り扱われる
    後から似た事例の裁判が行われたときは判例を参考にしてそれに近い判決
    がでるため、実質的に法令と同じ効力を持っていると言える

    View Slide

  133. 判例の自動収集およびテキストデータ化 57/75
    判例の存在意義
    法令ではカバーしきれない穴に対応できる
    社会は複雑で多様すぎるため、法令で厳密に規定することは不可能

    View Slide

  134. 判例の自動収集およびテキストデータ化 57/75
    判例の存在意義
    法令ではカバーしきれない穴に対応できる
    社会は複雑で多様すぎるため、法令で厳密に規定することは不可能
    相場感の形成により、予測可能性が高まる
    慰謝料の相場
    死刑判決を出す時の判断基準の一つである、いわゆる永山基準

    View Slide

  135. 判例の自動収集およびテキストデータ化 57/75
    判例の存在意義
    法令ではカバーしきれない穴に対応できる
    社会は複雑で多様すぎるため、法令で厳密に規定することは不可能
    相場感の形成により、予測可能性が高まる
    慰謝料の相場
    死刑判決を出す時の判断基準の一つである、いわゆる永山基準
    世情を反映した価値観のアップデートが柔軟に行える
    尊属殺人規定の違憲判断
    性犯罪の量刑が昔より重くなってきている

    View Slide

  136. 判例の自動収集およびテキストデータ化 58/75
    判例の解析を行う意義
    法務の際に法令だけを参照するのは片手落ち
    法令
    判例
    解説書
    判例の方が法令よりも数が多く、学習データとして使用するならば外せな

    社会の変化の記録になっている
    大規模な解析は先例があまりなく、新規性がかなりありそう

    View Slide

  137. 判例の自動収集およびテキストデータ化 59/75
    判例のデータについて
    判例のオープンデータは存在しない
    そもそもとして元々が紙ベース
    有償でデータを販売している法学系の出版社などはあるが、不自由で制限的

    View Slide

  138. 判例の自動収集およびテキストデータ化 59/75
    判例のデータについて
    判例のオープンデータは存在しない
    そもそもとして元々が紙ベース
    有償でデータを販売している法学系の出版社などはあるが、不自由で制限的
    裁判所が裁判例検索を用意してくれている

    View Slide

  139. 判例の自動収集およびテキストデータ化 59/75
    判例のデータについて
    判例のオープンデータは存在しない
    そもそもとして元々が紙ベース
    有償でデータを販売している法学系の出版社などはあるが、不自由で制限的
    裁判所が裁判例検索を用意してくれている
    判決文全文(PDF ファイル)
    事件番号
    法廷名
    種別
    裁判要旨

    View Slide

  140. 判例の自動収集およびテキストデータ化 60/75
    裁判例検索ページ

    View Slide

  141. 判例の自動収集およびテキストデータ化 61/75
    裁判例詳細ページ

    View Slide

  142. 判例の自動収集およびテキストデータ化 62/75
    今回行いたいこと
    裁判例検索で出てくる判例の全てをリスト化
    検索性の向上
    再利用性の向上

    View Slide

  143. 判例の自動収集およびテキストデータ化 62/75
    今回行いたいこと
    裁判例検索で出てくる判例の全てをリスト化
    検索性の向上
    判決文をテキストデータ化する
    再利用性の向上

    View Slide

  144. 判例の自動収集およびテキストデータ化 63/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  145. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する

    View Slide

  146. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する
    1. 日付による期間指定検索のクエリをつけてアクセス

    View Slide

  147. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する
    1. 日付による期間指定検索のクエリをつけてアクセス
    2. 取得した一覧ページを元に個別の判例詳細ページにアクセス

    View Slide

  148. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する
    1. 日付による期間指定検索のクエリをつけてアクセス
    2. 取得した一覧ページを元に個別の判例詳細ページにアクセス
    3. 判例詳細ページから必要なデータを取り出し、 判決文の PDF ファイル
    をダウンロード

    View Slide

  149. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する
    1. 日付による期間指定検索のクエリをつけてアクセス
    2. 取得した一覧ページを元に個別の判例詳細ページにアクセス
    3. 判例詳細ページから必要なデータを取り出し、 判決文の PDF ファイル
    をダウンロード
    4. ダウンロードした判決文の PDF ファイルからテキスト抽出

    View Slide

  150. 判例の自動収集およびテキストデータ化 64/75
    実装
    スクレイピングでデータを収集する
    1. 日付による期間指定検索のクエリをつけてアクセス
    2. 取得した一覧ページを元に個別の判例詳細ページにアクセス
    3. 判例詳細ページから必要なデータを取り出し、 判決文の PDF ファイル
    をダウンロード
    4. ダウンロードした判決文の PDF ファイルからテキスト抽出
    スクレイピング部分は Rust で実装し、テキスト抽出には poppler ライブラ
    リ*7が提供する pdftotext コマンドを使用
    7 https://poppler.freedesktop.org/

    View Slide

  151. 判例の自動収集およびテキストデータ化 65/75
    実験
    2023 年 1 月 15 日に、1926 年から2023 年までの期間の裁判例を収集した

    View Slide

  152. 判例の自動収集およびテキストデータ化 65/75
    実験
    2023 年 1 月 15 日に、1926 年から2023 年までの期間の裁判例を収集した
    69962 件のデータの収集に成功

    View Slide

  153. 判例の自動収集およびテキストデータ化 65/75
    実験
    2023 年 1 月 15 日に、1926 年から2023 年までの期間の裁判例を収集した
    69962 件のデータの収集に成功
    テキスト抽出の精度があまり高くなかった

    View Slide

  154. 判例の自動収集およびテキストデータ化 65/75
    実験
    2023 年 1 月 15 日に、1926 年から2023 年までの期間の裁判例を収集した
    69962 件のデータの収集に成功
    テキスト抽出の精度があまり高くなかった
    行番号がある PDF ファイルや均等割り付けなどのノイズとなる情報が多かっ

    View Slide

  155. 判例の自動収集およびテキストデータ化 66/75
    バグ (?) のあるページの発見 (その 1)
    日付がマイナスのページ
    7 件も!

    View Slide

  156. 判例の自動収集およびテキストデータ化 67/75
    日付がマイナスのページへの対処
    発見した翌日に最高裁判所に電話

    View Slide

  157. 判例の自動収集およびテキストデータ化 67/75
    日付がマイナスのページへの対処
    発見した翌日に最高裁判所に電話
    翌日にサイレント修正

    View Slide

  158. 判例の自動収集およびテキストデータ化 67/75
    日付がマイナスのページへの対処
    発見した翌日に最高裁判所に電話
    翌日にサイレント修正
    報告前 報告後

    View Slide

  159. 判例の自動収集およびテキストデータ化 68/75
    バグ (?) のあるページの発見 (その 2)
    事件番号が記載されていないページ
    事件の識別ができなくなるので通常はありえない
    3 件も
    通常 番号無し

    View Slide

  160. 判例の自動収集およびテキストデータ化 69/75
    事件番号が書かれていないページへの対処
    発見した翌日に最高裁判所に電話

    View Slide

  161. 判例の自動収集およびテキストデータ化 69/75
    事件番号が書かれていないページへの対処
    発見した翌日に最高裁判所に電話
    「なんらかの事情によって事件番号が付かないこともある」

    View Slide

  162. 判例の自動収集およびテキストデータ化 69/75
    事件番号が書かれていないページへの対処
    発見した翌日に最高裁判所に電話
    「なんらかの事情によって事件番号が付かないこともある」
    終了

    View Slide

  163. 判例の自動収集およびテキストデータ化 70/75
    まとめ
    判例のデータベースを作成(CC0 ライセンス)

    View Slide

  164. 判例の自動収集およびテキストデータ化 70/75
    まとめ
    判例のデータベースを作成(CC0 ライセンス)
    判決文のテキスト抽出の精度に改善の余地あり

    View Slide

  165. 判例の自動収集およびテキストデータ化 70/75
    まとめ
    判例のデータベースを作成(CC0 ライセンス)
    判決文のテキスト抽出の精度に改善の余地あり
    日付がマイナスのページを複数発見し、裁判所に修正してもらった

    View Slide

  166. 判例の自動収集およびテキストデータ化 70/75
    まとめ
    判例のデータベースを作成(CC0 ライセンス)
    判決文のテキスト抽出の精度に改善の余地あり
    日付がマイナスのページを複数発見し、裁判所に修正してもらった
    事件番号が付かないものもあるという学びがあった

    View Slide

  167. 判例の自動収集およびテキストデータ化 70/75
    まとめ
    判例のデータベースを作成(CC0 ライセンス)
    判決文のテキスト抽出の精度に改善の余地あり
    日付がマイナスのページを複数発見し、裁判所に修正してもらった
    事件番号が付かないものもあるという学びがあった
    このデータ化が上手くいくと以下のような発展が考えられる
    法令への解析手法を判例にも適用
    判例間依存の解析
    類似判例の判定
    量刑データベースの作成

    View Slide

  168. 判例の自動収集およびテキストデータ化 71/75
    本研究の位置づけ
    データ
    前処理
    辞書
    作成
    単語
    抽出
    評価
    解析
    平易化
    自動化
    この部分!

    View Slide

  169. まとめ
    まとめ

    View Slide

  170. まとめ 72/75
    各研究のまとめ (1)
    読み替え規定文の解析
    ルールベース解析で 98% のデータから情報を抽出した
    情報処理学会第 85 回全国大会で発表
    学生奨励賞と大会奨励賞を受賞

    View Slide

  171. まとめ 72/75
    各研究のまとめ (1)
    読み替え規定文の解析
    ルールベース解析で 98% のデータから情報を抽出した
    情報処理学会第 85 回全国大会で発表
    学生奨励賞と大会奨励賞を受賞
    略称・定義規定文の解析
    係り受け解析の結果から自動判定を行う手法を開発
    改善の余地はまだまだあるものの、それなりの精度が出ている雰囲気がある

    View Slide

  172. まとめ 73/75
    各研究のまとめ (2)
    法令名の自動抽出
    法令名の略称一覧を生成
    次にやることだらけ
    法令名出現箇所の特定
    条項の抽出

    View Slide

  173. まとめ 73/75
    各研究のまとめ (2)
    法令名の自動抽出
    法令名の略称一覧を生成
    次にやることだらけ
    法令名出現箇所の特定
    条項の抽出
    判例の自動収集およびテキストデータ化
    裁判所が公開している判例を全て収集
    判決文のテキスト化については改善の余地がある
    ページのミスを発見し、最高裁判所に報告して修正してもらった

    View Slide

  174. まとめ 74/75
    各研究のまとめ (3)
    全て GitHub で公開しています
    ソフトウェア: MIT ライセンス
    生成データ: CC0 ライセンス

    View Slide

  175. まとめ 75/75
    悩み
    論文をどこに出していけばよいか
    大会奨励賞を取れたのだから査読付きのところに出したい
    日本語法令の解析はどこが良いのか?

    View Slide

  176. まとめ 75/75
    悩み
    論文をどこに出していけばよいか
    大会奨励賞を取れたのだから査読付きのところに出したい
    日本語法令の解析はどこが良いのか?
    自分のやっていることがどれくらい筋が良いのかがわかっていない
    自然言語処理でのテクとしてどうなのか
    法令解析でのテクとしてどうなのか
    そもそも法令解析を専門にしてる人ってあまり居ない
    法学分野の人からの意見が効きたい

    View Slide