$30 off During Our Annual Pro Sale. View Details »
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
法律文書の自動解析2024
Search
puripuri2100
April 13, 2025
Technology
0
57
法律文書の自動解析2024
筑波大学 情報学群 情報科学類 産学間連携推進室 の2024年度の成果報告会で使用したスライドです
puripuri2100
April 13, 2025
Tweet
Share
More Decks by puripuri2100
See All by puripuri2100
絵文字は構文解析できるのか
puripuri2100
0
88
係り受け解析を用いた法律文書中の略称規定の解析についての報告
puripuri2100
0
3k
気胸の胸部CTデータの可視化
puripuri2100
0
290
SATySFiで作成する構文解析器
puripuri2100
0
270
SATySFiの開発についての要望
puripuri2100
0
440
研究の場においてのRust 製ソフトウェアのバージョン管理について
puripuri2100
0
620
法律文書の自動解析
puripuri2100
1
920
汎用的なコードフォーマットライブラリの作成
puripuri2100
0
320
ユーザーがカスタマイズできるクラスファイル ―v0.0.x と v0.1.x それぞれでの実装 ―
puripuri2100
0
370
Other Decks in Technology
See All in Technology
バグハンター視点によるサプライチェーンの脆弱性
scgajge12
2
560
翻訳・対話・越境で強いチームワークを作ろう! / Building Strong Teamwork through Interpretation, Dialogue, and Border-Crossing
ar_tama
4
1.7k
Design System Documentation Tooling 2025
takanorip
2
940
直接メモリアクセス
koba789
0
180
たかが特別な時間の終わり / It's Only the End of Special Time
watany
22
4.9k
.NET 10 のパフォーマンス改善
nenonaninu
2
4.8k
形式手法特論:CEGAR を用いたモデル検査の状態空間削減 #kernelvm / Kernel VM Study Hokuriku Part 8
ytaka23
2
320
Ryzen NPUにおけるAI Engineプログラミング
anjn
0
230
なぜ使われないのか?──定量×定性で見極める本当のボトルネック
kakehashi
PRO
1
920
AI時代におけるアジャイル開発について
polyscape_inc
0
110
AIにおける自由の追求
shujisado
3
470
Data Hubグループ 紹介資料
sansan33
PRO
0
2.3k
Featured
See All Featured
For a Future-Friendly Web
brad_frost
180
10k
Statistics for Hackers
jakevdp
799
230k
No one is an island. Learnings from fostering a developers community.
thoeni
21
3.5k
Practical Orchestrator
shlominoach
190
11k
Optimizing for Happiness
mojombo
379
70k
Scaling GitHub
holman
464
140k
Automating Front-end Workflow
addyosmani
1371
200k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
Site-Speed That Sticks
csswizardry
13
990
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
120
20k
Balancing Empowerment & Direction
lara
5
790
Why You Should Never Use an ORM
jnunemaker
PRO
60
9.6k
Transcript
法律文書の自動解析 情報科学類4年 202212117 北野尚樹 産学間連携推進室 成果報告会 2025/4/13
自己紹介 所属:情報科学類 知識・データ工学(KDE)研究室 氏名:北野尚樹(旧:金子尚樹) 2024年7月に苗字が変更 2
1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析 5.
法令検索Chrome拡張アプリの開発 6. まとめと今後の展望 3
法律文書は読みにくい 本プロジェクトの概要:背景 [1] Eric Mart´ınez, Francis Mollica, and Edward Gibson.
Poor writing, not specialized concepts, drives processing difficulty in legal language. Cognition, Vol. 224, p. 105070, 2022. [2] 大橋將. 法の日本語. 専門日本語教育研究, 第12号, p.p. 15-18, 2010. 4 一般預金等(新預金保険法第五十一条第一項に規定する一般預金等をいい、 新預金保険法第六十九条の二第二項の規定により決済用預金とみなされる ものを除く。第一号において同じ。)のうち政令で定めるもの(第一号に おいて「要調整一般預金等」という。)、決済用預金(新預金保険法第五 十一条の二第一項に規定する決済用預金をいい、新預金保険法第六十九条 の二第二項の規定により決済用預金とみなされる一般預金等を含む。第二 号において同じ。)のうち政令で定めるもの(第二号において「要調整決 済用預金」という。)及び特定決済債務について各日においてその額を計 算することが困難なものとして内閣総理大臣の承認を受けた金融機関が、 新預金保険法第五十条の規定により平成十七年四月一日に開始する営業年 度からこの法律の施行の日(以下「施行日」という。)・・・(以下 略)・・・。 特徴 [1, 2] ・略称と正式名称が入れ子 ・括弧が大量に出現 ・文脈が途切れやすい ・目が滑りやすい 複雑で読みにくい法律文書の例 こうなってしまう原因 [1, 2] ・例外などを含めた正確な記述 ・要件を全て網羅する必要
法務を効率化させるために、必要な情報を抽出してユーザー に提示し可読性を向上させるソフトウェアを作成したい 5 本プロジェクトの概要:目的と概要 法律文書 情報の 抽出 可読性向上のための ソフトウェア開発 法務の
効率化 やる!
6 1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析
5. 法令検索Chrome拡張アプリの開発 6. まとめと今後の展望
読み替え規定文から読み替えられる語と読み替える語を 高精度で抽出する手法を提案 医薬品、医療機器等の品質、有効性及び安全性の確保等に関する法律(一部略) 第七条第四項: 薬局の管理者は、その薬局以外の場所で業として薬局の管理その他薬 事に関する実務に従事する者であつてはならない。ただし、その薬局の所在地の都道 府県知事の許可を受けたときは、この限りでない。 第十七条第八項: 医薬品製造管理者については、第七条第四項及び第八条第一項の規 定を準用する。この場合において、第七条第四項中「その薬局の所在地の都道府県知
事」とあるのは、「厚生労働大臣」と読み替えるものとする。 7 前年度までの成果の概要:読み替え規定文の解析 句読点と鍵括弧とキーワードに着目したパターンマッチで語を抽出する手法 今回の場合はその薬局の所在地の都道府県知事と厚生労働大臣を抽出できる より複雑な読み替え規定文の平易化と条文の自動処理に活用できると期待
情報処理学会第85 回全国大会で発表をし、 原稿と発表を評価され、学生奨励賞と大会奨励賞を受賞 8 前年度までの成果の概要:読み替え規定文の解析の成果を情報処理学会で発表した
2023年当時は大規模な判例のテキストデータが存在していな かったため、裁判所のHPをスクレイピングして作成した テキストの精度はあまり良くないものの8万件ほどのテキストデータを作成し、 CC0ライセンスで公開 将来的に情報検索や学習などに使えるようになることを期待している その後 ・2024年8月20日に国立情報学研究所が「日本の判例HTMLデータ」を提供開始 することを発表 ・2025年3月7日に民事判決のデータベース整備を行う法案が閣議決定 など、官民一体となって判例データベース分野が盛り上がりを見せ始めている
9 前年度までの成果の概要:判例の自動収集およびテキストデータ化
スクレイピングしてデータ化する過程で裁判所の判例検 索サービスの誤りを発見し、修正に貢献した 修正前 10 前年度までの成果の概要:最高裁判所の判例公開サービスでのミスを発見 修正前 修正後
法令解析用のツールを多数作成し、GitHubで公開中 11 前年度までの成果の概要:法律文書解析用ライブラリの整備
12 1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析
5. 法令検索Chrome拡張アプリの開発 6. まとめと今後の展望
第57回情報科学若手の会で昨年度までの成果の一部を報告 開催レポートリンク:https://wakate.org/2024/11/18/57threport/ 13 情報科学若手の会での報告 リーガルテック分野の企業であるLegalOn Technologies社の方の発表もあり、 意見交換や交流の場としてとても有意義なものとなった。 情報科学に関係する分野で活動する若手が集って発表などを通じて交流する研究 会(今年は8月に長野県で2泊3日で開催) ショート発表枠で「係り受け解析を用いた法律文書の略称規定の解析についての
報告」というタイトルで報告を行った
発表の様子 14 情報科学若手の会での報告:発表の様子
15 1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析
5. 法令検索Chrome拡張アプリの開発 6. まとめと今後の展望
法令文中には多くの略称がある 16 パターンベースの定義規定・略称規定の解析:法令文中の定義規定・略称規定の意義 新型インフルエンザ等対策特別措置法 第七十条の二の二 新型インフルエンザ等対策の推進を図るため、内閣に、 新型インフルエンザ等対策推進会議(以下「会議」という。)を置く。 略称に対応する正式名称は定義規定・略称規定で定義される 定義規定・略称規定の例 略称を使った法令文の例
第七十条の九 会議は、その所掌事務を遂行するために必要があると認めると きは、関係行政機関の長に対し、資料の提出、意見の表明、説明その他必要な 協力を求めることができる。 正式名称 略称 略称の意味を知るには 定義規定・略称規定に 戻る必要がある 読み手
17 パターンベースの定義規定・略称規定の解析:法令文中の定義規定・略称規定の課題と本研究の目標 法令文中の定義規定・略称規定は複雑で読みにくい 一般預金等(新預金保険法第五十一条第一項に規定する一般預金等をいい、 新預金保険法第六十九条の二第二項の規定により決済用預金とみなされる ものを除く。第一号において同じ。)のうち政令で定めるもの(第一号に おいて「要調整一般預金等」という。)、決済用預金(新預金保険法第五 十一条の二第一項に規定する決済用預金をいい、新預金保険法第六十九条 の二第二項の規定により決済用預金とみなされる一般預金等を含む。第二 号において同じ。)のうち政令で定めるもの(第二号において「要調整決
済用預金」という。)及び特定決済債務について各日においてその額を計 算することが困難なものとして内閣総理大臣の承認を受けた金融機関が、 新預金保険法第五十条の規定により平成十七年四月一日に開始する営業年 度からこの法律の施行の日(以下「施行日」という。)・・・(以下 略)・・・。 特徴 ・略称と正式名称が入れ子 ・括弧が大量に出現 ・文脈が途切れやすい ・目が滑りやすい 複雑な定義規定・略称規定の例 可読性向上のためには? 正式名称と略称の 自動抽出
18 パターンベースの定義規定・略称規定の解析:研究のロードマップ 法令文中の定義規定・略称規定から略称と正式名称の対 応を抽出することで法令文の可読性向上へ 法令文 略称と正式名称の ペア抽出 可読性評価の ためのソフト ウェア開発と
被験者実験 高精度な 略称・正式名称ペアの抽出 に取り組んだ 今後取り組む 法務の 効率化 本研究の焦点
19 パターンベースの定義規定・略称規定の解析:解析方法の概要 [3] 中村誠, 小川泰弘, 外山勝彦. 法令文中において括弧書きで定義されている法令用語とその語釈文の抽出. 言語処理学会 第 19
回年次大会 発表論文集, 2013. [4] Makoto Nakamura, Ryusei Kobayashi, Yasuhiro Ogawa, and Katsuhiko Toyama. A pattern-based approach to hyponymy relation acquisition for the agricultural thesaurus. In Proceedings of International Symposium on Agricultural Ontology Service 2012 (AOS2012), 2012. 定義規定・略称規定にはいくつかのパターンが伺える △△(〇〇をいう。) 構成事業者(事業者団体の構成員 である事業者をいう。 〇〇(以下「△△」という。) 法第十七条の三の講習業務(以下 「登録講習業務」という。)以外 の業務を行おうとするとき... この法律において「△△」とは、 〇〇をいう。 この法律において「細胞」とは、細 胞加工物の原材料となる人又は動物 の細胞をいう。 △△(□□に規定する△△をいう。) その適用に係る住宅の取得等(法第四十一条第一項 に規定する住宅の取得等をいう。 △△等(△△又は□□をいう。) 独立行政法人農業者年金基金法による給付の支給を 受ける権利に係る届出等(届出又は申出をいう。以 下この号において同じ。)の受理。 パターンを捉えることで略称・正式名称ペアを抽出を行う 同じ切り口の手法は既にある[3,4] が、より詳細にパターンを設計して精度を高める
20 パターンベースの定義規定・略称規定の解析:精度を検証する実験の結果 提案手法はLLMや既存手法による解析と比べて高い抽出 精度を誇る 図:各手法における正式名称と略称それぞれの正誤の各組み合わせにおける頻度割合 提案手法(図(d))は完全な抽出の成功が63% (図(d) 左上),位置の検出の成功が 98%(図(d)右下以外の合計) 事前に正答を作成した(401件)評価用データに対して実験を行った
21 提案手法は正式名称の長さに対してLLMよりも頑健 パターンベースの定義規定・略称規定の解析:精度を検証する実験の結果 正式名称のテキスト長(横軸)別の各手法の正答率(縦軸) 原因:必要な修飾を削除してしまう傾向 → 正式名称が長くなると修飾が増えて精度が劣っていく 例:第五条に規定する承認会社(以下「承認会社」という。) ➤ LLMは
正式名称を承認会社、略称を承認会社と誤って抽出 LLM(図中橙・赤)では正式名称のテキスト長が長くなると正答率が低下
22 パターンベースの定義規定・略称規定の解析:まとめ 本研究では法令文中の略称と正式名称のペアの抽出タス クの精度を向上させることに成功した 法令文 略称と正 式名称の ペア抽出 可読性評価のための ソフトウェア開発と
被験者実験 今後取り組む 法務の 効率化 精度向 上達成 今後の課題: ・パターン化できない文型の存在 〜に係る◦◦(△△をいう。) ・意味情報が必要な並列表現の解析 □□又は◦◦(△△をいう。)
法令解析を行っている研究者の方・リーガルテックの会 社の方・行政職員の方などと交流も行うことができた 23 パターンベースの定義規定・略称規定の解析:言語処理学会第31回年次大会での発表
24 1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析
5. 法令検索Chrome拡張アプリの開発 6. まとめと今後の展望
法令を検索するためには前提知識と専用のサイトが要求 され、利便性が悪い D1-Law.comという法情報検索サービスの例 https://www.daiichihoki.co.jp/d1-law/ より引用 25 法令検索Chrome拡張アプリの開発:背景 e-Gov法令検索 https://laws.e-gov.go.jp/ より
検索および関連性の判定と結果の提示を一つの画面で完 結させられるアプリケーションを作成 26 法令検索Chrome拡張アプリの開発:作成したもの ブラウザ 上の テキスト 法令一覧 関連するもの同士でグ ループ化された法令
ブラウザ 上に表示 選択したテキストをベクト ル化し、法令を検索 法令名から参照関係を解析 ユーザー 検索 結果 ブラウザで 操作が完結
テキストを選択すると「関連する法令文書を検索」とい う操作を行うことができる 27 法令検索Chrome拡張アプリの開発:動作例
テキストに関連する法令を、参照関係も含めて提示 28 法令検索Chrome拡張アプリの開発:動作例
産学間連携推進室のサーバールームで運用 29 法令検索Chrome拡張アプリの開発:運用 このマシンで検索エン ジンを動かし、運用し ていた いつでも自由に利用 可能なマシンと電源 とグローバルIPアド レスは偉大!
作成したソフトウェアは“lawscape”と命名し、MITライ センスでGitHubで公開中 30 法令検索Chrome拡張アプリの開発:公開
デジタル庁主催のハッカソンにて開発と発表を行い、行 政職員の方などから貴重な意見を頂くことができた 31 法令検索Chrome拡張アプリの開発:デジタル庁「法令」×「デジタル」ハッカソンでの発表
32 1. 本プロジェクトの概要 2. 前年度までの成果の概要 3. 情報科学若手の会での報告 4. パターンベースの定義規定・略称規定 の解析
5. 法令検索Chrome拡張アプリの開発 6. まとめと今後の展望
今年度は定義規定・略称規定からの情報抽出と法務効率化のた めのツールの作成に取り組み、その過程で多くの交流ができた 33 まとめと今後の展望:本年度の成果のまとめ 法律文書 情報の 抽出 可読性向上のための ソフトウェア開発 法務の
効率化 高精度な 略称・正式名称ペアの抽出 に取り組んだ 法令検索用のアプリを開発し、 行政職員から意見を頂く 機会を得た
卒研で配属された知識・データ工学研究室で本プロジェ クトに引き続き取り組む予定である 34 まとめと今後の展望:今後の展望 法律文書 情報の 抽出 可読性向上のための ソフトウェア開発 法務の
効率化 国会議事録から発言者とその属性 と発言内容と関連する法令を紐づ けたグラフの構築 法律文書検索RAGの構築 研究者・会社・行政職員の方と長いスパンでの協業ができそうな機会を今年 度得ることができたため、大学院に進学し引き続き研究を続けていきたい
謝辞 本プロジェクトを進めていくうえで産学間連携推進室のメンバーや卒業生の西山 大輝さん、 山本幹雄先生、 川見唯史弁護士、 森田岳人弁護士、 中川由賀先生 (中京大学) 、中山幸二先生 (明治大学)
、 伊澤文平弁護士等の皆様よりアド バイスを頂きました。 また、 産学間連携推進室の担当をしてくださっている新 城靖先生や弁護士や法学の研究者の方々を紹介していただいた伊藤誠先生にもお 世話になりました。 また、第85回情報処理学会全国大会や言語処理学会第31回年次大会への参加のた めの旅費や参加費について、産学間連携推進室の奨学金を利用させていただきま した。パターンベースの定義規定・略称規定の解析の研究についてはJSPS科研 費 JP24KJ1049の助成もいただきました。 この場をお借りしまして、深く感謝を申し上げます。 35 まとめと今後の展望:謝辞