Slide 1

Slide 1 text

係り受け解析を用いた 法律文書中の略称規定の解析 についての報告 筑波大学情報学群情報科学類/産学間連携推進室 所属 北野尚樹 [[email protected]] 情報科学若手の会 2024 2024 年 9 月 15 日

Slide 2

Slide 2 text

1/20 自己紹介  北野尚樹 @puripuri2100 筑波大学 情報学群 情報科学類 B3 情報科学類 産学間連携推進室所属 好き: 文字列処理 組版・印刷 ドライブ・移動

Slide 3

Slide 3 text

2/20 法律文書解析 法律文書とは?

Slide 4

Slide 4 text

2/20 法律文書解析 法律文書とは? 法律 判例 条例 契約書 規約

Slide 5

Slide 5 text

2/20 法律文書解析 法律文書とは? 法律 判例 条例 契約書 規約 基本的に読みにくい(し、だるいのでみんな読まない)

Slide 6

Slide 6 text

2/20 法律文書解析 法律文書とは? 法律 判例 条例 契約書 規約 基本的に読みにくい(し、だるいのでみんな読まない) なぜ法律文書が読みにくいのかを分割して解決を図るのが自分のテーマ

Slide 7

Slide 7 text

2/20 法律文書解析 法律文書とは? 法律 判例 条例 契約書 規約 基本的に読みにくい(し、だるいのでみんな読まない) なぜ法律文書が読みにくいのかを分割して解決を図るのが自分のテーマ 今回は略称規定というものについての報告です

Slide 8

Slide 8 text

3/20 略称規定とは エイリアスを自然言語で定義するための文 定義された略称は使用箇所において単純に展開することができる。

Slide 9

Slide 9 text

4/20 略称規定の具体例 会社法第二十二条にある文 事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲 渡会社の商号を引き続き使用する場合には、その譲受会社も、譲渡会社の 事業によって生じた債務を弁済する責任を負う。

Slide 10

Slide 10 text

4/20 略称規定の具体例 会社法第二十二条にある文 事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲 渡会社の商号を引き続き使用する場合には、その譲受会社も、譲渡会社の 事業によって生じた債務を弁済する責任を負う。 事業を譲り受けた会社 = 譲受会社が定義されている。

Slide 11

Slide 11 text

4/20 略称規定の具体例 会社法第二十二条にある文 事業を譲り受けた会社(以下この章において「譲受会社」という。)が譲 渡会社の商号を引き続き使用する場合には、その 譲受会社 も、譲渡会社の 事業によって生じた債務を弁済する責任を負う。 事業を譲り受けた会社 = 譲受会社が定義されている。

Slide 12

Slide 12 text

4/20 略称規定の具体例 会社法第二十二条にある文 事業を譲り受けた会社(以下この章において「譲受会社」という。) が 譲渡会社の商号を引き続き使用する場合には、 その 事業を譲り受けた会 社 も、譲渡会社の事業によって生じた債務を弁済する責任を負う。 事業を譲り受けた会社 = 譲受会社が定義されている。

Slide 13

Slide 13 text

5/20 略称規定の意義 長い文章を一々書かなくても良い 文章量の圧縮 読みやすさの向上 似た概念同士の整理 似た概念には似た名前を 命名規則の整理ができる 例:譲渡会社と譲受会社

Slide 14

Slide 14 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。

Slide 15

Slide 15 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい

Slide 16

Slide 16 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない

Slide 17

Slide 17 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい

Slide 18

Slide 18 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第九条 国及び地方公共団体は、 青少年がインターネットを適切に活用する能力 を習得することができるよう、 学校教育、 社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。

Slide 19

Slide 19 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第九条 国及び地方公共団体は、 青少年が インターネットを適切に活用する能 力 を習得することができるよう、学校教育、社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。

Slide 20

Slide 20 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、青少年自ら が、 主体的に情報通信機器を使い、 インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。

Slide 21

Slide 21 text

6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関 する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自 らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。

Slide 22

Slide 22 text

7/20 略称の平易化 略称はとても便利

Slide 23

Slide 23 text

7/20 略称の平易化 略称はとても便利 多用されれば多用されるほど定義箇所にたどり着きにくい

Slide 24

Slide 24 text

7/20 略称の平易化 略称はとても便利 多用されれば多用されるほど定義箇所にたどり着きにくい 元の定義が長い文であればあるほど効果がある

Slide 25

Slide 25 text

7/20 略称の平易化 略称はとても便利 多用されれば多用されるほど定義箇所にたどり着きにくい 元の定義が長い文であればあるほど効果がある しかし、元の定義が長ければ長いほど人力でのパースが困難になる

Slide 26

Slide 26 text

7/20 略称の平易化 略称はとても便利 多用されれば多用されるほど定義箇所にたどり着きにくい 元の定義が長い文であればあるほど効果がある しかし、元の定義が長ければ長いほど人力でのパースが困難になる 解決策: 略称を自動で発見 略称の定義を自動で抽出

Slide 27

Slide 27 text

8/20 本研究の目的 1. 法令中の略称規定を解析し 2. 略称部分と 3. 正式名称部分を 4. 自動で抽出する

Slide 28

Slide 28 text

9/20 先行研究 略称規定を解析する方法についての先行研究: Makoto Nakamura, Ryusei Kobayashi, Yasuhiro Ogawa, and Katsuhiko Toyama. A Pattern-Based Approach to Hyponymy Relation Acquisition for the Agricultural Thesaurus. In Proceedings of AOS2012, pages 2-9, 2012. 中村誠,小川泰弘,外山勝彦.法令文中において括弧書きで定義されてい る法令用語とその語釈文の抽出. 言語処理学会第 19 回年次大会発表論文 集. 2013, pp.670-673 基本的に法令コーパスを用いて解析する手法を取っている。 ただし、複数の規定文の解析ができないなどの制約が存在している

Slide 29

Slide 29 text

10/20 本研究の位置づけ データ 前処理 辞書 作成 単語 抽出 評価 解析 平易化 自動化 この部分!

Slide 30

Slide 30 text

11/20 略称規定のパターン 中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている: トイウ形:「A、 B 及び C (以下「〇〇〇」という。)」 ヲイウ形:「〇〇〇(A、 B 及び C をいう。以下同じ。)」

Slide 31

Slide 31 text

11/20 略称規定のパターン 中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている: トイウ形:「A、 B 及び C (以下「〇〇〇」という。)」 ヲイウ形:「〇〇〇(A、 B 及び C をいう。以下同じ。)」 どちらも 略称:〇〇〇 正式名称: A、 B 及び C という意味であるが、書き方が 2 通りあることがわかる。

Slide 32

Slide 32 text

12/20 略称規定の難しいパターン 正式名称部分に読点が含まれている 正式名称部分が文の先頭から始まらない

Slide 33

Slide 33 text

12/20 略称規定の難しいパターン 正式名称部分に読点が含まれている 正式名称部分が文の先頭から始まらない 具体例: 青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自 らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。

Slide 34

Slide 34 text

12/20 略称規定の難しいパターン 正式名称部分に読点が含まれている 正式名称部分が文の先頭から始まらない 具体例: 青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自 らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。 上記の分割ポイントの判定は非自明

Slide 35

Slide 35 text

13/20 判定アルゴリズムの案 係り受け解析を用いる

Slide 36

Slide 36 text

13/20 判定アルゴリズムの案 係り受け解析を用いる については、 A、 B 及び C (以下「〇〇〇」という。)を活用して 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×

Slide 37

Slide 37 text

13/20 判定アルゴリズムの案 係り受け解析を用いる については、 A、 B 及び C (以下「〇〇〇」という。)を活用して 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう

Slide 38

Slide 38 text

13/20 判定アルゴリズムの案 係り受け解析を用いる については、 A、 B 及び C (以下「〇〇〇」という。)を活用して 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×

Slide 39

Slide 39 text

14/20 判定アルゴリズムの具体例 青少年が安全に安心してインターネットを利用できるようにするための施 策は、 青少年自らが、主体的に情報通信機器を使い、インターネットに おいて流通する情報を適切に取捨選択して利用するとともに、適切にイン ターネットによる情報発信を行う能力 ( 以下「インターネットを適切に 活用する能力」という。 )を習得することを旨として行われなければな らない。 係り受け: 「施策は、」 → 「行わなければならない。」 「青少年自らが、」 → 「使い、」 ……

Slide 40

Slide 40 text

15/20 実装 1. 正規表現を用いて略称・定義規定文が含まれる条文を抽出する 2. GiNZA という NLP ライブラリに渡して係り受け解析をする 3. 係り受けの関係の有向グラフを解析し、分割位置を決定する 4. 分割位置を元に略称と正式名称を抽出する 5. 抽出した組み合わせを JSON ファイル形式で出力 GiNZA*1は Python で実装された、事前学習モデルを用いた自然言語処理ラ イブラリである 1 https://github.com/megagonlabs/ginza

Slide 41

Slide 41 text

16/20 実験の設定 解析対象の法令データは以下のとおりである: e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML データ全て 2022 年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699 個) GiNZA のバージョンは v5.0 系列を用いた (精度が以前の物より向上して いる)

Slide 42

Slide 42 text

17/20 実験結果 128100 個のペアを抽出した 精度はやや低め 例に挙げた「青少年自らが、主体的に情報通信機器を使い、インターネット において流通する情報を適切に取捨選択して利用するとともに、適切にイン ターネットによる情報発信を行う能力」という正解に対して 「自らが、主体的に情報通信機器を使い、インターネットにおいて流通する 情報を適切に取捨選択して利用するとともに、適切にインターネットによる 情報発信を行う能力」と抽出している

Slide 43

Slide 43 text

18/20 GitHub 全てプログラムと解析結果は GitHub で公開しています

Slide 44

Slide 44 text

19/20 まとめ 係り受け解析の結果を使うアプローチは良さそう アルゴリズムなどをアップデートする必要がありそう 品詞情報を使うようにする 分割単位を品詞単位より大きな句読点の区切りごとにする 係り受け解析の際の辞書を法律コーパスに変更する 使用するライブラリの変更 などなど この解析が上手くいくと以下のような発展が考えられる 文章中に登場する略称に対して自動で定義を与える 法令から様々な情報を抽出する際の、技術の転用

Slide 45

Slide 45 text

20/20 本研究の位置づけ データ 前処理 辞書 作成 単語 抽出 評価 解析 平易化 自動化 この部分!