Upgrade to Pro — share decks privately, control downloads, hide ads and more …

係り受け解析を用いた法律文書中の略称規定の解析についての報告

puripuri2100
September 14, 2024

 係り受け解析を用いた法律文書中の略称規定の解析についての報告

情報科学若手の会(https://wakate.org/)での発表資料です

puripuri2100

September 14, 2024
Tweet

More Decks by puripuri2100

Other Decks in Technology

Transcript

  1. 6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関

    する法律第九条 国及び地方公共団体は、 青少年がインターネットを適切に活用する能力 を習得することができるよう、 学校教育、 社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。
  2. 6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関

    する法律第九条 国及び地方公共団体は、 青少年が インターネットを適切に活用する能 力 を習得することができるよう、学校教育、社会教育及び家庭教育におけ るインターネットの適切な利用に関する教育の推進に必要な施策を講ずる ものとする。
  3. 6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関

    する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、青少年自ら が、 主体的に情報通信機器を使い、 インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。
  4. 6/20 略称が生み出す難しさ 厳密な解釈をしたいときに困る。 1. 詳細な定義に立ち返りたい 2. 略称の定義箇所がわからない 3. 定義箇所がわかっても、正式名称がわかりにくい 例:青少年が安全に安心してインターネットを利用できる環境の整備等に関

    する法律第三条第一項 青少年が安全に安心してインターネットを利用できるようにするための施策は、 青少年自 らが、主体的に情報通信機器を使い、インターネットにおいて流通する情報を適切に取捨選 択して利用するとともに、適切にインターネットによる情報発信を行う能力 ( 以下「イン ターネットを適切に活用する能力」という。 )を習得することを旨として行われなければな らない。
  5. 9/20 先行研究 略称規定を解析する方法についての先行研究: Makoto Nakamura, Ryusei Kobayashi, Yasuhiro Ogawa, and

    Katsuhiko Toyama. A Pattern-Based Approach to Hyponymy Relation Acquisition for the Agricultural Thesaurus. In Proceedings of AOS2012, pages 2-9, 2012. 中村誠,小川泰弘,外山勝彦.法令文中において括弧書きで定義されてい る法令用語とその語釈文の抽出. 言語処理学会第 19 回年次大会発表論文 集. 2013, pp.670-673 基本的に法令コーパスを用いて解析する手法を取っている。 ただし、複数の規定文の解析ができないなどの制約が存在している
  6. 11/20 略称規定のパターン 中村らの論文ではトイウ形とヲイウ形の 2 つの分類を行っている: トイウ形:「A、 B 及び C (以下「〇〇〇」という。)」

    ヲイウ形:「〇〇〇(A、 B 及び C をいう。以下同じ。)」 どちらも 略称:〇〇〇 正式名称: A、 B 及び C という意味であるが、書き方が 2 通りあることがわかる。
  7. 13/20 判定アルゴリズムの案 係り受け解析を用いる については、 A、 B 及び C (以下「〇〇〇」という。)を活用して 〇

    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう
  8. 13/20 判定アルゴリズムの案 係り受け解析を用いる については、 A、 B 及び C (以下「〇〇〇」という。)を活用して 〇

    〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × × 括弧書きの直前に係る語は抽出部分に含まれる 括弧書きの後ろに係る語は抽出部分に含まれない という制約を満たすような位置が分割位置と言えそう 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 〇 (~ ~ ~) × × × × ×
  9. 15/20 実装 1. 正規表現を用いて略称・定義規定文が含まれる条文を抽出する 2. GiNZA という NLP ライブラリに渡して係り受け解析をする 3.

    係り受けの関係の有向グラフを解析し、分割位置を決定する 4. 分割位置を元に略称と正式名称を抽出する 5. 抽出した組み合わせを JSON ファイル形式で出力 GiNZA*1は Python で実装された、事前学習モデルを用いた自然言語処理ラ イブラリである 1 https://github.com/megagonlabs/ginza
  10. 16/20 実験の設定 解析対象の法令データは以下のとおりである: e-Gov 法令検索 (https://elaws.e-gov.go.jp/) で配布されている法令 XML データ全て 2022

    年 12 月 4 日時点での最新バージョンを用いた (収録法令数は 8,699 個) GiNZA のバージョンは v5.0 系列を用いた (精度が以前の物より向上して いる)