Upgrade to Pro — share decks privately, control downloads, hide ads and more …

地方自治体の例規比較に用いる条文対応表の作成支援

66cc992074ab4522374e429c11fef225?s=47 youichiro
February 16, 2017

 地方自治体の例規比較に用いる条文対応表の作成支援

長岡技術科学大学
自然言語処理研究室
文献紹介(1)

66cc992074ab4522374e429c11fef225?s=128

youichiro

February 16, 2017
Tweet

More Decks by youichiro

Other Decks in Technology

Transcript

  1. ⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗 ⽂献紹介(平成29年2⽉16⽇) 地⽅⾃治体の例規⽐較に⽤いる 条⽂対応表の作成⽀援 ⽵内 要⼀, 若尾 岳志

    ⾃然⾔語処理, Vol. 19, No. 3, p.193-212, ⾔語処理学会, 2012
  2. ֓ཁ ⽬的 複数の地⽅⾃治体間における同⼀の事柄に関する条例の相違点を 明⽰する条⽂対応表を、計算機によって⾃動⽣成する ⽅法 条⽂対応表を⼆部グラフとしてモデル化し、ベクトル空間モデル、 最⻑共通部分列、⽂字列アライメントによる類似度⽐較を⾏った 結果 ベクトル空間モデルに基づく⼿法が最も良い正解率であった 1

    /14
  3. ྫنͷߏ଄ͱ৚จରԠද

  4. ৚จରԠද 例)両県の第⼀条 =>よく⼀致している 3 /14

  5. ৚จରԠද 例)愛媛県の第13条の3と⾹川県の第10条の3 愛媛県:18⽂字/110⽂字(16%) ⾹川県:18⽂字/24⽂字(75%) =>共通部分に偏りがある 4 /14

  6. ৚จରԠද 愛媛県: ⾃動販売機等業者、次に掲げる施設の敷地の周囲から200メートル以内の区域に、(中略)設置しないよ うに努めなければならない。 (1)学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) (2)児童福祉法(昭和22年法律第164号)第7条第1項に規定する児童福祉施設 (3)図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 (後略) ⾹川県: 卑猥な姿態等を被写体とした写真または描写した絵を掲載した広告⽂章等は(中略)「有害広告⽂書等」

    (中略)とする。 2 何⼈も、次に掲げる⾏為をしてはならない。(中略) (3)次に掲げる施設の敷地内において有害広告⽂書等の配布をすること。 ア 学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) イ 図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 => 共通部分が多い場合でも対応する条⽂とは限らない 5 /14
  7. ৚จରԠදͷϞσϧԽ 6 /14

  8. ϕΫτϧۭؒϞσϧ • 与えられた⽂章を、単語の出現頻度を表現したベクトルとしてモデル化 • 2つのベクトルの距離によって対応関係を数値化(距離尺度:コサイン) 要素数n個の単語集合 = $ , &

    , … ( ベクトル空間モデルによるある⽂章の⻑さnのベクトル + = $ , & , … ( (相対スコア:条⽂の⽂字数で類似度を割って正規化) - ∶ 単語- の出現回数 評価項⽬ 利⽤する単語 10/50/100個、全単語 ベクトルの重み 定数重み、tf-idf重み 単語の品詞 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 正規化 絶対スコア、相対スコア 7 /14
  9. ࠷௕ڞ௨෦෼ྻ • ⼊⼒⽂字列2つの最⻑の共通部分⽂字列 X=(アイウエオ)、Y=(アイクエオ) → 最⻑共通部分列は(アイエオ) 最⻑共通部分列の⻑さ → 条⽂の対応関係の強さ 評価項⽬

    ⽂字単位 全ての⽂字を対象、漢字のみを対象 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 性能⽐較 条題、条⽂ 類似尺度数 定数重み、tf-idf重み 8 /14
  10. จࣈྻΞϥΠϝϯτ • ⼊⼒の⽂字列に存在する類似した領域を特定できるように⽂字列を整列させる X=(アイウエオ) Y=(アイクエオ) → アライメントは(アイーエオ) • (例)⼀致した⽂字に+2点、⼀致しない⽂字に-2点といった基準を設けて類 似度を決める

    • ⼀致する⽂字列の順番は保存されるが、2つの条⽂の記述の順序が保存されて いない場合がある 例) A:有害がん具の所有制限 → 有害がん具の定義 B:有害がん具の定義 → 有害がん具の所有制限 → アライメントアルゴリズムを再帰的に適⽤する 9 /14
  11. ΞϥΠϝϯτΞϧΰϦζϜ • 整列していない部分⽂字列の組み合わせ4種類に対しそれぞれアライメントを ⾏う A: ~ − 6 ~7 +

    ~ B: ~ − 6 ~7 + ~ ⽂字列A ⽂字列B (a) 1~6 − 1 1~6 − 1 (b) 1~6 − 1 7 + 1~ (c) 7 + 1~ 1~6 − 1 (d) 7 + 1~ 7 + 1~ →(a)と(d)の類似度の和と(b)と(c)の類似 度の和のうち⼤きい⽅のアライメント結 果を出⼒する 評価項⽬ ⽂字単位 全ての⽂字を対象、漢字のみを対象 類似度:漢字が⼀致→+2点、漢字以外が⼀致→+1点 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 類似度:tf-idfスコア 10 /14
  12. ධՁ࣮ݧͷ৚݅ͱ߲໨ 11 /14

  13. ྨࣅई౓ͷਖ਼ղ཰ 12 /14

  14. ྨࣅई౓ͷਖ਼ղ཰ 13 /14

  15. ·ͱΊ • 本研究の条⽂対応表作成では、全単語に基づくベクトル空間モデル を⽤いたtf-idf重みを⽤いない類似尺度が最も有効である • 条題を対象に最⻑共通部分列を適⽤したら良い結果となった • 条⽂対応表の作成⽀援のためには、条題に対しては最⻑共通部分列 を、条⽂に対してはベクトル空間モデルを適⽤して得られる結果を 併合することが良い

    14 /14