長岡技術科学大学 自然言語処理研究室 文献紹介(1)
⻑岡技術科学⼤学 ⾃然⾔語処理研究室⼩川耀⼀朗⽂献紹介(平成29年2⽉16⽇)地⽅⾃治体の例規⽐較に⽤いる条⽂対応表の作成⽀援⽵内 要⼀, 若尾 岳志⾃然⾔語処理, Vol. 19, No. 3, p.193-212, ⾔語処理学会, 2012
View Slide
֓ཁ⽬的複数の地⽅⾃治体間における同⼀の事柄に関する条例の相違点を明⽰する条⽂対応表を、計算機によって⾃動⽣成する⽅法条⽂対応表を⼆部グラフとしてモデル化し、ベクトル空間モデル、最⻑共通部分列、⽂字列アライメントによる類似度⽐較を⾏った結果ベクトル空間モデルに基づく⼿法が最も良い正解率であった1 /14
ྫنͷߏͱจରԠද
จରԠද例)両県の第⼀条=>よく⼀致している3 /14
จରԠද例)愛媛県の第13条の3と⾹川県の第10条の3愛媛県:18⽂字/110⽂字(16%) ⾹川県:18⽂字/24⽂字(75%)=>共通部分に偏りがある4 /14
จରԠද愛媛県:⾃動販売機等業者、次に掲げる施設の敷地の周囲から200メートル以内の区域に、(中略)設置しないように努めなければならない。(1)学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。)(2)児童福祉法(昭和22年法律第164号)第7条第1項に規定する児童福祉施設(3)図書館法(昭和25年法律第118号)第2条第1項に規定する図書館(後略)⾹川県:卑猥な姿態等を被写体とした写真または描写した絵を掲載した広告⽂章等は(中略)「有害広告⽂書等」(中略)とする。2 何⼈も、次に掲げる⾏為をしてはならない。(中略)(3)次に掲げる施設の敷地内において有害広告⽂書等の配布をすること。ア 学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。)イ 図書館法(昭和25年法律第118号)第2条第1項に規定する図書館=> 共通部分が多い場合でも対応する条⽂とは限らない5 /14
จରԠදͷϞσϧԽ6 /14
ϕΫτϧۭؒϞσϧ• 与えられた⽂章を、単語の出現頻度を表現したベクトルとしてモデル化• 2つのベクトルの距離によって対応関係を数値化(距離尺度:コサイン)要素数n個の単語集合 = $, &, … (ベクトル空間モデルによるある⽂章の⻑さnのベクトル += $, &, … ((相対スコア:条⽂の⽂字数で類似度を割って正規化)-∶ 単語-の出現回数評価項⽬利⽤する単語 10/50/100個、全単語ベクトルの重み 定数重み、tf-idf重み単語の品詞 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞正規化 絶対スコア、相対スコア7 /14
࠷ڞ௨෦ྻ• ⼊⼒⽂字列2つの最⻑の共通部分⽂字列X=(アイウエオ)、Y=(アイクエオ) → 最⻑共通部分列は(アイエオ)最⻑共通部分列の⻑さ → 条⽂の対応関係の強さ評価項⽬⽂字単位 全ての⽂字を対象、漢字のみを対象単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞性能⽐較 条題、条⽂類似尺度数 定数重み、tf-idf重み8 /14
จࣈྻΞϥΠϝϯτ• ⼊⼒の⽂字列に存在する類似した領域を特定できるように⽂字列を整列させるX=(アイウエオ) Y=(アイクエオ) → アライメントは(アイーエオ)• (例)⼀致した⽂字に+2点、⼀致しない⽂字に-2点といった基準を設けて類似度を決める• ⼀致する⽂字列の順番は保存されるが、2つの条⽂の記述の順序が保存されていない場合がある例)A:有害がん具の所有制限 → 有害がん具の定義B:有害がん具の定義 → 有害がん具の所有制限→ アライメントアルゴリズムを再帰的に適⽤する9 /14
ΞϥΠϝϯτΞϧΰϦζϜ• 整列していない部分⽂字列の組み合わせ4種類に対しそれぞれアライメントを⾏うA: ~− 6~7+ ~B: ~− 6~7+ ~⽂字列A ⽂字列B(a) 1~6− 1 1~6− 1(b) 1~6− 1 7+ 1~(c) 7+ 1~ 1~6− 1(d) 7+ 1~ 7+ 1~→(a)と(d)の類似度の和と(b)と(c)の類似度の和のうち⼤きい⽅のアライメント結果を出⼒する評価項⽬⽂字単位 全ての⽂字を対象、漢字のみを対象類似度:漢字が⼀致→+2点、漢字以外が⼀致→+1点単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞類似度:tf-idfスコア10 /14
ධՁ࣮ݧͷ݅ͱ߲11 /14
ྨࣅईͷਖ਼ղ12 /14
ྨࣅईͷਖ਼ղ13 /14
·ͱΊ• 本研究の条⽂対応表作成では、全単語に基づくベクトル空間モデルを⽤いたtf-idf重みを⽤いない類似尺度が最も有効である• 条題を対象に最⻑共通部分列を適⽤したら良い結果となった• 条⽂対応表の作成⽀援のためには、条題に対しては最⻑共通部分列を、条⽂に対してはベクトル空間モデルを適⽤して得られる結果を併合することが良い14 /14