Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
地方自治体の例規比較に用いる条文対応表の作成支援
Search
youichiro
February 16, 2017
Technology
0
230
地方自治体の例規比較に用いる条文対応表の作成支援
長岡技術科学大学
自然言語処理研究室
文献紹介(1)
youichiro
February 16, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.3k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
61
Multi-Agent Dual Learning
youichiro
1
120
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
91
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
110
勉強勉強会
youichiro
0
63
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
150
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
110
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
150
Other Decks in Technology
See All in Technology
Janus
bkuhlmann
1
490
本当のAWS基礎
toru_kubota
0
370
MySQL の SQL クエリチューニングの要所を掴む勉強会
andpad
2
5.4k
レガシーをぶっ壊せ。AEONで始めるDevRelの話 / Qiita Night 2024-2-22
aeonpeople
3
1.2k
チームでロジカルシンキングに改めて向き合っている話 〜学習環境と実践⽅法〜
sansantech
PRO
0
170
MapLibreとAmazon Location Service
dayjournal
1
140
ServiceNow Knowledge 24の歩き方 EYストラテジー・アンド・コンサルティング
manarobot
0
170
HEXA OSINT CTF V3 作戦会議
meow_noisy
0
120
Databricks:『生成AI World Cup』のご案内
databricksjapan
2
160
Cracking the KubeCon CfP
inductor
2
160
SPI原点回帰論:事業課題とFour Keysの結節点を見出す実践的ソフトウェアプロセス改善 / DevOpsDays Tokyo 2024
visional_engineering_and_design
4
1.8k
JAWS-UG Bedrock Claude Night
yamahiro
3
470
Featured
See All Featured
Design by the Numbers
sachag
274
18k
Designing Experiences People Love
moore
136
23k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
154
14k
Facilitating Awesome Meetings
lara
41
5.6k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
Navigating Team Friction
lara
177
13k
5 minutes of I Can Smell Your CMS
philhawksworth
199
19k
Fireside Chat
paigeccino
20
2.6k
The Power of CSS Pseudo Elements
geoffreycrofte
59
5k
Visualization
eitanlees
135
14k
Designing for humans not robots
tammielis
248
25k
GraphQLの誤解/rethinking-graphql
sonatard
50
9.2k
Transcript
⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗 ⽂献紹介(平成29年2⽉16⽇) 地⽅⾃治体の例規⽐較に⽤いる 条⽂対応表の作成⽀援 ⽵内 要⼀, 若尾 岳志
⾃然⾔語処理, Vol. 19, No. 3, p.193-212, ⾔語処理学会, 2012
֓ཁ ⽬的 複数の地⽅⾃治体間における同⼀の事柄に関する条例の相違点を 明⽰する条⽂対応表を、計算機によって⾃動⽣成する ⽅法 条⽂対応表を⼆部グラフとしてモデル化し、ベクトル空間モデル、 最⻑共通部分列、⽂字列アライメントによる類似度⽐較を⾏った 結果 ベクトル空間モデルに基づく⼿法が最も良い正解率であった 1
/14
ྫنͷߏͱจରԠද
จରԠද 例)両県の第⼀条 =>よく⼀致している 3 /14
จରԠද 例)愛媛県の第13条の3と⾹川県の第10条の3 愛媛県:18⽂字/110⽂字(16%) ⾹川県:18⽂字/24⽂字(75%) =>共通部分に偏りがある 4 /14
จରԠද 愛媛県: ⾃動販売機等業者、次に掲げる施設の敷地の周囲から200メートル以内の区域に、(中略)設置しないよ うに努めなければならない。 (1)学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) (2)児童福祉法(昭和22年法律第164号)第7条第1項に規定する児童福祉施設 (3)図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 (後略) ⾹川県: 卑猥な姿態等を被写体とした写真または描写した絵を掲載した広告⽂章等は(中略)「有害広告⽂書等」
(中略)とする。 2 何⼈も、次に掲げる⾏為をしてはならない。(中略) (3)次に掲げる施設の敷地内において有害広告⽂書等の配布をすること。 ア 学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) イ 図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 => 共通部分が多い場合でも対応する条⽂とは限らない 5 /14
จରԠදͷϞσϧԽ 6 /14
ϕΫτϧۭؒϞσϧ • 与えられた⽂章を、単語の出現頻度を表現したベクトルとしてモデル化 • 2つのベクトルの距離によって対応関係を数値化(距離尺度:コサイン) 要素数n個の単語集合 = $ , &
, … ( ベクトル空間モデルによるある⽂章の⻑さnのベクトル + = $ , & , … ( (相対スコア:条⽂の⽂字数で類似度を割って正規化) - ∶ 単語- の出現回数 評価項⽬ 利⽤する単語 10/50/100個、全単語 ベクトルの重み 定数重み、tf-idf重み 単語の品詞 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 正規化 絶対スコア、相対スコア 7 /14
࠷ڞ௨෦ྻ • ⼊⼒⽂字列2つの最⻑の共通部分⽂字列 X=(アイウエオ)、Y=(アイクエオ) → 最⻑共通部分列は(アイエオ) 最⻑共通部分列の⻑さ → 条⽂の対応関係の強さ 評価項⽬
⽂字単位 全ての⽂字を対象、漢字のみを対象 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 性能⽐較 条題、条⽂ 類似尺度数 定数重み、tf-idf重み 8 /14
จࣈྻΞϥΠϝϯτ • ⼊⼒の⽂字列に存在する類似した領域を特定できるように⽂字列を整列させる X=(アイウエオ) Y=(アイクエオ) → アライメントは(アイーエオ) • (例)⼀致した⽂字に+2点、⼀致しない⽂字に-2点といった基準を設けて類 似度を決める
• ⼀致する⽂字列の順番は保存されるが、2つの条⽂の記述の順序が保存されて いない場合がある 例) A:有害がん具の所有制限 → 有害がん具の定義 B:有害がん具の定義 → 有害がん具の所有制限 → アライメントアルゴリズムを再帰的に適⽤する 9 /14
ΞϥΠϝϯτΞϧΰϦζϜ • 整列していない部分⽂字列の組み合わせ4種類に対しそれぞれアライメントを ⾏う A: ~ − 6 ~7 +
~ B: ~ − 6 ~7 + ~ ⽂字列A ⽂字列B (a) 1~6 − 1 1~6 − 1 (b) 1~6 − 1 7 + 1~ (c) 7 + 1~ 1~6 − 1 (d) 7 + 1~ 7 + 1~ →(a)と(d)の類似度の和と(b)と(c)の類似 度の和のうち⼤きい⽅のアライメント結 果を出⼒する 評価項⽬ ⽂字単位 全ての⽂字を対象、漢字のみを対象 類似度:漢字が⼀致→+2点、漢字以外が⼀致→+1点 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 類似度:tf-idfスコア 10 /14
ධՁ࣮ݧͷ݅ͱ߲ 11 /14
ྨࣅईͷਖ਼ղ 12 /14
ྨࣅईͷਖ਼ղ 13 /14
·ͱΊ • 本研究の条⽂対応表作成では、全単語に基づくベクトル空間モデル を⽤いたtf-idf重みを⽤いない類似尺度が最も有効である • 条題を対象に最⻑共通部分列を適⽤したら良い結果となった • 条⽂対応表の作成⽀援のためには、条題に対しては最⻑共通部分列 を、条⽂に対してはベクトル空間モデルを適⽤して得られる結果を 併合することが良い
14 /14