Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
地方自治体の例規比較に用いる条文対応表の作成支援
Search
youichiro
February 16, 2017
Technology
0
280
地方自治体の例規比較に用いる条文対応表の作成支援
長岡技術科学大学
自然言語処理研究室
文献紹介(1)
youichiro
February 16, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
100
Multi-Agent Dual Learning
youichiro
1
180
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
120
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
140
勉強勉強会
youichiro
0
88
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
190
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
170
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
200
Other Decks in Technology
See All in Technology
ソフトウェアエンジニアの生成AI活用と、これから
lycorptech_jp
PRO
0
220
Adminaで実現するISMS/SOC2運用の効率化 〜 アカウント管理編 〜
shonansurvivors
4
450
AWS Control Tower に学ぶ! IAM Identity Center 権限設計の第一歩 / IAM Identity Center with Control Tower
y___u
1
200
AgentCon Accra: Ctrl + Alt + Assist: AI Agents Edition
bethany
0
110
AIとともに歩んでいくデザイナーの役割の変化
lycorptech_jp
PRO
0
220
コンテキストエンジニアリング入門〜AI Coding Agent作りで学ぶ文脈設計〜
kworkdev
PRO
3
1.6k
"プロポーザルってなんか怖そう"という境界を超えてみた@TSUDOI by giftee Tech #1
shilo113
0
200
Wasmのエコシステムを使った ツール作成方法
askua
0
200
Claude Codeを駆使した初めてのiOSアプリ開発 ~ゼロから3週間でグローバルハッカソンで入賞するまで~
oikon48
10
4.7k
Introduction to Bill One Development Engineer
sansan33
PRO
0
300
衛星画像超解像化によって実現する2D, 3D空間情報の即時生成と“AI as a Service”/ Real-time generation spatial data enabled_by satellite image super-resolution
lehupa
0
170
Codexとも仲良く。CodeRabbit CLIの紹介
moongift
PRO
1
240
Featured
See All Featured
RailsConf 2023
tenderlove
30
1.2k
Documentation Writing (for coders)
carmenintech
75
5.1k
VelocityConf: Rendering Performance Case Studies
addyosmani
332
24k
Building an army of robots
kneath
306
46k
How STYLIGHT went responsive
nonsquared
100
5.8k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
Rails Girls Zürich Keynote
gr2m
95
14k
Balancing Empowerment & Direction
lara
5
690
jQuery: Nuts, Bolts and Bling
dougneiner
65
7.9k
A designer walks into a library…
pauljervisheath
209
24k
A Modern Web Designer's Workflow
chriscoyier
697
190k
Transcript
⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗 ⽂献紹介(平成29年2⽉16⽇) 地⽅⾃治体の例規⽐較に⽤いる 条⽂対応表の作成⽀援 ⽵内 要⼀, 若尾 岳志
⾃然⾔語処理, Vol. 19, No. 3, p.193-212, ⾔語処理学会, 2012
֓ཁ ⽬的 複数の地⽅⾃治体間における同⼀の事柄に関する条例の相違点を 明⽰する条⽂対応表を、計算機によって⾃動⽣成する ⽅法 条⽂対応表を⼆部グラフとしてモデル化し、ベクトル空間モデル、 最⻑共通部分列、⽂字列アライメントによる類似度⽐較を⾏った 結果 ベクトル空間モデルに基づく⼿法が最も良い正解率であった 1
/14
ྫنͷߏͱจରԠද
จରԠද 例)両県の第⼀条 =>よく⼀致している 3 /14
จରԠද 例)愛媛県の第13条の3と⾹川県の第10条の3 愛媛県:18⽂字/110⽂字(16%) ⾹川県:18⽂字/24⽂字(75%) =>共通部分に偏りがある 4 /14
จରԠද 愛媛県: ⾃動販売機等業者、次に掲げる施設の敷地の周囲から200メートル以内の区域に、(中略)設置しないよ うに努めなければならない。 (1)学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) (2)児童福祉法(昭和22年法律第164号)第7条第1項に規定する児童福祉施設 (3)図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 (後略) ⾹川県: 卑猥な姿態等を被写体とした写真または描写した絵を掲載した広告⽂章等は(中略)「有害広告⽂書等」
(中略)とする。 2 何⼈も、次に掲げる⾏為をしてはならない。(中略) (3)次に掲げる施設の敷地内において有害広告⽂書等の配布をすること。 ア 学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) イ 図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 => 共通部分が多い場合でも対応する条⽂とは限らない 5 /14
จରԠදͷϞσϧԽ 6 /14
ϕΫτϧۭؒϞσϧ • 与えられた⽂章を、単語の出現頻度を表現したベクトルとしてモデル化 • 2つのベクトルの距離によって対応関係を数値化(距離尺度:コサイン) 要素数n個の単語集合 = $ , &
, … ( ベクトル空間モデルによるある⽂章の⻑さnのベクトル + = $ , & , … ( (相対スコア:条⽂の⽂字数で類似度を割って正規化) - ∶ 単語- の出現回数 評価項⽬ 利⽤する単語 10/50/100個、全単語 ベクトルの重み 定数重み、tf-idf重み 単語の品詞 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 正規化 絶対スコア、相対スコア 7 /14
࠷ڞ௨෦ྻ • ⼊⼒⽂字列2つの最⻑の共通部分⽂字列 X=(アイウエオ)、Y=(アイクエオ) → 最⻑共通部分列は(アイエオ) 最⻑共通部分列の⻑さ → 条⽂の対応関係の強さ 評価項⽬
⽂字単位 全ての⽂字を対象、漢字のみを対象 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 性能⽐較 条題、条⽂ 類似尺度数 定数重み、tf-idf重み 8 /14
จࣈྻΞϥΠϝϯτ • ⼊⼒の⽂字列に存在する類似した領域を特定できるように⽂字列を整列させる X=(アイウエオ) Y=(アイクエオ) → アライメントは(アイーエオ) • (例)⼀致した⽂字に+2点、⼀致しない⽂字に-2点といった基準を設けて類 似度を決める
• ⼀致する⽂字列の順番は保存されるが、2つの条⽂の記述の順序が保存されて いない場合がある 例) A:有害がん具の所有制限 → 有害がん具の定義 B:有害がん具の定義 → 有害がん具の所有制限 → アライメントアルゴリズムを再帰的に適⽤する 9 /14
ΞϥΠϝϯτΞϧΰϦζϜ • 整列していない部分⽂字列の組み合わせ4種類に対しそれぞれアライメントを ⾏う A: ~ − 6 ~7 +
~ B: ~ − 6 ~7 + ~ ⽂字列A ⽂字列B (a) 1~6 − 1 1~6 − 1 (b) 1~6 − 1 7 + 1~ (c) 7 + 1~ 1~6 − 1 (d) 7 + 1~ 7 + 1~ →(a)と(d)の類似度の和と(b)と(c)の類似 度の和のうち⼤きい⽅のアライメント結 果を出⼒する 評価項⽬ ⽂字単位 全ての⽂字を対象、漢字のみを対象 類似度:漢字が⼀致→+2点、漢字以外が⼀致→+1点 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 類似度:tf-idfスコア 10 /14
ධՁ࣮ݧͷ݅ͱ߲ 11 /14
ྨࣅईͷਖ਼ղ 12 /14
ྨࣅईͷਖ਼ղ 13 /14
·ͱΊ • 本研究の条⽂対応表作成では、全単語に基づくベクトル空間モデル を⽤いたtf-idf重みを⽤いない類似尺度が最も有効である • 条題を対象に最⻑共通部分列を適⽤したら良い結果となった • 条⽂対応表の作成⽀援のためには、条題に対しては最⻑共通部分列 を、条⽂に対してはベクトル空間モデルを適⽤して得られる結果を 併合することが良い
14 /14