Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
地方自治体の例規比較に用いる条文対応表の作成支援
Search
youichiro
February 16, 2017
Technology
0
280
地方自治体の例規比較に用いる条文対応表の作成支援
長岡技術科学大学
自然言語処理研究室
文献紹介(1)
youichiro
February 16, 2017
Tweet
Share
More Decks by youichiro
See All by youichiro
日本語文法誤り訂正における誤り傾向を考慮した擬似誤り生成
youichiro
0
1.6k
分類モデルを用いた日本語学習者の格助詞誤り訂正
youichiro
0
120
Multi-Agent Dual Learning
youichiro
1
190
Automated Essay Scoring with Discourse-Aware Neural Models
youichiro
0
140
Context is Key- Grammatical Error Detection with Contextual Word Representations
youichiro
1
160
勉強勉強会
youichiro
0
97
Confusionset-guided Pointer Networks for Chinese Spelling Check
youichiro
0
210
A Neural Grammatical Error Correction System Built On Better Pre-training and Sequential Transfer Learning
youichiro
0
190
An Empirical Study of Incorporating Pseudo Data into Grammatical Error Correction
youichiro
0
220
Other Decks in Technology
See All in Technology
ランサムウェア対策としてのpnpm導入のススメ
ishikawa_satoru
0
230
Red Hat OpenStack Services on OpenShift
tamemiya
0
140
M&A 後の統合をどう進めるか ─ ナレッジワーク × Poetics が実践した組織とシステムの融合
kworkdev
PRO
1
520
Bill One急成長の舞台裏 開発組織が直面した失敗と教訓
sansantech
PRO
2
410
ClickHouseはどのように大規模データを活用したAIエージェントを全社展開しているのか
mikimatsumoto
0
270
22nd ACRi Webinar - 1Finity Tamura-san's slide
nao_sumikawa
0
110
プロポーザルに込める段取り八分
shoheimitani
1
680
22nd ACRi Webinar - ChipTip Technology Eric-san's slide
nao_sumikawa
0
100
制約が導く迷わない設計 〜 信頼性と運用性を両立するマイナンバー管理システムの実践 〜
bwkw
3
1.1k
今こそ学びたいKubernetesネットワーク ~CNIが繋ぐNWとプラットフォームの「フラッと」な対話
logica0419
5
550
Embedded SREの終わりを設計する 「なんとなく」から計画的な自立支援へ
sansantech
PRO
3
2.6k
インフラエンジニア必見!Kubernetesを用いたクラウドネイティブ設計ポイント大全
daitak
1
390
Featured
See All Featured
Fireside Chat
paigeccino
41
3.8k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
Dominate Local Search Results - an insider guide to GBP, reviews, and Local SEO
greggifford
PRO
0
80
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
240
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Raft: Consensus for Rubyists
vanstee
141
7.3k
A Guide to Academic Writing Using Generative AI - A Workshop
ks91
PRO
0
210
Skip the Path - Find Your Career Trail
mkilby
0
60
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
130
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Applied NLP in the Age of Generative AI
inesmontani
PRO
4
2.1k
Exploring anti-patterns in Rails
aemeredith
2
260
Transcript
⻑岡技術科学⼤学 ⾃然⾔語処理研究室 ⼩川耀⼀朗 ⽂献紹介(平成29年2⽉16⽇) 地⽅⾃治体の例規⽐較に⽤いる 条⽂対応表の作成⽀援 ⽵内 要⼀, 若尾 岳志
⾃然⾔語処理, Vol. 19, No. 3, p.193-212, ⾔語処理学会, 2012
֓ཁ ⽬的 複数の地⽅⾃治体間における同⼀の事柄に関する条例の相違点を 明⽰する条⽂対応表を、計算機によって⾃動⽣成する ⽅法 条⽂対応表を⼆部グラフとしてモデル化し、ベクトル空間モデル、 最⻑共通部分列、⽂字列アライメントによる類似度⽐較を⾏った 結果 ベクトル空間モデルに基づく⼿法が最も良い正解率であった 1
/14
ྫنͷߏͱจରԠද
จରԠද 例)両県の第⼀条 =>よく⼀致している 3 /14
จରԠද 例)愛媛県の第13条の3と⾹川県の第10条の3 愛媛県:18⽂字/110⽂字(16%) ⾹川県:18⽂字/24⽂字(75%) =>共通部分に偏りがある 4 /14
จରԠද 愛媛県: ⾃動販売機等業者、次に掲げる施設の敷地の周囲から200メートル以内の区域に、(中略)設置しないよ うに努めなければならない。 (1)学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) (2)児童福祉法(昭和22年法律第164号)第7条第1項に規定する児童福祉施設 (3)図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 (後略) ⾹川県: 卑猥な姿態等を被写体とした写真または描写した絵を掲載した広告⽂章等は(中略)「有害広告⽂書等」
(中略)とする。 2 何⼈も、次に掲げる⾏為をしてはならない。(中略) (3)次に掲げる施設の敷地内において有害広告⽂書等の配布をすること。 ア 学校教育法(昭和22年法律第26号)第1条に規定する学校(⼤学を除く。) イ 図書館法(昭和25年法律第118号)第2条第1項に規定する図書館 => 共通部分が多い場合でも対応する条⽂とは限らない 5 /14
จରԠදͷϞσϧԽ 6 /14
ϕΫτϧۭؒϞσϧ • 与えられた⽂章を、単語の出現頻度を表現したベクトルとしてモデル化 • 2つのベクトルの距離によって対応関係を数値化(距離尺度:コサイン) 要素数n個の単語集合 = $ , &
, … ( ベクトル空間モデルによるある⽂章の⻑さnのベクトル + = $ , & , … ( (相対スコア:条⽂の⽂字数で類似度を割って正規化) - ∶ 単語- の出現回数 評価項⽬ 利⽤する単語 10/50/100個、全単語 ベクトルの重み 定数重み、tf-idf重み 単語の品詞 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 正規化 絶対スコア、相対スコア 7 /14
࠷ڞ௨෦ྻ • ⼊⼒⽂字列2つの最⻑の共通部分⽂字列 X=(アイウエオ)、Y=(アイクエオ) → 最⻑共通部分列は(アイエオ) 最⻑共通部分列の⻑さ → 条⽂の対応関係の強さ 評価項⽬
⽂字単位 全ての⽂字を対象、漢字のみを対象 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 性能⽐較 条題、条⽂ 類似尺度数 定数重み、tf-idf重み 8 /14
จࣈྻΞϥΠϝϯτ • ⼊⼒の⽂字列に存在する類似した領域を特定できるように⽂字列を整列させる X=(アイウエオ) Y=(アイクエオ) → アライメントは(アイーエオ) • (例)⼀致した⽂字に+2点、⼀致しない⽂字に-2点といった基準を設けて類 似度を決める
• ⼀致する⽂字列の順番は保存されるが、2つの条⽂の記述の順序が保存されて いない場合がある 例) A:有害がん具の所有制限 → 有害がん具の定義 B:有害がん具の定義 → 有害がん具の所有制限 → アライメントアルゴリズムを再帰的に適⽤する 9 /14
ΞϥΠϝϯτΞϧΰϦζϜ • 整列していない部分⽂字列の組み合わせ4種類に対しそれぞれアライメントを ⾏う A: ~ − 6 ~7 +
~ B: ~ − 6 ~7 + ~ ⽂字列A ⽂字列B (a) 1~6 − 1 1~6 − 1 (b) 1~6 − 1 7 + 1~ (c) 7 + 1~ 1~6 − 1 (d) 7 + 1~ 7 + 1~ →(a)と(d)の類似度の和と(b)と(c)の類似 度の和のうち⼤きい⽅のアライメント結 果を出⼒する 評価項⽬ ⽂字単位 全ての⽂字を対象、漢字のみを対象 類似度:漢字が⼀致→+2点、漢字以外が⼀致→+1点 単語単位 全品詞、全品詞の原形、名詞のみ、名詞/副詞/形容詞/動詞/連体詞 類似度:tf-idfスコア 10 /14
ධՁ࣮ݧͷ݅ͱ߲ 11 /14
ྨࣅईͷਖ਼ղ 12 /14
ྨࣅईͷਖ਼ղ 13 /14
·ͱΊ • 本研究の条⽂対応表作成では、全単語に基づくベクトル空間モデル を⽤いたtf-idf重みを⽤いない類似尺度が最も有効である • 条題を対象に最⻑共通部分列を適⽤したら良い結果となった • 条⽂対応表の作成⽀援のためには、条題に対しては最⻑共通部分列 を、条⽂に対してはベクトル空間モデルを適⽤して得られる結果を 併合することが良い
14 /14