Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
用言と直前の格要素の組を単位とする格フレームの自動構築
Search
kakubari
April 26, 2017
Technology
0
180
用言と直前の格要素の組を単位とする格フレームの自動構築
長岡技術科学大学
自然言語処理研究室
角張 竜晴
kakubari
April 26, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
110
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
150
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
73
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
99
Labeling the Semantic Roles of Commas
kakubari
0
66
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
110
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
86
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
120
述語項構造と照応関係のアノテーション
kakubari
0
220
Other Decks in Technology
See All in Technology
脅威をモデリングしてMCPのセキュリティ対策を考えよう
flatt_security
4
1.6k
Contract One Engineering Unit 紹介資料
sansan33
PRO
0
6.4k
“プロダクトを好きになれるか“も QAエンジニア転職の大事な判断基準だと思ったの
tomodakengo
0
130
Data Hubグループ 紹介資料
sansan33
PRO
0
1.8k
データ戦略部門 紹介資料
sansan33
PRO
1
3.2k
Eight Engineering Unit 紹介資料
sansan33
PRO
0
3.4k
Grafana MCP serverでなんかし隊 / Try Grafana MCP server
kohbis
0
330
工具人的一生: 開發很多 AI 工具讓我 慵懶過一生
line_developers_tw
PRO
0
140
菸酒生在 LINE Taiwan 的後端雙刀流
line_developers_tw
PRO
0
130
Long journey of Continuous Delivery at Mercari
hisaharu
1
210
Whats_new_in_Podman_and_CRI-O_2025-06
orimanabu
3
170
Kotlinで学ぶ 代数的データ型
ysknsid25
5
1.1k
Featured
See All Featured
The Art of Programming - Codeland 2020
erikaheidi
54
13k
Building Adaptive Systems
keathley
43
2.6k
How STYLIGHT went responsive
nonsquared
100
5.6k
Gamification - CAS2011
davidbonilla
81
5.3k
VelocityConf: Rendering Performance Case Studies
addyosmani
329
24k
Fireside Chat
paigeccino
37
3.5k
A Modern Web Designer's Workflow
chriscoyier
693
190k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Practical Orchestrator
shlominoach
188
11k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
35
2.3k
Speed Design
sergeychernyshev
30
990
Navigating Team Friction
lara
186
15k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ֯ ு ཽ 用言と直前の格要素の組を単位とする格フレームの自動構築 河原 大輔, 黒橋 禎夫 自然言語処理, 7PM /P QQ ਤදจΑΓҾ༻ 1
概要 •提案手法 格フレーム辞書をタグ情報が付与されていない大規模 コーパス(生コーパス)から自動的に構築する手法。 •わかったこと ・係り受け解析の誤りを考慮すると、 本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67%
⇨ベースラインよりも高い精度で解析ができる。 2
はじめに •日本語文を解析する際の問題点 ・語順の入れ替わり ・格要素の省略 ・表層格の非表示 など… そのため、単純な係り受け解析だけでは不十分。 ⇨用言と格要素の関係を記述した格フレームが必要。 ⇨格フレームは文脈処理(照応処理, 省略処理)においても 必須の知識源である。
3
格フレーム辞書を構築する際の問題 •生コーパスを構文解析する際の解析誤り ⇨ある程度確信度が高い係り受けだけを学習に用いる。 •用言の用法の多様性 同じ表記の用言でも複数の意味、格要素のパターンをと るため、とりうる格や体言が違うことがある。 ⇨用言とその直前の格要素の組を単位として用例を収集し、 それらのクラスタリングを行う。 4
格フレーム辞書の自動構築の過程 (1)コーパスのテキストに対して、KNP(黒橋, 長尾 1994)を 用いて構文解析を行い、その結果から、ある程度信頼でき る用言・格要素間の関係を取り出す。 (2)抽出した関係を用言と直前の各要素の組ごとにまとめる。 作成したデータを用例パターンと呼ぶ。 (3)シソーラスを用いて、用例パターンのクラスタリングを行 う。この結果できたものを用例格フレームと呼ぶ。
5
関連研究 (東, 峯, 雨宮 1996), (宇津呂, 宮田, 松本 1997) ・学習に構文情報付きコーパスを用いている。
⇨カバレージの点に問題がある。 (春野 1995) ・11個の動詞を対象とし、新聞1年分から人手で抽出した用 例を用いている。 ⇨動詞数を増やして実用的な格フレームを作成するのは難 しい。 6
用例の収集 •格の設定 収集する格要素の格は、基本的な格すべてが対象。 (ガ格, ヲ格, ト格, デ格, カラ格, ヨリ格, ヘ格,
マデ格, ム格) •格用例の汎化 個別の単語を扱うことにあまり意味がなく、明確な意味を 考えることができる格用例はクラスとしてまとめて扱う。 ・時間 (例えば・・・朝, 春, 来年, 1999年, 12月, 9時) ・数量 (例えば・・・1, 2, 一, 二, 百) ・補文 (例えば・・・書くと, 書いたことを) 7
用例の収集 また、格要素が複合名詞の場合には、最も意味的に重要 であると考えられる最後の自立語を収集に用いる。 •得られる用例の例 「30日に総理大臣がその2人に賞を贈った。」 ⇩ 「<時間>:時間格 大臣:が <数量>人:に 賞:を
贈る」 8
用例の収集 •用言の条件 収集する用言は動詞, 形容詞, 名詞+判定詞とする。 •対象外の用言の例 ・用言が受身, 使役, 「〜もらう」などの形である時 ⇨格と格要素の関係が通常の場合と異なるため
・形態素解析において、活用形から原形が特定できない時 例えば・・・あった:ある, あう 9
用例の収集 •確信度の高い係り受けの抽出 KNPでは、優先規則によって文節の係り先を決定する。 Rule1 文中の強い区切りを見つけることによって、係り先の候補の絞り込みを行う。 Rule2 係り先の候補の用言のうち、格要素の係り先にならないことが多い用言を 候補から除外する。 Rule3 読点のない文節は最も近い候補に係り、読点のある文節は2番目に近い
候補にかかる。 上記のうち、Rule1が適用された場合のみ収集する。 10
用例の収集 •用例の収集結果(京都大学テキストコーパス) ・対象としている格を持つ格要素の係り受けは精度90.9% ・抽出した確信度の高い係り受けは精度97.2% ・抽出した係り受けは、全体の44.0% ⇨確信度の高い係り受けの抽出はかなり効果的である。 11
用例格フレームの作成 用言とその直前の格要素をペアにして考えると、用言の 用法はほとんど一意に決定される。 ⇩ 用例を、用言とその直前の各要素の組を単位としてまと める処理を行い、用例パターンをつくる。 直前格要素:用例パターンの用言の直前の格要素 直前格:直前格要素の格 12
用例格フレームの作成 用例パターンは、直前要素格の数だけ存在する。用法が ほとんど同じパターンが個別に扱われている。 例えば・・・ a. 従業員:が 車:に 荷物:を 積む
b. {トラック, 飛行機}:に 物資:を 積む ⇨ほとんど用法が同じ用例パターンをマージするために、 用例パターンのクラスタリングを行う。 13
用例パターンのクラスタリング手順 (1)直前の格要素の出現頻度が閾値以上であるものだけを 抽出し、安定した用例パターンだけを対象とする。 (2)直前格が同じ用例パターンのクラスタリング ・あらゆる2組の用例パターンの類似度を計算し、用例の意 味属性を固定する。 ・類似度が閾値を超える組をマージする。 14
用例パターンのクラスタリング手順 (3)直前格を限定しない用例パターンのクラスタリング ・2と同じように、類似度を計算するが、用例の意味属性を固定 しない。 ・類似度が閾値を超える組をマージする。 (4)残りの用例パターンの振り分け ・頻度の閾値を超えない用例パターンを、クラスタリングされた 用例パターンに振り分ける。 ・類似度が閾値を超え、最も類似している用例パターンにマー ジする。
・クラスタリング結果に対象とする用言の格フレームがない場合 は、残りの用例パターンを一つにまとめる。 15
用例パターンの意味属性の固定 例えば・・・「合わせる」の用例パターンのクラスタリング 用例パターンの組{手, 顔}, {手, 焦点}がそれぞれマージ される。 {手, 顔}:意味属性<動物(部分)> {手,
焦点}:意味属性<論理・意味> であるが、結果的に{手, 顔, 焦点}となるのはおかしい。 16
用例パターンの意味属性の固定 そこで、直前格の意味属性の固定を行う。 例えば・・・用言「飛ぶ」 直前格が「声」, 「怒声」, 「機」, 「質問」 声:<声> 怒声:<声>
0.90 声:<単位> 機:<単位> 0.78 怒声:<声> 質問:<質問> 0.68 声の意味属性を<声>に固定すると、 声:<声> 機:<単位> 0.29 17
作成した格フレーム辞書 表1 構築した格フレームの例 18
格解析の結果 表2 提題, 被連体修飾詞の格解析の評価 •ベースライン ・格フレーム辞書を用いない。 ・対象の用言が持っていない格をガ格, ヲ格, ニ格の順に探し、最初に見つ かった格に決定する。 •格解析の係り受けの誤りを除くと
本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67% 19