Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
用言と直前の格要素の組を単位とする格フレームの自動構築
Search
kakubari
April 26, 2017
Technology
0
190
用言と直前の格要素の組を単位とする格フレームの自動構築
長岡技術科学大学
自然言語処理研究室
角張 竜晴
kakubari
April 26, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
110
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
150
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
75
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
99
Labeling the Semantic Roles of Commas
kakubari
0
68
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
110
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
87
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
120
述語項構造と照応関係のアノテーション
kakubari
0
220
Other Decks in Technology
See All in Technology
NewSQLや分散データベースを支えるRaftの仕組み - 仕組みを理解して知る得意不得意
hacomono
PRO
3
180
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
54
20k
B2C&B2B&社内向けサービスを抱える開発組織におけるサービス価値を最大化するイニシアチブ管理
belongadmin
2
7.3k
Coinbase™®️ USA Contact Numbers: Complete 2025 Support Guide
officialcoinbasehelpcenter
0
450
2025-07-06 QGIS初級ハンズオン「はじめてのQGIS」
kou_kita
0
170
Delegating the chores of authenticating users to Keycloak
ahus1
0
160
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏 / Towards the Next Decade: Enhancing Global Service Reliability
kohbis
2
310
shake-upを科学する
rsakata
6
600
マネジメントって難しい、けどおもしろい / Management is tough, but fun! #em_findy
ar_tama
7
1.1k
いつの間にか入れ替わってる!?新しいAWS Security Hubとは?
cmusudakeisuke
0
140
60以上のプロダクトを持つ組織における開発者体験向上への取り組み - チームAPIとBackstageで構築する組織の可視化基盤 - / sre next 2025 Efforts to Improve Developer Experience in an Organization with Over 60 Products
vtryo
2
390
OSSのSNSツール「Misskey」をさわってみよう(右下ワイプで私のOSCの20年を振り返ります) / 20250705-osc2025-do
akkiesoft
0
170
Featured
See All Featured
Designing for humans not robots
tammielis
253
25k
Build The Right Thing And Hit Your Dates
maggiecrowley
36
2.8k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
44
2.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Music & Morning Musume
bryan
46
6.6k
GitHub's CSS Performance
jonrohan
1031
460k
The Language of Interfaces
destraynor
158
25k
Building an army of robots
kneath
306
45k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
510
Rails Girls Zürich Keynote
gr2m
95
14k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
31
1.3k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ֯ ு ཽ 用言と直前の格要素の組を単位とする格フレームの自動構築 河原 大輔, 黒橋 禎夫 自然言語処理, 7PM /P QQ ਤදจΑΓҾ༻ 1
概要 •提案手法 格フレーム辞書をタグ情報が付与されていない大規模 コーパス(生コーパス)から自動的に構築する手法。 •わかったこと ・係り受け解析の誤りを考慮すると、 本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67%
⇨ベースラインよりも高い精度で解析ができる。 2
はじめに •日本語文を解析する際の問題点 ・語順の入れ替わり ・格要素の省略 ・表層格の非表示 など… そのため、単純な係り受け解析だけでは不十分。 ⇨用言と格要素の関係を記述した格フレームが必要。 ⇨格フレームは文脈処理(照応処理, 省略処理)においても 必須の知識源である。
3
格フレーム辞書を構築する際の問題 •生コーパスを構文解析する際の解析誤り ⇨ある程度確信度が高い係り受けだけを学習に用いる。 •用言の用法の多様性 同じ表記の用言でも複数の意味、格要素のパターンをと るため、とりうる格や体言が違うことがある。 ⇨用言とその直前の格要素の組を単位として用例を収集し、 それらのクラスタリングを行う。 4
格フレーム辞書の自動構築の過程 (1)コーパスのテキストに対して、KNP(黒橋, 長尾 1994)を 用いて構文解析を行い、その結果から、ある程度信頼でき る用言・格要素間の関係を取り出す。 (2)抽出した関係を用言と直前の各要素の組ごとにまとめる。 作成したデータを用例パターンと呼ぶ。 (3)シソーラスを用いて、用例パターンのクラスタリングを行 う。この結果できたものを用例格フレームと呼ぶ。
5
関連研究 (東, 峯, 雨宮 1996), (宇津呂, 宮田, 松本 1997) ・学習に構文情報付きコーパスを用いている。
⇨カバレージの点に問題がある。 (春野 1995) ・11個の動詞を対象とし、新聞1年分から人手で抽出した用 例を用いている。 ⇨動詞数を増やして実用的な格フレームを作成するのは難 しい。 6
用例の収集 •格の設定 収集する格要素の格は、基本的な格すべてが対象。 (ガ格, ヲ格, ト格, デ格, カラ格, ヨリ格, ヘ格,
マデ格, ム格) •格用例の汎化 個別の単語を扱うことにあまり意味がなく、明確な意味を 考えることができる格用例はクラスとしてまとめて扱う。 ・時間 (例えば・・・朝, 春, 来年, 1999年, 12月, 9時) ・数量 (例えば・・・1, 2, 一, 二, 百) ・補文 (例えば・・・書くと, 書いたことを) 7
用例の収集 また、格要素が複合名詞の場合には、最も意味的に重要 であると考えられる最後の自立語を収集に用いる。 •得られる用例の例 「30日に総理大臣がその2人に賞を贈った。」 ⇩ 「<時間>:時間格 大臣:が <数量>人:に 賞:を
贈る」 8
用例の収集 •用言の条件 収集する用言は動詞, 形容詞, 名詞+判定詞とする。 •対象外の用言の例 ・用言が受身, 使役, 「〜もらう」などの形である時 ⇨格と格要素の関係が通常の場合と異なるため
・形態素解析において、活用形から原形が特定できない時 例えば・・・あった:ある, あう 9
用例の収集 •確信度の高い係り受けの抽出 KNPでは、優先規則によって文節の係り先を決定する。 Rule1 文中の強い区切りを見つけることによって、係り先の候補の絞り込みを行う。 Rule2 係り先の候補の用言のうち、格要素の係り先にならないことが多い用言を 候補から除外する。 Rule3 読点のない文節は最も近い候補に係り、読点のある文節は2番目に近い
候補にかかる。 上記のうち、Rule1が適用された場合のみ収集する。 10
用例の収集 •用例の収集結果(京都大学テキストコーパス) ・対象としている格を持つ格要素の係り受けは精度90.9% ・抽出した確信度の高い係り受けは精度97.2% ・抽出した係り受けは、全体の44.0% ⇨確信度の高い係り受けの抽出はかなり効果的である。 11
用例格フレームの作成 用言とその直前の格要素をペアにして考えると、用言の 用法はほとんど一意に決定される。 ⇩ 用例を、用言とその直前の各要素の組を単位としてまと める処理を行い、用例パターンをつくる。 直前格要素:用例パターンの用言の直前の格要素 直前格:直前格要素の格 12
用例格フレームの作成 用例パターンは、直前要素格の数だけ存在する。用法が ほとんど同じパターンが個別に扱われている。 例えば・・・ a. 従業員:が 車:に 荷物:を 積む
b. {トラック, 飛行機}:に 物資:を 積む ⇨ほとんど用法が同じ用例パターンをマージするために、 用例パターンのクラスタリングを行う。 13
用例パターンのクラスタリング手順 (1)直前の格要素の出現頻度が閾値以上であるものだけを 抽出し、安定した用例パターンだけを対象とする。 (2)直前格が同じ用例パターンのクラスタリング ・あらゆる2組の用例パターンの類似度を計算し、用例の意 味属性を固定する。 ・類似度が閾値を超える組をマージする。 14
用例パターンのクラスタリング手順 (3)直前格を限定しない用例パターンのクラスタリング ・2と同じように、類似度を計算するが、用例の意味属性を固定 しない。 ・類似度が閾値を超える組をマージする。 (4)残りの用例パターンの振り分け ・頻度の閾値を超えない用例パターンを、クラスタリングされた 用例パターンに振り分ける。 ・類似度が閾値を超え、最も類似している用例パターンにマー ジする。
・クラスタリング結果に対象とする用言の格フレームがない場合 は、残りの用例パターンを一つにまとめる。 15
用例パターンの意味属性の固定 例えば・・・「合わせる」の用例パターンのクラスタリング 用例パターンの組{手, 顔}, {手, 焦点}がそれぞれマージ される。 {手, 顔}:意味属性<動物(部分)> {手,
焦点}:意味属性<論理・意味> であるが、結果的に{手, 顔, 焦点}となるのはおかしい。 16
用例パターンの意味属性の固定 そこで、直前格の意味属性の固定を行う。 例えば・・・用言「飛ぶ」 直前格が「声」, 「怒声」, 「機」, 「質問」 声:<声> 怒声:<声>
0.90 声:<単位> 機:<単位> 0.78 怒声:<声> 質問:<質問> 0.68 声の意味属性を<声>に固定すると、 声:<声> 機:<単位> 0.29 17
作成した格フレーム辞書 表1 構築した格フレームの例 18
格解析の結果 表2 提題, 被連体修飾詞の格解析の評価 •ベースライン ・格フレーム辞書を用いない。 ・対象の用言が持っていない格をガ格, ヲ格, ニ格の順に探し、最初に見つ かった格に決定する。 •格解析の係り受けの誤りを除くと
本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67% 19