Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
用言と直前の格要素の組を単位とする格フレームの自動構築
Search
kakubari
April 26, 2017
Technology
0
150
用言と直前の格要素の組を単位とする格フレームの自動構築
長岡技術科学大学
自然言語処理研究室
角張 竜晴
kakubari
April 26, 2017
Tweet
Share
More Decks by kakubari
See All by kakubari
動詞クエリの語間の関係性に基づくクエリマイニング
kakubari
0
88
Neural Modeling of Multi-Predicate Interactions for Japanese Predicate Argument Structure Analysis
kakubari
1
110
Leveraging Crowdsourcing for Paraphrase Recognition
kakubari
0
64
Automatically Acquired Lexical Knowledge Improves Japanese Joint Morphological and Dependency Analysis
kakubari
0
90
Labeling the Semantic Roles of Commas
kakubari
0
56
Integrating Case Frame into Japanese to Chinese Hierarchical Phrase-based Translation Model
kakubari
0
93
Improving Chinese Semantic Role Labelingusing High-quality Surface and Deep Case Frames
kakubari
0
74
Exploring Verb Frames for Sentence Simplification in Hindi
kakubari
0
88
述語項構造と照応関係のアノテーション
kakubari
0
180
Other Decks in Technology
See All in Technology
データベース02: データベースの概念
trycycle
0
150
[新卒向け研修資料] テスト文字列に「うんこ」と入れるな(2024年版)
infiniteloop_inc
1
6.3k
本当のAWS基礎
toru_kubota
0
490
Cloud Native Java with Spring Boot (CNCF Aarhus, April 2024)
thomasvitale
1
160
ワールドカフェI /チューターを改良する / World Café I and Improving the Tutors
ks91
PRO
0
120
継続的な改善 x ⾮連続的な進化
sansantech
PRO
3
140
Databricks における 『MLOps』
databricksjapan
2
170
KubeCon EU 2024 Recap “Kubernetes Policy Time Machine: Where to Next?”
ryysud
0
200
長期間TiDBを使ってきた話 @ 私たちはなぜNewSQLを使うのかTiDB選定5社が語る選定理由と活用LT / Experiences with TiDB Over Time
chibiegg
2
870
Kernel MemoryでAzure OpenAI Serviceとお手軽データソース連携
mitsuzono
1
180
プロトタイピングによる不確実性の低減 / Reducing Uncertainty through Prototyping
ohbarye
5
380
Meta Quest 3 で動く桜マシマシ WebXR アプリを IBM Cloud Code Engine と Babylon.js で作った話
1ftseabass
PRO
0
120
Featured
See All Featured
Build your cross-platform service in a week with App Engine
jlugia
225
17k
The Power of CSS Pseudo Elements
geoffreycrofte
60
5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
274
13k
Happy Clients
brianwarren
92
6.4k
How to Ace a Technical Interview
jacobian
272
22k
Code Reviewing Like a Champion
maltzj
514
39k
The Art of Programming - Codeland 2020
erikaheidi
42
12k
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
187
16k
Stop Working from a Prison Cell
hatefulcrawdad
266
19k
ReactJS: Keep Simple. Everything can be a component!
pedronauck
659
120k
It's Worth the Effort
3n
180
27k
In The Pink: A Labor of Love
frogandcode
138
21k
Transcript
Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ֯ ு ཽ 用言と直前の格要素の組を単位とする格フレームの自動構築 河原 大輔, 黒橋 禎夫 自然言語処理, 7PM /P QQ ਤදจΑΓҾ༻ 1
概要 •提案手法 格フレーム辞書をタグ情報が付与されていない大規模 コーパス(生コーパス)から自動的に構築する手法。 •わかったこと ・係り受け解析の誤りを考慮すると、 本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67%
⇨ベースラインよりも高い精度で解析ができる。 2
はじめに •日本語文を解析する際の問題点 ・語順の入れ替わり ・格要素の省略 ・表層格の非表示 など… そのため、単純な係り受け解析だけでは不十分。 ⇨用言と格要素の関係を記述した格フレームが必要。 ⇨格フレームは文脈処理(照応処理, 省略処理)においても 必須の知識源である。
3
格フレーム辞書を構築する際の問題 •生コーパスを構文解析する際の解析誤り ⇨ある程度確信度が高い係り受けだけを学習に用いる。 •用言の用法の多様性 同じ表記の用言でも複数の意味、格要素のパターンをと るため、とりうる格や体言が違うことがある。 ⇨用言とその直前の格要素の組を単位として用例を収集し、 それらのクラスタリングを行う。 4
格フレーム辞書の自動構築の過程 (1)コーパスのテキストに対して、KNP(黒橋, 長尾 1994)を 用いて構文解析を行い、その結果から、ある程度信頼でき る用言・格要素間の関係を取り出す。 (2)抽出した関係を用言と直前の各要素の組ごとにまとめる。 作成したデータを用例パターンと呼ぶ。 (3)シソーラスを用いて、用例パターンのクラスタリングを行 う。この結果できたものを用例格フレームと呼ぶ。
5
関連研究 (東, 峯, 雨宮 1996), (宇津呂, 宮田, 松本 1997) ・学習に構文情報付きコーパスを用いている。
⇨カバレージの点に問題がある。 (春野 1995) ・11個の動詞を対象とし、新聞1年分から人手で抽出した用 例を用いている。 ⇨動詞数を増やして実用的な格フレームを作成するのは難 しい。 6
用例の収集 •格の設定 収集する格要素の格は、基本的な格すべてが対象。 (ガ格, ヲ格, ト格, デ格, カラ格, ヨリ格, ヘ格,
マデ格, ム格) •格用例の汎化 個別の単語を扱うことにあまり意味がなく、明確な意味を 考えることができる格用例はクラスとしてまとめて扱う。 ・時間 (例えば・・・朝, 春, 来年, 1999年, 12月, 9時) ・数量 (例えば・・・1, 2, 一, 二, 百) ・補文 (例えば・・・書くと, 書いたことを) 7
用例の収集 また、格要素が複合名詞の場合には、最も意味的に重要 であると考えられる最後の自立語を収集に用いる。 •得られる用例の例 「30日に総理大臣がその2人に賞を贈った。」 ⇩ 「<時間>:時間格 大臣:が <数量>人:に 賞:を
贈る」 8
用例の収集 •用言の条件 収集する用言は動詞, 形容詞, 名詞+判定詞とする。 •対象外の用言の例 ・用言が受身, 使役, 「〜もらう」などの形である時 ⇨格と格要素の関係が通常の場合と異なるため
・形態素解析において、活用形から原形が特定できない時 例えば・・・あった:ある, あう 9
用例の収集 •確信度の高い係り受けの抽出 KNPでは、優先規則によって文節の係り先を決定する。 Rule1 文中の強い区切りを見つけることによって、係り先の候補の絞り込みを行う。 Rule2 係り先の候補の用言のうち、格要素の係り先にならないことが多い用言を 候補から除外する。 Rule3 読点のない文節は最も近い候補に係り、読点のある文節は2番目に近い
候補にかかる。 上記のうち、Rule1が適用された場合のみ収集する。 10
用例の収集 •用例の収集結果(京都大学テキストコーパス) ・対象としている格を持つ格要素の係り受けは精度90.9% ・抽出した確信度の高い係り受けは精度97.2% ・抽出した係り受けは、全体の44.0% ⇨確信度の高い係り受けの抽出はかなり効果的である。 11
用例格フレームの作成 用言とその直前の格要素をペアにして考えると、用言の 用法はほとんど一意に決定される。 ⇩ 用例を、用言とその直前の各要素の組を単位としてまと める処理を行い、用例パターンをつくる。 直前格要素:用例パターンの用言の直前の格要素 直前格:直前格要素の格 12
用例格フレームの作成 用例パターンは、直前要素格の数だけ存在する。用法が ほとんど同じパターンが個別に扱われている。 例えば・・・ a. 従業員:が 車:に 荷物:を 積む
b. {トラック, 飛行機}:に 物資:を 積む ⇨ほとんど用法が同じ用例パターンをマージするために、 用例パターンのクラスタリングを行う。 13
用例パターンのクラスタリング手順 (1)直前の格要素の出現頻度が閾値以上であるものだけを 抽出し、安定した用例パターンだけを対象とする。 (2)直前格が同じ用例パターンのクラスタリング ・あらゆる2組の用例パターンの類似度を計算し、用例の意 味属性を固定する。 ・類似度が閾値を超える組をマージする。 14
用例パターンのクラスタリング手順 (3)直前格を限定しない用例パターンのクラスタリング ・2と同じように、類似度を計算するが、用例の意味属性を固定 しない。 ・類似度が閾値を超える組をマージする。 (4)残りの用例パターンの振り分け ・頻度の閾値を超えない用例パターンを、クラスタリングされた 用例パターンに振り分ける。 ・類似度が閾値を超え、最も類似している用例パターンにマー ジする。
・クラスタリング結果に対象とする用言の格フレームがない場合 は、残りの用例パターンを一つにまとめる。 15
用例パターンの意味属性の固定 例えば・・・「合わせる」の用例パターンのクラスタリング 用例パターンの組{手, 顔}, {手, 焦点}がそれぞれマージ される。 {手, 顔}:意味属性<動物(部分)> {手,
焦点}:意味属性<論理・意味> であるが、結果的に{手, 顔, 焦点}となるのはおかしい。 16
用例パターンの意味属性の固定 そこで、直前格の意味属性の固定を行う。 例えば・・・用言「飛ぶ」 直前格が「声」, 「怒声」, 「機」, 「質問」 声:<声> 怒声:<声>
0.90 声:<単位> 機:<単位> 0.78 怒声:<声> 質問:<質問> 0.68 声の意味属性を<声>に固定すると、 声:<声> 機:<単位> 0.29 17
作成した格フレーム辞書 表1 構築した格フレームの例 18
格解析の結果 表2 提題, 被連体修飾詞の格解析の評価 •ベースライン ・格フレーム辞書を用いない。 ・対象の用言が持っていない格をガ格, ヲ格, ニ格の順に探し、最初に見つ かった格に決定する。 •格解析の係り受けの誤りを除くと
本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67% 19