用言と直前の格要素の組を単位とする格フレームの自動構築

௕ Ԭ ٕ ज़ Պ ֶ େ ֶ ࣗ વ ݴ ޠ ॲ ཧ ݚ ڀ ࣨ ֶ ෦ ̐ ೥ ֯ ு ཽ ੖ 用言と直前の格要素の組を単位とする格フレームの自動構築河原大輔, 黒橋禎夫自然言語処理, 7PM /P QQ ਤ΍ද͸࿦จΑΓҾ༻ 1

概要 •提案手法　格フレーム辞書をタグ情報が付与されていない大規模コーパス（生コーパス）から自動的に構築する手法。 •わかったこと・係り受け解析の誤りを考慮すると、　本手法では、提題94%, 被連体修飾詞78% 　ベースラインでは、提題90%, 被連体修飾詞67%
⇨ベースラインよりも高い精度で解析ができる。 2

はじめに •日本語文を解析する際の問題点　・語順の入れ替わり　・格要素の省略　・表層格の非表示　　　　　など… 　そのため、単純な係り受け解析だけでは不十分。 ⇨用言と格要素の関係を記述した格フレームが必要。 ⇨格フレームは文脈処理（照応処理, 省略処理）においても必須の知識源である。
3

格フレーム辞書を構築する際の問題 •生コーパスを構文解析する際の解析誤り ⇨ある程度確信度が高い係り受けだけを学習に用いる。 •用言の用法の多様性　同じ表記の用言でも複数の意味、格要素のパターンをとるため、とりうる格や体言が違うことがある。 ⇨用言とその直前の格要素の組を単位として用例を収集し、それらのクラスタリングを行う。 4

格フレーム辞書の自動構築の過程 (1)コーパスのテキストに対して、KNP(黒橋, 長尾 1994)を用いて構文解析を行い、その結果から、ある程度信頼できる用言・格要素間の関係を取り出す。 (2)抽出した関係を用言と直前の各要素の組ごとにまとめる。作成したデータを用例パターンと呼ぶ。 (3)シソーラスを用いて、用例パターンのクラスタリングを行う。この結果できたものを用例格フレームと呼ぶ。
5

関連研究（東, 峯, 雨宮 1996）, （宇津呂, 宮田, 松本 1997）・学習に構文情報付きコーパスを用いている。
⇨カバレージの点に問題がある。（春野 1995）・11個の動詞を対象とし、新聞１年分から人手で抽出した用例を用いている。 ⇨動詞数を増やして実用的な格フレームを作成するのは難しい。 6

用例の収集 •格の設定　収集する格要素の格は、基本的な格すべてが対象。（ガ格, ヲ格, ト格, デ格, カラ格, ヨリ格, ヘ格,
マデ格, ム格） •格用例の汎化　個別の単語を扱うことにあまり意味がなく、明確な意味を考えることができる格用例はクラスとしてまとめて扱う。・時間　（例えば・・・朝, 春, 来年, 1999年, 12月, 9時）・数量　（例えば・・・1, 2, 一, 二, 百）・補文　（例えば・・・書くと, 書いたことを） 7

用例の収集　また、格要素が複合名詞の場合には、最も意味的に重要であると考えられる最後の自立語を収集に用いる。 •得られる用例の例「３０日に総理大臣がその２人に賞を贈った。」　　　　　　　　　　　　　⇩ 「<時間>：時間格大臣：が <数量>人：に賞：を
贈る」 8

用例の収集 •用言の条件　収集する用言は動詞, 形容詞, 名詞＋判定詞とする。 •対象外の用言の例・用言が受身, 使役, 「〜もらう」などの形である時 ⇨格と格要素の関係が通常の場合と異なるため
・形態素解析において、活用形から原形が特定できない時例えば・・・あった：ある, あう 9

用例の収集 •確信度の高い係り受けの抽出　KNPでは、優先規則によって文節の係り先を決定する。 Rule1 　文中の強い区切りを見つけることによって、係り先の候補の絞り込みを行う。 Rule2 　係り先の候補の用言のうち、格要素の係り先にならないことが多い用言を候補から除外する。 Rule3 　読点のない文節は最も近い候補に係り、読点のある文節は２番目に近い
候補にかかる。上記のうち、Rule1が適用された場合のみ収集する。 10

用例の収集 •用例の収集結果（京都大学テキストコーパス）・対象としている格を持つ格要素の係り受けは精度90.9% ・抽出した確信度の高い係り受けは精度97.2% ・抽出した係り受けは、全体の44.0% ⇨確信度の高い係り受けの抽出はかなり効果的である。 11

用例格フレームの作成　用言とその直前の格要素をペアにして考えると、用言の用法はほとんど一意に決定される。 ⇩ 　用例を、用言とその直前の各要素の組を単位としてまとめる処理を行い、用例パターンをつくる。直前格要素：用例パターンの用言の直前の格要素直前格：直前格要素の格 12

用例格フレームの作成　用例パターンは、直前要素格の数だけ存在する。用法がほとんど同じパターンが個別に扱われている。例えば・・・ a. 従業員：が車:に　　　　　　　荷物:を積む
b. 　　　　　　　{トラック, 飛行機}:に物資:を積む ⇨ほとんど用法が同じ用例パターンをマージするために、用例パターンのクラスタリングを行う。 13

用例パターンのクラスタリング手順 (1)直前の格要素の出現頻度が閾値以上であるものだけを抽出し、安定した用例パターンだけを対象とする。 (2)直前格が同じ用例パターンのクラスタリング・あらゆる２組の用例パターンの類似度を計算し、用例の意味属性を固定する。・類似度が閾値を超える組をマージする。 14

用例パターンのクラスタリング手順 (3)直前格を限定しない用例パターンのクラスタリング・２と同じように、類似度を計算するが、用例の意味属性を固定しない。・類似度が閾値を超える組をマージする。 (4)残りの用例パターンの振り分け・頻度の閾値を超えない用例パターンを、クラスタリングされた用例パターンに振り分ける。・類似度が閾値を超え、最も類似している用例パターンにマージする。
・クラスタリング結果に対象とする用言の格フレームがない場合は、残りの用例パターンを一つにまとめる。 15

用例パターンの意味属性の固定例えば・・・「合わせる」の用例パターンのクラスタリング　用例パターンの組{手, 顔}, {手, 焦点}がそれぞれマージされる。 {手, 顔}：意味属性<動物(部分)> {手,
焦点}:意味属性<論理・意味> であるが、結果的に{手, 顔, 焦点}となるのはおかしい。 16

用例パターンの意味属性の固定　そこで、直前格の意味属性の固定を行う。例えば・・・用言「飛ぶ」　　　　　　直前格が「声」, 「怒声」, 「機」, 「質問」声:<声> 怒声:<声>
0.90 声:<単位> 機:<単位> 0.78 怒声:<声> 質問:<質問> 0.68 声の意味属性を<声>に固定すると、声:<声> 機:<単位> 0.29 17

作成した格フレーム辞書表１　構築した格フレームの例 18

格解析の結果表２　提題, 被連体修飾詞の格解析の評価 •ベースライン・格フレーム辞書を用いない。・対象の用言が持っていない格をガ格, ヲ格, ニ格の順に探し、最初に見つかった格に決定する。 •格解析の係り受けの誤りを除くと
本手法では、提題94%, 被連体修飾詞78% ベースラインでは、提題90%, 被連体修飾詞67% 19

用言と直前の格要素の組を単位とする格フレームの自動構築

用言と直前の格要素の組を単位とする格フレームの自動構築

kakubari

More Decks by kakubari

Other Decks in Technology

Featured

Transcript

関連研究（東, 峯, 雨宮 1996）, （宇津呂, 宮田, 松本 1997）・学習に構文情報付きコーパスを用いている。

用例の収集 •格の設定　収集する格要素の格は、基本的な格すべてが対象。（ガ格, ヲ格, ト格, デ格, カラ格, ヨリ格, ヘ格,

用例の収集 •用言の条件　収集する用言は動詞, 形容詞, 名詞＋判定詞とする。 •対象外の用言の例・用言が受身, 使役, 「〜もらう」などの形である時 ⇨格と格要素の関係が通常の場合と異なるため

用例格フレームの作成　用例パターンは、直前要素格の数だけ存在する。用法がほとんど同じパターンが個別に扱われている。例えば・・・ a. 従業員：が車:に　　　　　　　荷物:を積む

用例パターンの意味属性の固定例えば・・・「合わせる」の用例パターンのクラスタリング　用例パターンの組{手, 顔}, {手, 焦点}がそれぞれマージされる。 {手, 顔}：意味属性<動物(部分)> {手,

用例パターンの意味属性の固定　そこで、直前格の意味属性の固定を行う。例えば・・・用言「飛ぶ」　　　　　　直前格が「声」, 「怒声」, 「機」, 「質問」声:<声> 怒声:<声>

作成した格フレーム辞書表１　構築した格フレームの例 18