20150708 文献紹介

文献紹介大規模日本語文法の開発野呂智哉, 橋本泰一, 徳永健伸, 田中穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1

概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。（網羅性に欠ける） – コーパスから文法を抽出すると曖昧性が増大することが避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90％の係り受け精度 2

問題点 • 日本語では、Penn Treebankのような大規模な構文構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3

大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2～4を繰り返す 4

使用したコーパス • EDRコーパス中の文（約2万文）に対し、人手で構文構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5

EDRコーパスと異なる点 1. 基本構造（以下の3つの層に分かれている） 1. 形態素と終端記号（品詞）を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本語単語辞書を用いて細分化した品詞を追加 6

3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続けて割り当てる場合もある。 7

曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を再抽出する。 8

文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖昧性を抑える。 • 要因4については出力される構文解析木の数を抑えることは、その後の意味解析を困難にすることもあり得る。 – どれを単一の構文構造で表現するか詳細に検討
9

• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化など 10

文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に一つの正しい構文構成を選択 11

構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析結果の数は O 1012 から
O 105 に減少した。 12

構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの（）と、学習用データのみから抽出したもの（）の2通り •
PGLRモデルによる生成確率の上位100位以内の解析結果について、変更後の方が8～10％高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66

PGLRモデルによる解析結果を利用した係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14

実験結果 • PGLRモデルにより構文解析を行い、構文木から係り受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型：全ての係り受け関係の正解率 2. 係り受けB型：文末2文節以外の係り受け関係の正解率
3. 文正解率：文全体の文節の係り受け関係の正解率 15

20150708 文献紹介

20150708 文献紹介

Yuta

More Decks by Yuta

Other Decks in Education

Featured

Transcript

文献紹介大規模日本語文法の開発野呂智哉, 橋本泰一, 徳永健伸, 田中穂積

概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。（網羅性に欠ける） – コーパスから文法を抽出すると曖昧性が増大することが避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案

大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.

使用したコーパス • EDRコーパス中の文（約2万文）に対し、人手で構文構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系

EDRコーパスと異なる点 1. 基本構造（以下の3つの層に分かれている） 1. 形態素と終端記号（品詞）を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.

3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続けて割り当てる場合もある。 7

曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –

• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体修飾句の係り先の曖昧性 4.

文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.

構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析結果の数は O 1012 から

構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの（）と、学習用データのみから抽出したもの（）の2通り •

PGLRモデルによる解析結果を利用した係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を決定する •

実験結果 • PGLRモデルにより構文解析を行い、構文木から係り受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型：全ての係り受け関係の正解率 2. 係り受けB型：文末2文節以外の係り受け関係の正解率