Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
20150708 文献紹介
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Yuta
July 08, 2015
Education
160
0
Share
20150708 文献紹介
Yuta
July 08, 2015
More Decks by Yuta
See All by Yuta
20160422 文献紹介
sudo
0
180
NLP2016 報告
sudo
0
200
NLP2016 発表スライド
sudo
0
230
20160218 文献紹介
sudo
0
270
20150909 発表資料
sudo
0
150
20150820 文献紹介
sudo
0
190
20150610 文献紹介
sudo
0
200
20150512 文献紹介
sudo
0
190
20150415 文献紹介
sudo
1
240
Other Decks in Education
See All in Education
P3NFEST 2026 Spring ハンズオン「ハッキング・ラブ!はじめてのハッキングをやってみよう」資料
nomizone
0
460
Science Tokyo国際卓越研究大学計画_202604
sciencetokyo
PRO
0
2.6k
[2026前期火5] 論理学(京都大学文学部 前期 第4回)「 ならば(→)の導入と証明ネット」
yatabe
0
310
면접관 눈에 띄는 데이터 분석 포트폴리오 만드는 법 | 2026년 5월 세미나
datarian
0
170
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
2.6k
小さなまちで始める デジタル創作の居場所〜すべての子どもが創造的に未来を描ける社会へ〜
codeforeveryone
0
490
AIには考えられないことを考えられる人になるために
iqbocchi
1
110
Analysis and Validation - Lecture 4 - Information Visualisation (4019538FNR)
signer
PRO
0
2.7k
From Participation to Outcomes
territorium
PRO
0
450
SL AMIGOS 教育格差と私たちの取り組み - スリランカの支援学校への支援プロジェクト:リシンドゥ リオ 氏 (別府溝部学園短期大学 ビジネス観光コース 留学生):2720 Japan O.K. ロータリーEクラブ2026年4月6日卓話
2720japanoke
0
570
アントレプレナーシップ教育機構 概要
sciencetokyo
PRO
0
3k
Gesture-based Interaction - Lecture 6 - Next Generation User Interfaces (4018166FNR)
signer
PRO
1
2.2k
Featured
See All Featured
How to make the Groovebox
asonas
2
2.2k
The Curious Case for Waylosing
cassininazir
1
340
Google's AI Overviews - The New Search
badams
0
1k
Noah Learner - AI + Me: how we built a GSC Bulk Export data pipeline
techseoconnect
PRO
0
180
Visual Storytelling: How to be a Superhuman Communicator
reverentgeek
2
530
The Limits of Empathy - UXLibs8
cassininazir
1
330
GraphQLとの向き合い方2022年版
quramy
50
15k
Put a Button on it: Removing Barriers to Going Fast.
kastner
60
4.3k
Mozcon NYC 2025: Stop Losing SEO Traffic
samtorres
0
230
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
62k
Building Flexible Design Systems
yeseniaperezcruz
330
40k
Transcript
文献紹介 大規模日本語文法の開発 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
自然言語処理 Vol.12 (2005) No.1 P3-32 自然言語処理研究室 B4 須戸悠太 1
概要 • 構文解析において、大規模な文法は必要 – 人手での開発は困難。(網羅性に欠ける) – コーパスから文法を抽出すると曖昧性が増大することが 避けられない。 • 曖昧性を極力抑えた文法開発の方針の提案
– 解析木の数のオーダーを1012から105まで減少 – 約90%の係り受け精度 2
問題点 • 日本語では、Penn Treebankのような大規模な構文 構造付きコーパスが存在しない • 構文構造付きコーパスから抽出した大規模な文法 で解析→膨大な数の結果が出力 • 曖昧性の削減には要因を分析し、文法規則を変化
させる必要がある – 機械的な変更だけでなく、人手による変更も必要 3
大規模日本語文法の作成手順 1. 構文構造付きコーパスから文法を抽出 2. 構文解析結果を増大させる要因を分析 3. 結果をもとにコーパスの変更方針を作成 4. 変更した後、新しい文法を再抽出 5.
2~4を繰り返す 4
使用したコーパス • EDRコーパス中の文(約2万文)に対し、人手で構文 構造を付与 • 異なる点 1. 基本構造 2. 単語区切りと品詞体系
3. 構文構造 5
EDRコーパスと異なる点 1. 基本構造(以下の3つの層に分かれている) 1. 形態素と終端記号(品詞)を対応付ける層 2. 終端記号をやや粗い品詞分類に変換する層 3. 実際の構文構造を示す層 2.
単語区切りと品詞体系 – EDRコーパスでは品詞が15種類しかないため、EDR日本 語単語辞書を用いて細分化した品詞を追加 6
3. 構文構造 – 各中間ノードに非終端記号を付与する。 – ただし、一つの中間ノードに複数の非終端記号を縦に続 けて割り当てる場合もある。 7
曖昧性増大の要因 1. ラベル付けの誤り 2. 構文構造の不一致 3. 構文情報の欠落 4. 意味情報の必要性 –
1, 2はコーパスの誤りであり、要訂正 – 3は必要な構文情報を考察し、非終端記号に追加する。 – 4は曖昧性を包含した単一の構文構造を付与し、文法を 再抽出する。 8
文法・コーパスの変更方針 • 要因3については文法とコーパスを変更しながら曖 昧性を抑える。 • 要因4については出力される構文解析木の数を抑え ることは、その後の意味解析を困難にすることもあ り得る。 – どれを単一の構文構造で表現するか詳細に検討
9
• 使用したコーパスの不備・欠点 1. 用言の活用系に関する情報の欠落 2. 複合名詞内の構造の曖昧性 3. 連用/連体 修飾句の係り先の曖昧性 4.
並列構造の曖昧性 • これらを解消するように方針を定める – ラベルの追加 – 構造の一定化 など 10
文法・コーパスの構文構造の変更 • 以下の2点について評価を行った。 1. 構文解析結果の曖昧性がどの程度抑えられているか 2. どの程度の構文解析結果が得られるか • 8911文に対し、以下の手順で構文構造を変更 1.
変更方針に従って文法を人手で変更 2. MSLRパーザでコーパス中の文を構文解析し、解析結果 の集合を獲得 3. コーパス作成支援ツールで、集合を絞込み、最終的に 一つの正しい構文構成を選択 11
構文解析結果の曖昧性の変化 • 変更前、変更後のコーパス全8911文から文法を抽 出し、MSLRパーザで解析 • 結果、文法規則数は約250個増加しているが、解析 結果の数は O 1012 から
O 105 に減少した。 12
構文解析精度の変化 • 8911文を10分割し、一つを評価用、残りをPGLRモデ ルの学習用とし、10分割交差検定で評価を行う。 – 文法は全文から抽出したもの( )と、学習用データの みから抽出したもの( )の2通り •
PGLRモデルによる生成確率の上位100位以内の解 析結果について、変更後の方が8~10%高い。 13 変更前 [%] 変更後 [%] 88.45 98.62 86.23 94.66
PGLRモデルによる解析結果を利用した 係り受け解析 • 係り受け関係は以下の手順で高分木から抽出 1. 文節区切りを決定する 2. 構文構造を基に、各文節について、係り先となる文節を 決定する •
評価について – 変更後の8912文で評価を行う。 – 評価用として100文をランダムに選択、残りを学習用 14
実験結果 • PGLRモデルにより構文解析を行い、構文木から係り 受け構造を抽出する。 • 以下の3つの尺度で評価 1. 係り受けA型:全ての係り受け関係の正解率 2. 係り受けB型:文末2文節以外の係り受け関係の正解率
3. 文正解率:文全体の文節の係り受け関係の正解率 15