Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_9_コーパスに基づく動詞の多義解消
Search
MIKAMI-YUKI
December 24, 2015
Education
0
87
文献紹介_9_コーパスに基づく動詞の多義解消
MIKAMI-YUKI
December 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
230
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
72
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
69
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
79
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
110
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
370
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
390
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
490
Other Decks in Education
See All in Education
使用済燃料再処理等実施中期計画
hide2kano
0
150
LightSail2324
cbtlibrary
0
110
2 занятие. Бизнес-модели и метод наблюдения PINT/SIRP #ideaNN 26.01.2024.
karlov
0
140
Information Architectures - Lecture 2 - Next Generation User Interfaces (4018166FNR)
signer
PRO
0
1.1k
財務分析 - 入門編
lsuzuki
0
330
Human Perception and Colour Theory - Lecture 2 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
Data Presentation - Lecture 5 - Information Visualisation (4019538FNR)
signer
PRO
0
1.7k
自由の森学園学校紹介資料
jiyunomori
0
1k
渡辺研Slackの使い方 / Slack Local Rule
kaityo256
PRO
5
5.3k
「小・中・高等学校における情報教育の体系的な学習を目指したカリキュラムモデル基本方針」
codeforeveryone
0
690
Baa Baa Black Sheep
haiinya
0
110
LTをすべき100の理由
eltociear
0
180
Featured
See All Featured
Large-scale JavaScript Application Architecture
addyosmani
501
110k
No one is an island. Learnings from fostering a developers community.
thoeni
14
2k
BBQ
matthewcrist
78
8.7k
Teambox: Starting and Learning
jrom
126
8.4k
Put a Button on it: Removing Barriers to Going Fast.
kastner
58
3k
Happy Clients
brianwarren
91
6.3k
Making the Leap to Tech Lead
cromwellryan
123
8.4k
Why You Should Never Use an ORM
jnunemaker
PRO
50
8.6k
Facilitating Awesome Meetings
lara
39
5.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
242
12k
A Philosophy of Restraint
colly
195
15k
Build your cross-platform service in a week with App Engine
jlugia
223
17k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年12月24日 コーパスに基づく動詞の 多義解消 自然言語処理研究室 1
出典 コーパスに基づく動詞の多義解消 福本 文代, 辻井 潤一 自然言語処理 Vol. 4 (1997)
No. 2 P21-39 2
概要 言語処理における問題の一つに、言語 に関する様々な曖昧性の問題がある。 動詞の語義情報を利用し、文中に含ま れる多義語の曖昧性を解消する。 本手法では71.1%の正解率が得られた。 3
情報の抽出 意味的に近い動詞は同じ名詞と共起し て出現する。 s1,s1’ においてtakeとbuyはstakeと 共起して現れ、ほぼ同じ意味をもつ。 4
情報の抽出 s1,s2両方に表れるtakeは多義語であ り、動詞buy, spendと共起して表れる 名詞stake, timeと特徴付けができる。 多義語の動詞を含む文において、意味 を特徴づける名詞があれば、動詞の意 味を同定することができる。 5
仮想動詞 多義語の意味を特徴づける名詞の集合 を抽出する。 多義語に対し、一つ一つの意味に対応 させた要素(仮想動詞ベクトル)に分解し、 クラスタを生成。 6
仮想動詞 7
クラスタリング手法 手法として、overlappingクラスタリング アルゴリズムを使用した。 手法として例えば、takeがbuyとspend の意味を持つかどうかを判断するために、 {take1, buy}と{take2,spend}の偏 差を比較して決定する。 8
相互情報量 9
相互情報量 クラスタリングの結果から得られたこのテー ブルをpvnテーブルと呼ぶ。 複数の集合に属する名詞は、相互情報 量が一番大きい値の仮想動詞とする。 10
多義語の解消 多義語の後方5字以内に出現する名 詞がpvnテーブルに存在するときに、その 仮想動詞の意味とする。 2つ以上存在する場合は、相互情報量 が一番高いものをその意味とする。 11
多義語の解消 名詞がpvnテーブルに存在しない場合は、 その名詞と各仮想動詞を以下の式で計 算し、最大になったものの意味とする。 Mu:相互情報量 , Dis:偏差 12
実験 コーパスはタグ付けされたWall Street Journal(182,992文)を使用した。 そこから動詞と名詞の組を5,940,193 組(異なり組:2,743,974)を取得した。 13
実験 異なり組:2,743,974に対して、相互情 報量を計算し、共起頻度の閾値が5、 相互情報量の閾値が3以上である動 詞と名詞、動詞と副詞の組を抽出した。 結果、名詞が6768組、副詞が1200組 を得た。 14
実験 実験にはその中から、14種類の多義語 を用い、テスト文として、各多義語に対し てランダムに100文、合計1,400文を抽 出した。 この中で、人間が一意に決定できないも のは除き、1,226文を対象に実験を行っ た。 15
実験結果 16
実験結果 17
実験結果 18 pvnテーブルにある方の正解は、総 数606文の内、539文であり、正解 率は88.9%に達している。
実験(他手法との比較) 既存の手法であった、文脈ベクトルを用 いた名詞の多義解消手法を動詞に適 用した結果と比較した。 文脈サイズ(対象語の前後何語を文脈 としたか)には5語と10語を用いた。 19
実験結果 20
まとめ コーパスから抽出した動詞の語義情報を 利用し、曖昧性を解消する手法を提案。 14種類の多義語動詞1226文に対し、 71.1%の正解率が得られた。 pvnテーブルにあるもののみの場合では 88.9%の正解率が得られた。 21
ご視聴ありがとうございました 22