Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_9_コーパスに基づく動詞の多義解消
Search
MIKAMI-YUKI
December 24, 2015
Education
0
130
文献紹介_9_コーパスに基づく動詞の多義解消
MIKAMI-YUKI
December 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
140
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
350
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
98
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
110
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
110
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
150
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
420
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
430
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
600
Other Decks in Education
See All in Education
演習:Gitの基本操作 / 04-git-basic
kaityo256
PRO
0
360
国際卓越研究大学計画|Science Tokyo(東京科学大学)
sciencetokyo
PRO
0
49k
AIで日本はどう進化する? 〜キミが生きる2035年の地図〜
behomazn
0
130
LotusScript でエージェント情報を出力してみた
harunakano
0
150
Flinga
matleenalaakso
4
15k
GitHubによるWebアプリケーションのデプロイ / 07-github-deploy
kaityo256
PRO
1
200
Surviving the surfaceless web
jonoalderson
0
740
0203
cbtlibrary
0
150
Analysis and Validation - Lecture 4 - Information Visualisation (4019538FNR)
signer
PRO
0
2.6k
リモートリポジトリの操作 / 02-c-remote
kaityo256
PRO
0
130
Human Perception and Colour Theory - Lecture 2 - Information Visualisation (4019538FNR)
signer
PRO
0
3k
タイムマシンのつくりかた
nomizone
3
1.2k
Featured
See All Featured
We Have a Design System, Now What?
morganepeng
55
8k
Fireside Chat
paigeccino
42
3.8k
Rails Girls Zürich Keynote
gr2m
96
14k
Visualization
eitanlees
150
17k
Odyssey Design
rkendrick25
PRO
2
560
Reality Check: Gamification 10 Years Later
codingconduct
0
2.1k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
The Art of Programming - Codeland 2020
erikaheidi
57
14k
エンジニアに許された特別な時間の終わり
watany
106
240k
Building AI with AI
inesmontani
PRO
1
820
Technical Leadership for Architectural Decision Making
baasie
3
300
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年12月24日 コーパスに基づく動詞の 多義解消 自然言語処理研究室 1
出典 コーパスに基づく動詞の多義解消 福本 文代, 辻井 潤一 自然言語処理 Vol. 4 (1997)
No. 2 P21-39 2
概要 言語処理における問題の一つに、言語 に関する様々な曖昧性の問題がある。 動詞の語義情報を利用し、文中に含ま れる多義語の曖昧性を解消する。 本手法では71.1%の正解率が得られた。 3
情報の抽出 意味的に近い動詞は同じ名詞と共起し て出現する。 s1,s1’ においてtakeとbuyはstakeと 共起して現れ、ほぼ同じ意味をもつ。 4
情報の抽出 s1,s2両方に表れるtakeは多義語であ り、動詞buy, spendと共起して表れる 名詞stake, timeと特徴付けができる。 多義語の動詞を含む文において、意味 を特徴づける名詞があれば、動詞の意 味を同定することができる。 5
仮想動詞 多義語の意味を特徴づける名詞の集合 を抽出する。 多義語に対し、一つ一つの意味に対応 させた要素(仮想動詞ベクトル)に分解し、 クラスタを生成。 6
仮想動詞 7
クラスタリング手法 手法として、overlappingクラスタリング アルゴリズムを使用した。 手法として例えば、takeがbuyとspend の意味を持つかどうかを判断するために、 {take1, buy}と{take2,spend}の偏 差を比較して決定する。 8
相互情報量 9
相互情報量 クラスタリングの結果から得られたこのテー ブルをpvnテーブルと呼ぶ。 複数の集合に属する名詞は、相互情報 量が一番大きい値の仮想動詞とする。 10
多義語の解消 多義語の後方5字以内に出現する名 詞がpvnテーブルに存在するときに、その 仮想動詞の意味とする。 2つ以上存在する場合は、相互情報量 が一番高いものをその意味とする。 11
多義語の解消 名詞がpvnテーブルに存在しない場合は、 その名詞と各仮想動詞を以下の式で計 算し、最大になったものの意味とする。 Mu:相互情報量 , Dis:偏差 12
実験 コーパスはタグ付けされたWall Street Journal(182,992文)を使用した。 そこから動詞と名詞の組を5,940,193 組(異なり組:2,743,974)を取得した。 13
実験 異なり組:2,743,974に対して、相互情 報量を計算し、共起頻度の閾値が5、 相互情報量の閾値が3以上である動 詞と名詞、動詞と副詞の組を抽出した。 結果、名詞が6768組、副詞が1200組 を得た。 14
実験 実験にはその中から、14種類の多義語 を用い、テスト文として、各多義語に対し てランダムに100文、合計1,400文を抽 出した。 この中で、人間が一意に決定できないも のは除き、1,226文を対象に実験を行っ た。 15
実験結果 16
実験結果 17
実験結果 18 pvnテーブルにある方の正解は、総 数606文の内、539文であり、正解 率は88.9%に達している。
実験(他手法との比較) 既存の手法であった、文脈ベクトルを用 いた名詞の多義解消手法を動詞に適 用した結果と比較した。 文脈サイズ(対象語の前後何語を文脈 としたか)には5語と10語を用いた。 19
実験結果 20
まとめ コーパスから抽出した動詞の語義情報を 利用し、曖昧性を解消する手法を提案。 14種類の多義語動詞1226文に対し、 71.1%の正解率が得られた。 pvnテーブルにあるもののみの場合では 88.9%の正解率が得られた。 21
ご視聴ありがとうございました 22