Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文献紹介_9_コーパスに基づく動詞の多義解消
Search
MIKAMI-YUKI
December 24, 2015
Education
0
98
文献紹介_9_コーパスに基づく動詞の多義解消
MIKAMI-YUKI
December 24, 2015
Tweet
Share
More Decks by MIKAMI-YUKI
See All by MIKAMI-YUKI
2016年_年次大会_発表資料
mikamiy
0
110
文献紹介_10_意味的類似性と多義解消を用いた文書検索手法
mikamiy
0
260
文献紹介_8_単語単位による日本語言語モデルの検討
mikamiy
0
77
文献紹介_7_自動獲得した未知語の読み・文脈情報による仮名漢字変換
mikamiy
0
79
文献紹介_6_複数の言語的特徴を用いた日本語述部の同義判定
mikamiy
0
92
文献紹介_5_マイクロブログにおける感情・コミュニケーション・動作タイプの推定に基づく顔文字の推薦
mikamiy
0
120
文献紹介_4_結合価パターンを用いた仮名漢字変換候補の選択
mikamiy
0
380
文献紹介_3_絵本のテキストを対象とした形態素解析
mikamiy
1
400
文献紹介_2_日本語語義曖昧性解消のための訓練データの自動拡張
mikamiy
0
520
Other Decks in Education
See All in Education
2024年度春学期 統計学 第5回 分布をまとめる (2024. 5. 9)
akiraasano
PRO
1
160
2024年度春学期 統計学 第2回 統計資料の収集と読み方 (2024. 4. 18)
akiraasano
PRO
0
110
電子計算機のイロハ
kosugitti
1
1.4k
Matz に頼られたので張り切って2時間ほどドイツと日本の互いの Ruby 学習事情についてディスカッションした話
yasulab
1
320
AGU情報社会論 2024 #03 "CC BY-SA"
fullfull
0
140
Поступление в ТОГУ 2024
pnuslide
0
170k
大学院進学について(2024年度版)
imash
0
140
いまからでも遅くない!サイバーセキュリティ人材育成
mnori0211
1
1.6k
自己紹介 / who-am-i
yasulab
2
3.6k
Before You Create Something
nandenjin
0
210
Avoin jakaminen ja Creative Commons -lisenssit
matleenalaakso
0
1.2k
Interaction - Lecture 10 - Information Visualisation (4019538FNR)
signer
PRO
0
1.4k
Featured
See All Featured
Done Done
chrislema
179
15k
Building Your Own Lightsaber
phodgson
101
5.9k
The Language of Interfaces
destraynor
151
23k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
16
1.6k
Large-scale JavaScript Application Architecture
addyosmani
506
110k
Building Applications with DynamoDB
mza
89
5.8k
BBQ
matthewcrist
82
9k
From Idea to $5000 a Month in 5 Months
shpigford
377
46k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
26
1.6k
How To Stay Up To Date on Web Technology
chriscoyier
784
250k
Infographics Made Easy
chrislema
238
18k
Faster Mobile Websites
deanohume
303
30k
Transcript
長岡技術科学大学 B4 三上侑城 文献紹介 2015年12月24日 コーパスに基づく動詞の 多義解消 自然言語処理研究室 1
出典 コーパスに基づく動詞の多義解消 福本 文代, 辻井 潤一 自然言語処理 Vol. 4 (1997)
No. 2 P21-39 2
概要 言語処理における問題の一つに、言語 に関する様々な曖昧性の問題がある。 動詞の語義情報を利用し、文中に含ま れる多義語の曖昧性を解消する。 本手法では71.1%の正解率が得られた。 3
情報の抽出 意味的に近い動詞は同じ名詞と共起し て出現する。 s1,s1’ においてtakeとbuyはstakeと 共起して現れ、ほぼ同じ意味をもつ。 4
情報の抽出 s1,s2両方に表れるtakeは多義語であ り、動詞buy, spendと共起して表れる 名詞stake, timeと特徴付けができる。 多義語の動詞を含む文において、意味 を特徴づける名詞があれば、動詞の意 味を同定することができる。 5
仮想動詞 多義語の意味を特徴づける名詞の集合 を抽出する。 多義語に対し、一つ一つの意味に対応 させた要素(仮想動詞ベクトル)に分解し、 クラスタを生成。 6
仮想動詞 7
クラスタリング手法 手法として、overlappingクラスタリング アルゴリズムを使用した。 手法として例えば、takeがbuyとspend の意味を持つかどうかを判断するために、 {take1, buy}と{take2,spend}の偏 差を比較して決定する。 8
相互情報量 9
相互情報量 クラスタリングの結果から得られたこのテー ブルをpvnテーブルと呼ぶ。 複数の集合に属する名詞は、相互情報 量が一番大きい値の仮想動詞とする。 10
多義語の解消 多義語の後方5字以内に出現する名 詞がpvnテーブルに存在するときに、その 仮想動詞の意味とする。 2つ以上存在する場合は、相互情報量 が一番高いものをその意味とする。 11
多義語の解消 名詞がpvnテーブルに存在しない場合は、 その名詞と各仮想動詞を以下の式で計 算し、最大になったものの意味とする。 Mu:相互情報量 , Dis:偏差 12
実験 コーパスはタグ付けされたWall Street Journal(182,992文)を使用した。 そこから動詞と名詞の組を5,940,193 組(異なり組:2,743,974)を取得した。 13
実験 異なり組:2,743,974に対して、相互情 報量を計算し、共起頻度の閾値が5、 相互情報量の閾値が3以上である動 詞と名詞、動詞と副詞の組を抽出した。 結果、名詞が6768組、副詞が1200組 を得た。 14
実験 実験にはその中から、14種類の多義語 を用い、テスト文として、各多義語に対し てランダムに100文、合計1,400文を抽 出した。 この中で、人間が一意に決定できないも のは除き、1,226文を対象に実験を行っ た。 15
実験結果 16
実験結果 17
実験結果 18 pvnテーブルにある方の正解は、総 数606文の内、539文であり、正解 率は88.9%に達している。
実験(他手法との比較) 既存の手法であった、文脈ベクトルを用 いた名詞の多義解消手法を動詞に適 用した結果と比較した。 文脈サイズ(対象語の前後何語を文脈 としたか)には5語と10語を用いた。 19
実験結果 20
まとめ コーパスから抽出した動詞の語義情報を 利用し、曖昧性を解消する手法を提案。 14種類の多義語動詞1226文に対し、 71.1%の正解率が得られた。 pvnテーブルにあるもののみの場合では 88.9%の正解率が得られた。 21
ご視聴ありがとうございました 22