Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像検索を用いた語義別画像付き辞書の構築
Search
nishi-k
June 03, 2016
0
140
画像検索を用いた語義別画像付き辞書の構築
nishi-k
June 03, 2016
Tweet
Share
More Decks by nishi-k
See All by nishi-k
自動抽出した換喩表現を用いた係り受け関係のずれの解消
nishiyama
0
300
日本語解析システム「雪だるま」における表記ゆれの拡張とまとめあげ
nishiyama
0
1k
多段解析法による形態素解析を用いた音声合成用読み韻律情報設定法とその単語辞書構成
nishiyama
0
180
質問応答に基づく対災害情報分析システム
nishiyama
0
210
対話システム
nishiyama
0
240
動詞名詞換言辞書の構築と敬語の常体への換言
nishiyama
0
450
情報検索2
nishiyama
0
84
2016/02/17 情報検索
nishiyama
0
120
文脈の解析
nishiyama
0
330
Featured
See All Featured
A better future with KSS
kneath
238
17k
How to train your dragon (web standard)
notwaldorf
88
5.7k
Automating Front-end Workflow
addyosmani
1366
200k
Docker and Python
trallard
41
3.1k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
The Invisible Side of Design
smashingmag
298
50k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Stop Working from a Prison Cell
hatefulcrawdad
267
20k
Six Lessons from altMBA
skipperchong
27
3.5k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
280
13k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
17
2.2k
We Have a Design System, Now What?
morganepeng
51
7.3k
Transcript
文献紹介 (2016/06/02) 画像検索を用いた語義別画像付き辞書の構築 長岡技術科学大学 学部4年 西山 浩気
参考文献 藤田 早苗, 平 博順, 永田 昌明, 画像検索を用いた語義別画像付き辞書の構築, 自然言語処理,
Vol20(2013) No.2 pp.223-250 2
概要 語義別に画像が付与された辞書を画像検索を 行い人手で構築 検索語セットを作成し、優先順位を付与 実験により妥当性を確認 画像が付与できる語義
と 付与できない語義を 品詞との関連性に着目し、分析 39,251語義に対して94%は画像付与が可能 3
背景 画像が付与された辞書 [利点] 文字列情報では得られない、視覚的な情報が得られる [応用先] 教育分野 (Popescu
et al.2006) 言語横断検索 (林 他 2012) 子供や異なる言語の話者 や 文字の認識が困難な人 とのコミュニケーションを助けるツールに使用 (Mihalcea and Leong 2008; Goldberg et al. 2009) → できる限り広い語義に対して画像付与が必要 4
目的 1. できる限り広い範囲の語義に対して、画像が 付与された辞書を構築すること - 基本語データベースLexeed (天野, 小林 2008) の内容語にたいしてインターネットから画像検索
- 高い精度で画像を付与するため人手で行う 2. 検索語に優先順位を自動的に付与 3. 画像検索可能な語義、不可能な語義の分析 5
言語資源の概要(1/2) Lexeed 「基本語データベース: 語義別単語秦密度」 日本人の95% 以上が知っていると推定されている語を 収録
収録語数: 約29,000語, 各語の平均1.7語義 語義数: 約48,000語義 表記ゆれを吸収 例: たまねぎ 見出し語: たまねぎ, 玉葱 代表表記: たまねぎ 表記ゆれ: 玉葱 49,245エントリ中, 11,083語 6
言語資源の概要(2/2) 檜オントロジ 定義分から獲得した同義語、分野情報、上位語などの関連語 7
画像付与実験(検索語セットの作成) 検索語セットの作成 予備実験の結果から、 複数の語義に適切な画像を獲得するためには、検 索語の拡張が有効 特に、同義語類による拡張が有効
→ Lexeedから複数の検索語セットを作成 8
画像付与実験(検索語セットの作成) 検索語セットの種類 見出し語 代表表記のみ (q 代表 )
代表表記がひらがなの場合は表記ゆれを追加 (q 基本 ) 檜オントロジ 同義語、分野情報、上位語などの関連語 (q 関連語 ) 定義文・例文中の特徴的な語 もっともtf-idfの高い語 (q 定義文 , q 例文 ) 9
画像付与実験(検索語セットの優先順位) 10
画像付与実験(優先順位の妥当性評価方法) 評価方法 以下の2つの方法で各10,500語義ずつ選ぶ ランダム表示法 すべての検索語セットの検索結果をランダムに 表示する方法
ベスト優先法 優先順位の高い検索語セットから順に評価値3 以上の画像が3つ以上あった時点で、ほかの検 索語セットは使用しない方法 検索結果は30枚そのうち評価の高い5枚を 取得 11
画像付与実験(優先順位の妥当性評価方法) 12
画像付与実験(優先順位の妥当性評価) 利用された検索語セットは優先順位の通り 優先順位は妥当 ベスト優先法で優先度1が使用された割合はラ ンダム表示法に比べ +23% 13
表示可能/ 不可能な語の分析 品詞との関係 可能 / 不可能 では可能の割合が高い
動詞は97.8%が 表示可能 評価値が4以上の画像が5枚獲得されているのは, 24.0[%]のみ 14
まとめと今後の課題 辞書Lexeedの名詞、動詞、形容詞、副詞類に画像付与実験 を行った 25,481語, 39,251語義 全体の94%に画像付与が可能
語義との適合度が高い画像が獲得できた品詞は、 名詞(抽象的な語を除く), 動詞, 副詞 の順 今後の課題 画像自体の特徴(色・輪郭)と言語的特徴から分析 検索語セットを 語義曖昧性解消のための学習データに利用 検索語セットを用いて学習データを獲得した場合の精度調査 15
16
17