Upgrade to Pro — share decks privately, control downloads, hide ads and more …

画像検索を用いた語義別画像付き辞書の構築

F0374c992b2847f78a662cc964171343?s=47 nishi-k
June 03, 2016
110

 画像検索を用いた語義別画像付き辞書の構築

F0374c992b2847f78a662cc964171343?s=128

nishi-k

June 03, 2016
Tweet

Transcript

  1. 文献紹介 (2016/06/02) 画像検索を用いた語義別画像付き辞書の構築 長岡技術科学大学 学部4年 西山 浩気

  2. 参考文献  藤田 早苗, 平 博順, 永田 昌明, 画像検索を用いた語義別画像付き辞書の構築, 自然言語処理,

    Vol20(2013) No.2 pp.223-250 2
  3. 概要  語義別に画像が付与された辞書を画像検索を 行い人手で構築  検索語セットを作成し、優先順位を付与  実験により妥当性を確認  画像が付与できる語義

    と 付与できない語義を 品詞との関連性に着目し、分析  39,251語義に対して94%は画像付与が可能 3
  4. 背景  画像が付与された辞書 [利点]  文字列情報では得られない、視覚的な情報が得られる [応用先]  教育分野 (Popescu

    et al.2006)  言語横断検索 (林 他 2012)  子供や異なる言語の話者 や 文字の認識が困難な人 とのコミュニケーションを助けるツールに使用 (Mihalcea and Leong 2008; Goldberg et al. 2009) → できる限り広い語義に対して画像付与が必要 4
  5. 目的 1. できる限り広い範囲の語義に対して、画像が 付与された辞書を構築すること - 基本語データベースLexeed (天野, 小林 2008) の内容語にたいしてインターネットから画像検索

    - 高い精度で画像を付与するため人手で行う 2. 検索語に優先順位を自動的に付与 3. 画像検索可能な語義、不可能な語義の分析 5
  6. 言語資源の概要(1/2)  Lexeed  「基本語データベース: 語義別単語秦密度」  日本人の95% 以上が知っていると推定されている語を 収録

     収録語数: 約29,000語, 各語の平均1.7語義  語義数: 約48,000語義  表記ゆれを吸収  例: たまねぎ  見出し語: たまねぎ, 玉葱  代表表記: たまねぎ  表記ゆれ: 玉葱  49,245エントリ中, 11,083語 6
  7. 言語資源の概要(2/2)  檜オントロジ  定義分から獲得した同義語、分野情報、上位語などの関連語 7

  8. 画像付与実験(検索語セットの作成)  検索語セットの作成  予備実験の結果から、  複数の語義に適切な画像を獲得するためには、検 索語の拡張が有効  特に、同義語類による拡張が有効

    → Lexeedから複数の検索語セットを作成 8
  9. 画像付与実験(検索語セットの作成)  検索語セットの種類  見出し語  代表表記のみ (q 代表 )

     代表表記がひらがなの場合は表記ゆれを追加 (q 基本 )  檜オントロジ  同義語、分野情報、上位語などの関連語 (q 関連語 )  定義文・例文中の特徴的な語  もっともtf-idfの高い語 (q 定義文 , q 例文 ) 9
  10. 画像付与実験(検索語セットの優先順位) 10

  11. 画像付与実験(優先順位の妥当性評価方法)  評価方法  以下の2つの方法で各10,500語義ずつ選ぶ  ランダム表示法  すべての検索語セットの検索結果をランダムに 表示する方法

     ベスト優先法  優先順位の高い検索語セットから順に評価値3 以上の画像が3つ以上あった時点で、ほかの検 索語セットは使用しない方法  検索結果は30枚そのうち評価の高い5枚を 取得 11
  12. 画像付与実験(優先順位の妥当性評価方法) 12

  13. 画像付与実験(優先順位の妥当性評価)  利用された検索語セットは優先順位の通り  優先順位は妥当  ベスト優先法で優先度1が使用された割合はラ ンダム表示法に比べ +23% 13

  14. 表示可能/ 不可能な語の分析  品詞との関係  可能 / 不可能 では可能の割合が高い 

    動詞は97.8%が 表示可能  評価値が4以上の画像が5枚獲得されているのは, 24.0[%]のみ 14
  15. まとめと今後の課題  辞書Lexeedの名詞、動詞、形容詞、副詞類に画像付与実験 を行った  25,481語, 39,251語義  全体の94%に画像付与が可能 

    語義との適合度が高い画像が獲得できた品詞は、 名詞(抽象的な語を除く), 動詞, 副詞 の順  今後の課題  画像自体の特徴(色・輪郭)と言語的特徴から分析  検索語セットを 語義曖昧性解消のための学習データに利用  検索語セットを用いて学習データを獲得した場合の精度調査 15
  16. 16

  17. 17