Upgrade to Pro — share decks privately, control downloads, hide ads and more …

画像検索を用いた語義別画像付き辞書の構築

nishi-k
June 03, 2016
140

 画像検索を用いた語義別画像付き辞書の構築

nishi-k

June 03, 2016
Tweet

Transcript

  1. 背景  画像が付与された辞書 [利点]  文字列情報では得られない、視覚的な情報が得られる [応用先]  教育分野 (Popescu

    et al.2006)  言語横断検索 (林 他 2012)  子供や異なる言語の話者 や 文字の認識が困難な人 とのコミュニケーションを助けるツールに使用 (Mihalcea and Leong 2008; Goldberg et al. 2009) → できる限り広い語義に対して画像付与が必要 4
  2. 目的 1. できる限り広い範囲の語義に対して、画像が 付与された辞書を構築すること - 基本語データベースLexeed (天野, 小林 2008) の内容語にたいしてインターネットから画像検索

    - 高い精度で画像を付与するため人手で行う 2. 検索語に優先順位を自動的に付与 3. 画像検索可能な語義、不可能な語義の分析 5
  3. 言語資源の概要(1/2)  Lexeed  「基本語データベース: 語義別単語秦密度」  日本人の95% 以上が知っていると推定されている語を 収録

     収録語数: 約29,000語, 各語の平均1.7語義  語義数: 約48,000語義  表記ゆれを吸収  例: たまねぎ  見出し語: たまねぎ, 玉葱  代表表記: たまねぎ  表記ゆれ: 玉葱  49,245エントリ中, 11,083語 6
  4. 画像付与実験(検索語セットの作成)  検索語セットの種類  見出し語  代表表記のみ (q 代表 )

     代表表記がひらがなの場合は表記ゆれを追加 (q 基本 )  檜オントロジ  同義語、分野情報、上位語などの関連語 (q 関連語 )  定義文・例文中の特徴的な語  もっともtf-idfの高い語 (q 定義文 , q 例文 ) 9
  5. 画像付与実験(優先順位の妥当性評価方法)  評価方法  以下の2つの方法で各10,500語義ずつ選ぶ  ランダム表示法  すべての検索語セットの検索結果をランダムに 表示する方法

     ベスト優先法  優先順位の高い検索語セットから順に評価値3 以上の画像が3つ以上あった時点で、ほかの検 索語セットは使用しない方法  検索結果は30枚そのうち評価の高い5枚を 取得 11
  6. 表示可能/ 不可能な語の分析  品詞との関係  可能 / 不可能 では可能の割合が高い 

    動詞は97.8%が 表示可能  評価値が4以上の画像が5枚獲得されているのは, 24.0[%]のみ 14
  7. まとめと今後の課題  辞書Lexeedの名詞、動詞、形容詞、副詞類に画像付与実験 を行った  25,481語, 39,251語義  全体の94%に画像付与が可能 

    語義との適合度が高い画像が獲得できた品詞は、 名詞(抽象的な語を除く), 動詞, 副詞 の順  今後の課題  画像自体の特徴(色・輪郭)と言語的特徴から分析  検索語セットを 語義曖昧性解消のための学習データに利用  検索語セットを用いて学習データを獲得した場合の精度調査 15
  8. 16

  9. 17