Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データベースと応用システム:情報検索

 データベースと応用システム:情報検索

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. (c)長岡技術科学大学 電気系 1
    データベースと応用システム
    情報検索
    山本和英
    長岡技術科学大学 電気系

    View full-size slide

  2. (c)長岡技術科学大学 電気系 2
    情報検索とは
    ● Information Retrieval, IR
    ● 広義では「ユーザの持つ問題(情報要求)を解決
    できる情報を見つけ出すこと」
    ● 狭義では「ユーザの検索質問に適合する文書を
    (大量の)文書中から見つけ出すこと」

    View full-size slide

  3. (c)長岡技術科学大学 電気系 3
    情報検索の歴史
    ● 情報検索は図書館の蔵書・文書検索が起源であ
    り、図書館学として研究が進められてきた。
    ● 科学技術分野、及び特許分野で大量の論文・特
    許の検索が必要となる。
    ● 計算機の登場により、情報学との関連が強くな
    り、図書館情報学と呼ばれるようになる。
    ● Webの登場によりページ数が爆発的に増加、検索
    エンジンが登場

    View full-size slide

  4. (c)長岡技術科学大学 電気系 4
    関連分野
    ● データベース
    ● 自然言語処理
    – 聞いてほしいことはいっぱいありますので、興味ある人は
    修士の授業を聞いてください。
    ● パタン認識
    ● 図書館情報学
    ● 認知心理学

    View full-size slide

  5. (c)長岡技術科学大学 電気系 5
    索引付け

    View full-size slide

  6. (c)長岡技術科学大学 電気系 6
    索引付け(indexing)
    ● 文書から、検索対象とする用語(キーワード)を決
    めること。
    ● 昔は、計算機性能が十分でなかったため、検索
    対象語を絞り込む必要があった。このため人手で
    厳選したキーワードを付与していた。
    ● 文書が電子化さえされていれば索引付けの自動
    化は可能である。しかし、自動的に付与した索引
    が必ずしも便利とは限らないため、今でも人手で
    行っている場合も多い。
    – 例えば学術原稿では著者にキーワードの付与を要求す
    る場合も多い。

    View full-size slide

  7. (c)長岡技術科学大学 電気系 7
    どんな語をキーワードにすべきか?
    一言で言えば特徴的な語。
    でも何がどうなっていれば「特徴的」なのか?
    ● その文書内でよく使われている語
    – 文書の内容を代表的に表現している
    ● 他の文書であまり(or全く)使われていない語
    – 他文書との差異を表現している

    View full-size slide

  8. (c)長岡技術科学大学 電気系 8
    TF・IDF
    語の重要度を計算する指標
    ● TF (term frequency)
    – ある文書d中に出現する語tの頻度
    ● IDF (Inverse document frequency)

    ● TF・IDF
    – 両指標の積
    – 最も有名でよく使用される。
    log
    (全文書数 )
    (tを含む文書数 )
    +1

    View full-size slide

  9. (c)長岡技術科学大学 電気系 9
    不要語リスト(stop words)
    ● 誰もこんな語で検索しないだろう、という語のリスト
    – 日本語の「それ」、英語の is など
    ● 検索の負荷(索引の規模や検索時間等)を減らす
    のが目的。
    ● 厳密な定義は困難であるが、機能語(日本語の
    助詞、英語の前置詞など)や超高頻度語の中か
    ら選ばれる。

    View full-size slide

  10. (c)長岡技術科学大学 電気系 10
    検索質問拡張(query expansion)
    ● 一般に、言語表現は多様性がある。
    – 異表記(例:「リンゴ」と「りんご」と「林檎」)
    – 揺れ(例:「コンピュータ」と「コンピューター」)
    – 同義語(例:「コンピュータ」と「計算機」)
    ● これらは検索結果の精度低下を招くので、精度を
    高めるために入力表現の同義語等も同時に検索す
    る技術のこと。
    ● さらに、「もしかして検索」のように誤入力した検索
    質問に対しても検索質問拡張を行うシステムもあ
    る。

    View full-size slide

  11. (c)長岡技術科学大学 電気系 11
    情報検索モデル

    View full-size slide

  12. (c)長岡技術科学大学 電気系 12
    検索結果の絞り込み
    検索要求を満たす文書(ページ)は大量に適合す
    るかもしれない。どうやってほしい文書を見つける
    か?
    ● さらに絞り込む
    – ブーリアンモデル
    ● 順位付けする
    – ベクトル空間モデル
    – テキスト外情報: PageRank、協調フィルタリングなど

    View full-size slide

  13. (c)長岡技術科学大学 電気系 13
    ブーリアンモデル(Boolean model)
    ● 最も古典的な検索方法
    ● 検索質問を論理式で表現して検索する
    ● 検索結果が多い場合はさらに検索質問を追加して
    (AND検索して)絞り込む

    View full-size slide

  14. (c)長岡技術科学大学 電気系 14
    ベクトル空間モデル
    (vector space model)
    ● 検索質問と文書を同一軸のベクトルで表現する。
    ● ベクトルの各軸は各キーワードの出現頻度などとす
    る場合が多い。
    – つまり、ベクトルの次元数 = 単語数
    ● これによって、検索質問と文書の類似度をベクトル
    の類似度で表現できる。
    – 例えば、両ベクトル間の角度(コサイン)で定義でき
    る。

    View full-size slide

  15. (c)長岡技術科学大学 電気系 15
    PageRank
    ● Googleの技術。PageRank(TM) は、米Google社の登録商標です。
    ● 文書の内容から重要性を判断しない
    ● ページのリンク情報を用いて質を判断する
    ● PR0~PR10の11段階ある。

    View full-size slide

  16. (c)長岡技術科学大学 電気系 16
    PageRank:考え方
    ● 多くの良質なページからリンクされているページは、
    良質である。
    ● ページAからページBへのリンクを、「投票」と考え
    る。
    – 多くのページからリンクされているほうが良質
    – 良質なページからリンクされているほうが良質
    – あまりリンクしていないページからリンクされているほうが
    良質

    View full-size slide

  17. (c)長岡技術科学大学 電気系 17
    全文検索システム

    View full-size slide

  18. (c)長岡技術科学大学 電気系 18
    全文検索の分類
    ● 逐次検索
    – 毎回全文を最初から調べていく方法
    – 文書が高頻度で更新される場合に有効
    ● 全文索引
    – 事前に何らかの形で自動的に索引を作っておく方法
    – 大規模な文書に対して有効

    View full-size slide

  19. (c)長岡技術科学大学 電気系 19
    全文索引
    対象となる全文を分析してあらかじめ自動で転置索
    引を作成する。索引の作り方は大きく2種類ある。
    ● 単語索引
    – 形態素解析を行って分かち書きする。
    – 索引を小さくできるが、検索漏れの可能性あり

    N-gram索引
    – N文字のすべての部分文字を「単語」とみな
    す。
    – 検索漏れはないが無意味な索引が大量に発生

    View full-size slide

  20. (c)長岡技術科学大学 電気系 20
    形態素解析
    ● 自然言語処理の基本技術
    ● 二つの仕事:
    – 形態素分割(分かち書き)
    – 品詞付与
    ● 日本語だけの技術ではなく、例えば英語でも必
    要となる
    – that's ==> that be
    – New York ==> (1単語)

    View full-size slide

  21. (c)長岡技術科学大学 電気系 21
    (文書)
    文書1:「京都の寺は多い」
    文書2:「東京都国分寺はテニスコートが多い」
    文書3:「テニスするなら東京より京都がいい」
    ...
    (単語転置索引)
    position(京都) = {1, 3}
    position(寺) = {1}
    position(多い) = {1, 2}
    position(東京都) = {2}
    position(国分寺) = {2}
    position(テニスコート) = {2}
    position(テニス) = {3}
    position(東京) = {3}
    ...
    文書2が間違って
    検索されない
    単語索引

    View full-size slide

  22. (c)長岡技術科学大学 電気系 22
    (文書)
    文書1:「京都の寺は多い」
    文書2:「東京都国分寺はテニスコートが多い」
    文書3:「テニスするなら東京より京都がいい」
    ...
    (転置索引)
    position(京都) = {1, 2, 3}
    position(都の) = {1}
    position(の寺) = {1}
    position(寺は) = {1,2}
    ...
    position(多い) = {1, 2}
    position(テニ) = {2, 3}
    position(東京) = {2, 3}
    ...
    テニ(ス)を含む文書を
    もれなく検索できる
    東京を含む文書を
    もれなく検索できる
    検索されそうにない
    文字列まで大量に
    生成される
    N-gram索引(2文字索引の場合)

    View full-size slide

  23. (c)長岡技術科学大学 電気系 23
    情報検索システムの評価

    View full-size slide

  24. (c)長岡技術科学大学 電気系 24
    検索システムの評価
    ● 検索結果の有効性
    – 検索の正確さ
    ● 検索作業の作業効率
    – 検索時間
    ● 使いやすさ
    – 初心者にとっての使いやすさ
    – 熟練者にとっての使いやすさ

    View full-size slide

  25. (c)長岡技術科学大学 電気系 25
    再現率と適合率
    ● 再現率(recall):どの程度正解を検索できたか
    – R = (v∩w)÷v

    適合率(精度)(precision):検索したものがどの
    程度正しかったか
    – P = (v∩w)÷w

    正解数のみを出力
    させると両指標は
    常に同一になる。
    正解
    検索結果


    v∩w

    View full-size slide

  26. (c)長岡技術科学大学 電気系 26
    F値 (F-measure)
    ● 再現率と適合率を一つの尺度にまとめたもの。
    ● Rを再現率、Pを適合率とした時、両者の調和平
    均を計算する。
    ● これを変形して、
    1
    F
    =
    1
    2
    (
    1
    R
    +
    1
    P
    )
    F=
    2PR
    P+R

    View full-size slide

  27. (c)長岡技術科学大学 電気系 27
    情報検索の今後

    View full-size slide

  28. (c)長岡技術科学大学 電気系 28
    協調フィルタリング
    ● ユーザに似た人の意見を参考にする、という考え
    方。
    – 行動履歴によって検索要求を推測しようとする試み
    ● 1992年にXerox PARCが発表(tapestry)、Amazon
    が1997年に「おすすめ商品」を導入。
    ● 現在では、レコメンデーションサービスで一般的に
    利用されている

    View full-size slide

  29. (c)長岡技術科学大学 電気系 29
    質問応答(Question Answering)
    ● ユーザが知りたい情報を含む文書(ページ)を出力
    するのではなく、知りたい情報に対して回答を探す
    技術。
    ● Wolfram Alpha

    しゃべってコンシェル・Siri

    IBM Watson

    View full-size slide

  30. (c)長岡技術科学大学 電気系 30

    View full-size slide

  31. (c)長岡技術科学大学 電気系 31
    画像検索
    ● 画像検索は各画像に予め索引を付与しておき、そ
    れを検索するのが一般的。
    – つまり索引を付与してしまえば後は文書検索と全く同
    じ。
    ● 画像を入力して類似画像を検索する技術もある。
    – 例:Google検索
    – ただし、類似画像を検索しているのではなく、入力画像
    をキーワードに自動変換した上で画像検索している。

    View full-size slide

  32. (c)長岡技術科学大学 電気系 32
    音声検索
    ● 「音声で検索」するためには音声認識を行えばよ
    く、すでに実用的
    ● 「音声を検索」する場合も、事前に音声認識を
    行っておけばよい。
    ● 音声以外の情報も含めて検索するのはまだ実験段
    階か?
    – 似た曲の検索

    View full-size slide