Upgrade to Pro — share decks privately, control downloads, hide ads and more …

データベースと応用システム:情報検索

 データベースと応用システム:情報検索

More Decks by 自然言語処理研究室

Other Decks in Education

Transcript

  1. (c)長岡技術科学大学 電気系 2 情報検索とは • Information Retrieval, IR • 広義では「ユーザの持つ問題(情報要求)を解決

    できる情報を見つけ出すこと」 • 狭義では「ユーザの検索質問に適合する文書を (大量の)文書中から見つけ出すこと」
  2. (c)長岡技術科学大学 電気系 3 情報検索の歴史 • 情報検索は図書館の蔵書・文書検索が起源であ り、図書館学として研究が進められてきた。 • 科学技術分野、及び特許分野で大量の論文・特 許の検索が必要となる。

    • 計算機の登場により、情報学との関連が強くな り、図書館情報学と呼ばれるようになる。 • Webの登場によりページ数が爆発的に増加、検索 エンジンが登場
  3. (c)長岡技術科学大学 電気系 6 索引付け(indexing) • 文書から、検索対象とする用語(キーワード)を決 めること。 • 昔は、計算機性能が十分でなかったため、検索 対象語を絞り込む必要があった。このため人手で

    厳選したキーワードを付与していた。 • 文書が電子化さえされていれば索引付けの自動 化は可能である。しかし、自動的に付与した索引 が必ずしも便利とは限らないため、今でも人手で 行っている場合も多い。 – 例えば学術原稿では著者にキーワードの付与を要求す る場合も多い。
  4. (c)長岡技術科学大学 電気系 8 TF・IDF 語の重要度を計算する指標 • TF (term frequency) –

    ある文書d中に出現する語tの頻度 • IDF (Inverse document frequency) – • TF・IDF – 両指標の積 – 最も有名でよく使用される。 log (全文書数 ) (tを含む文書数 ) +1
  5. (c)長岡技術科学大学 電気系 9 不要語リスト(stop words) • 誰もこんな語で検索しないだろう、という語のリスト – 日本語の「それ」、英語の is

    など • 検索の負荷(索引の規模や検索時間等)を減らす のが目的。 • 厳密な定義は困難であるが、機能語(日本語の 助詞、英語の前置詞など)や超高頻度語の中か ら選ばれる。
  6. (c)長岡技術科学大学 電気系 10 検索質問拡張(query expansion) • 一般に、言語表現は多様性がある。 – 異表記(例:「リンゴ」と「りんご」と「林檎」) –

    揺れ(例:「コンピュータ」と「コンピューター」) – 同義語(例:「コンピュータ」と「計算機」) • これらは検索結果の精度低下を招くので、精度を 高めるために入力表現の同義語等も同時に検索す る技術のこと。 • さらに、「もしかして検索」のように誤入力した検索 質問に対しても検索質問拡張を行うシステムもあ る。
  7. (c)長岡技術科学大学 電気系 14 ベクトル空間モデル (vector space model) • 検索質問と文書を同一軸のベクトルで表現する。 •

    ベクトルの各軸は各キーワードの出現頻度などとす る場合が多い。 – つまり、ベクトルの次元数 = 単語数 • これによって、検索質問と文書の類似度をベクトル の類似度で表現できる。 – 例えば、両ベクトル間の角度(コサイン)で定義でき る。
  8. (c)長岡技術科学大学 電気系 16 PageRank:考え方 • 多くの良質なページからリンクされているページは、 良質である。 • ページAからページBへのリンクを、「投票」と考え る。

    – 多くのページからリンクされているほうが良質 – 良質なページからリンクされているほうが良質 – あまりリンクしていないページからリンクされているほうが 良質
  9. (c)長岡技術科学大学 電気系 18 全文検索の分類 • 逐次検索 – 毎回全文を最初から調べていく方法 – 文書が高頻度で更新される場合に有効

    • 全文索引 – 事前に何らかの形で自動的に索引を作っておく方法 – 大規模な文書に対して有効
  10. (c)長岡技術科学大学 電気系 19 全文索引 対象となる全文を分析してあらかじめ自動で転置索 引を作成する。索引の作り方は大きく2種類ある。 • 単語索引 – 形態素解析を行って分かち書きする。

    – 索引を小さくできるが、検索漏れの可能性あり • N-gram索引 – N文字のすべての部分文字を「単語」とみな す。 – 検索漏れはないが無意味な索引が大量に発生
  11. (c)長岡技術科学大学 電気系 20 形態素解析 • 自然言語処理の基本技術 • 二つの仕事: – 形態素分割(分かち書き)

    – 品詞付与 • 日本語だけの技術ではなく、例えば英語でも必 要となる – that's ==> that be – New York ==> (1単語)
  12. (c)長岡技術科学大学 電気系 21 (文書) 文書1:「京都の寺は多い」 文書2:「東京都国分寺はテニスコートが多い」 文書3:「テニスするなら東京より京都がいい」 ... (単語転置索引) position(京都)

    = {1, 3} position(寺) = {1} position(多い) = {1, 2} position(東京都) = {2} position(国分寺) = {2} position(テニスコート) = {2} position(テニス) = {3} position(東京) = {3} ... 文書2が間違って 検索されない 単語索引
  13. (c)長岡技術科学大学 電気系 22 (文書) 文書1:「京都の寺は多い」 文書2:「東京都国分寺はテニスコートが多い」 文書3:「テニスするなら東京より京都がいい」 ... (転置索引) position(京都)

    = {1, 2, 3} position(都の) = {1} position(の寺) = {1} position(寺は) = {1,2} ... position(多い) = {1, 2} position(テニ) = {2, 3} position(東京) = {2, 3} ... テニ(ス)を含む文書を もれなく検索できる 東京を含む文書を もれなく検索できる 検索されそうにない 文字列まで大量に 生成される N-gram索引(2文字索引の場合)
  14. (c)長岡技術科学大学 電気系 24 検索システムの評価 • 検索結果の有効性 – 検索の正確さ • 検索作業の作業効率

    – 検索時間 • 使いやすさ – 初心者にとっての使いやすさ – 熟練者にとっての使いやすさ
  15. (c)長岡技術科学大学 電気系 25 再現率と適合率 • 再現率(recall):どの程度正解を検索できたか – R = (v∩w)÷v

    • 適合率(精度)(precision):検索したものがどの 程度正しかったか – P = (v∩w)÷w • 正解数のみを出力 させると両指標は 常に同一になる。 正解 検索結果 v w v∩w
  16. (c)長岡技術科学大学 電気系 28 協調フィルタリング • ユーザに似た人の意見を参考にする、という考え 方。 – 行動履歴によって検索要求を推測しようとする試み •

    1992年にXerox PARCが発表(tapestry)、Amazon が1997年に「おすすめ商品」を導入。 • 現在では、レコメンデーションサービスで一般的に 利用されている
  17. (c)長岡技術科学大学 電気系 31 画像検索 • 画像検索は各画像に予め索引を付与しておき、そ れを検索するのが一般的。 – つまり索引を付与してしまえば後は文書検索と全く同 じ。

    • 画像を入力して類似画像を検索する技術もある。 – 例:Google検索 – ただし、類似画像を検索しているのではなく、入力画像 をキーワードに自動変換した上で画像検索している。