情報検索

029be5ac1ce0db70c46dcd7152308e2e?s=47 masaya82
January 09, 2018
34

 情報検索

2017/1/9 B3ゼミ

029be5ac1ce0db70c46dcd7152308e2e?s=128

masaya82

January 09, 2018
Tweet

Transcript

  1. 情報検索について 自然言語処理研究室 B3 福嶋 真也

  2. 参考文献 • 「自然言語処理の基本と技術」 5章 著者 奥野 陽、グラム・ニュービッグ、萩原 正人 • 株式会社

    翔泳社 発行
  3. 情報検索システムの概要 ・検索の対象となるすべての文章の集合からユーザの 要求している情報を検索し、条件を満たす文章を表示 するシステム ・Web検索エンジンやサイト内検索で使用 ・最も簡単な検索方法:全文検索 →時間がかかる、要求通りでない情報が表示される可能性が あるといった問題点

  4. 索引付け 文章からキーワードを抜き出して並べることで検索を しやすくする手法 例:3つの文章の集合から索引を作る 文章1:吾輩は猫である。名前はまだない。 文章2:一匹の立派な犬や、兎や、一匹の小猿や、一匹 の猫 などを飼った。 文章3:ウサギや、キツネのほかに、イタチの足あと、ネズミの 足あと、ネコの足あと、みんなちがう。

  5. 索引付け この形を転置索引 という

  6. ブーリアンモデル 文書が適合するかどうかを「Yes/No」で判断するモデ ル ユーザが要求を質問の形で表現したもの(これをクエ リという)について「AND」、「OR」、「NOT」などを用い て表現し、これを用いて要求を満たす文書を選択する 例: 「ネコ」と「犬」が両方出現する文書→「ネコ AND 犬」

    「ネコ」と「犬」が両方もしくは片方が出現する文書 →「ネコ OR 犬」
  7. ブーリアンモデル メリット ・シンプルで分かりやすい ・条件が厳密に指定できる デメリット ・クエリによって適合する文書が過剰に多い、少ない といった問題が発生する。

  8. ベクトル空間モデル 文書が適合するかどうかを連続値で判断するモデル ・ブーリアンモデルと違い、どれだけ適合しているかを 判断することが可能 ・文書の中に含まれる語に対してどのくらい重要かで 重みづけを行う。 →手法の一つにTF-IDF

  9. TF-IDF TF(Term Frequency)とIDF(Inverse Document Frequency)をくみ合わせた手法 ・TF ‣文書の中でどれだけ重要な語であるかを示す指標 文書内で出現する回数が多いほど重要であると仮 定し、n回の出現回数に対しlog10(n)+1ほど重要であ るとする。

  10. ・IDF ‣あるキーワードに対し、そのキーワードが文書内に含 まれている文書がどれだけ少ないかを示す指標 重みはlog10 (N/df)で計算される df・・・キーワードが出現する文書数、N・・・文書集合全体の文書数 これら2つの値をかけ合わせた値で適合度を計算

  11. Web検索における発展的な手法 ・ランキング学習 ・適合性フィードバック ・PageRank

  12. ランキング学習 あるクエリに対して、文書がどれだけ適合しているかと いう順序付けを人手で作成 アルゴリズムに教師データとして与え、重みを自動調 整することで学習させ、ランキングを改善

  13. 適合性フィードバック クエリ実行後のユーザの反応で適合性を判定しランキ ングの改善を行う手法 例) ・ユーザが適合していると判断した文書から関連するキーワー ドを抜き出して、クエリに追加する手法 ・ページのクリックした回数、ページ滞在時間、ページから検索 結果に戻る確率(バウンス率)などから適合度を測る手法 ・上記の手法を最初のクエリで適合していると判断された文書 に対して行う手法

  14. PageRank 文書のリンクから重要度を推測する手法 重要度の定義 ・どれだけ多くの文書からリンクされているか ・ある文書にリンクしている文書がどれだけ重要であるか ・重要度をスコアで表し、流入するスコアと流出するスコアは等 しくなるようにする

  15. 今回の発表内容 ・情報検索システムの概要 ・情報検索システムに使われている主な手法 ・索引付け ・ブーリアンモデル ・TF-IDF ・web検索で使われている発展的な手法 ・ランキング学習 ・適合性フィードバック ・PageRank