データベースと応用システム：情報検索

(c)長岡技術科学大学電気系 1 データベースと応用システム情報検索山本和英長岡技術科学大学電気系

(c)長岡技術科学大学電気系 2 情報検索とは • Information Retrieval, IR • 広義では「ユーザの持つ問題（情報要求）を解決
できる情報を見つけ出すこと」 • 狭義では「ユーザの検索質問に適合する文書を (大量の)文書中から見つけ出すこと」

(c)長岡技術科学大学電気系 3 情報検索の歴史 • 情報検索は図書館の蔵書・文書検索が起源であり、図書館学として研究が進められてきた。 • 科学技術分野、及び特許分野で大量の論文・特許の検索が必要となる。
• 計算機の登場により、情報学との関連が強くなり、図書館情報学と呼ばれるようになる。 • Webの登場によりページ数が爆発的に増加、検索エンジンが登場

(c)長岡技術科学大学電気系 4 関連分野 • データベース • 自然言語処理 – 聞いてほしいことはいっぱいありますので、興味ある人は
修士の授業を聞いてください。 • パタン認識 • 図書館情報学 • 認知心理学

(c)長岡技術科学大学電気系 5 索引付け

(c)長岡技術科学大学電気系 6 索引付け(indexing) • 文書から、検索対象とする用語（キーワード）を決めること。 • 昔は、計算機性能が十分でなかったため、検索対象語を絞り込む必要があった。このため人手で
厳選したキーワードを付与していた。 • 文書が電子化さえされていれば索引付けの自動化は可能である。しかし、自動的に付与した索引が必ずしも便利とは限らないため、今でも人手で行っている場合も多い。 – 例えば学術原稿では著者にキーワードの付与を要求する場合も多い。

(c)長岡技術科学大学電気系 7 どんな語をキーワードにすべきか？一言で言えば特徴的な語。でも何がどうなっていれば「特徴的」なのか？ • その文書内でよく使われている語 – 文書の内容を代表的に表現している
• 他の文書であまり（or全く）使われていない語 – 他文書との差異を表現している

(c)長岡技術科学大学電気系 8 TF・IDF 語の重要度を計算する指標 • TF (term frequency) –
ある文書ｄ中に出現する語ｔの頻度 • IDF (Inverse document frequency) – • TF・IDF – 両指標の積 – 最も有名でよく使用される。 log (全文書数 ) (tを含む文書数 ) +1

(c)長岡技術科学大学電気系 9 不要語リスト(stop words) • 誰もこんな語で検索しないだろう、という語のリスト – 日本語の「それ」、英語の is
など • 検索の負荷（索引の規模や検索時間等）を減らすのが目的。 • 厳密な定義は困難であるが、機能語（日本語の助詞、英語の前置詞など）や超高頻度語の中から選ばれる。

(c)長岡技術科学大学電気系 10 検索質問拡張(query expansion) • 一般に、言語表現は多様性がある。 – 異表記（例：「リンゴ」と「りんご」と「林檎」） –
揺れ（例：「コンピュータ」と「コンピューター」） – 同義語（例：「コンピュータ」と「計算機」） • これらは検索結果の精度低下を招くので、精度を高めるために入力表現の同義語等も同時に検索する技術のこと。 • さらに、「もしかして検索」のように誤入力した検索質問に対しても検索質問拡張を行うシステムもある。

(c)長岡技術科学大学電気系 11 情報検索モデル

(c)長岡技術科学大学電気系 12 検索結果の絞り込み検索要求を満たす文書（ページ）は大量に適合するかもしれない。どうやってほしい文書を見つけるか？ • さらに絞り込む –
ブーリアンモデル • 順位付けする – ベクトル空間モデル – テキスト外情報： PageRank、協調フィルタリングなど

(c)長岡技術科学大学電気系 13 ブーリアンモデル(Boolean model) • 最も古典的な検索方法 • 検索質問を論理式で表現して検索する •
検索結果が多い場合はさらに検索質問を追加して（AND検索して）絞り込む

(c)長岡技術科学大学電気系 14 ベクトル空間モデル (vector space model) • 検索質問と文書を同一軸のベクトルで表現する。 •
ベクトルの各軸は各キーワードの出現頻度などとする場合が多い。 – つまり、ベクトルの次元数＝単語数 • これによって、検索質問と文書の類似度をベクトルの類似度で表現できる。 – 例えば、両ベクトル間の角度（コサイン）で定義できる。

(c)長岡技術科学大学電気系 15 ＰａｇｅＲａｎｋ • Ｇｏｏｇｌｅの技術。PageRank(TM) は、米Google社の登録商標です。 • 文書の内容から重要性を判断しない •
ページのリンク情報を用いて質を判断する • PR0～PR10の11段階ある。

(c)長岡技術科学大学電気系 16 ＰａｇｅＲａｎｋ：考え方 • 多くの良質なページからリンクされているページは、良質である。 • ページＡからページＢへのリンクを、「投票」と考える。
– 多くのページからリンクされているほうが良質 – 良質なページからリンクされているほうが良質 – あまりリンクしていないページからリンクされているほうが良質

(c)長岡技術科学大学電気系 17 全文検索システム

(c)長岡技術科学大学電気系 18 全文検索の分類 • 逐次検索 – 毎回全文を最初から調べていく方法 – 文書が高頻度で更新される場合に有効
• 全文索引 – 事前に何らかの形で自動的に索引を作っておく方法 – 大規模な文書に対して有効

(c)長岡技術科学大学電気系 19 全文索引対象となる全文を分析してあらかじめ自動で転置索引を作成する。索引の作り方は大きく２種類ある。 • 単語索引 – 形態素解析を行って分かち書きする。
– 索引を小さくできるが、検索漏れの可能性あり • N-gram索引 – N文字のすべての部分文字を「単語」とみなす。 – 検索漏れはないが無意味な索引が大量に発生

(c)長岡技術科学大学電気系 20 形態素解析 • 自然言語処理の基本技術 • 二つの仕事： – 形態素分割（分かち書き）
– 品詞付与 • 日本語だけの技術ではなく、例えば英語でも必要となる – that's ==> that be – New York ==> (１単語)

(c)長岡技術科学大学電気系 21 (文書) 文書１：「京都の寺は多い」文書２：「東京都国分寺はテニスコートが多い」文書３：「テニスするなら東京より京都がいい」 ... (単語転置索引) position(京都)
= {1, 3} position(寺) = {1} position(多い) = {1, 2} position(東京都) = {2} position(国分寺) = {2} position(テニスコート) = {2} position(テニス) = {3} position(東京) = {3} ... 文書２が間違って検索されない単語索引

(c)長岡技術科学大学電気系 22 (文書) 文書１：「京都の寺は多い」文書２：「東京都国分寺はテニスコートが多い」文書３：「テニスするなら東京より京都がいい」 ... (転置索引) position(京都)
= {1, 2, 3} position(都の) = {1} position(の寺) = {1} position(寺は) = {1,2} ... position(多い) = {1, 2} position(テニ) = {2, 3} position(東京) = {2, 3} ... テニ(ス)を含む文書をもれなく検索できる東京を含む文書をもれなく検索できる検索されそうにない文字列まで大量に生成される N-gram索引(２文字索引の場合)

(c)長岡技術科学大学電気系 23 情報検索システムの評価

(c)長岡技術科学大学電気系 24 検索システムの評価 • 検索結果の有効性 – 検索の正確さ • 検索作業の作業効率
– 検索時間 • 使いやすさ – 初心者にとっての使いやすさ – 熟練者にとっての使いやすさ

(c)長岡技術科学大学電気系 25 再現率と適合率 • 再現率(recall)：どの程度正解を検索できたか – R = (v∩w)÷v
• 適合率（精度）(precision)：検索したものがどの程度正しかったか – P = (v∩w)÷w • 正解数のみを出力させると両指標は常に同一になる。正解検索結果ｖｗｖ∩ｗ

(c)長岡技術科学大学電気系 26 Ｆ値 (F-measure) • 再現率と適合率を一つの尺度にまとめたもの。 • Ｒを再現率、Ｐを適合率とした時、両者の調和平均を計算する。
• これを変形して、 1 F = 1 2 ( 1 R + 1 P ) F= 2PR P+R

(c)長岡技術科学大学電気系 27 情報検索の今後

(c)長岡技術科学大学電気系 28 協調フィルタリング • ユーザに似た人の意見を参考にする、という考え方。 – 行動履歴によって検索要求を推測しようとする試み •
1992年にXerox PARCが発表(tapestry)、Amazon が1997年に「おすすめ商品」を導入。 • 現在では、レコメンデーションサービスで一般的に利用されている

(c)長岡技術科学大学電気系 29 質問応答(Question Answering) • ユーザが知りたい情報を含む文書（ページ）を出力するのではなく、知りたい情報に対して回答を探す技術。 •
Wolfram Alpha • しゃべってコンシェル・Siri • IBM Watson

(c)長岡技術科学大学電気系 30

(c)長岡技術科学大学電気系 31 画像検索 • 画像検索は各画像に予め索引を付与しておき、それを検索するのが一般的。 – つまり索引を付与してしまえば後は文書検索と全く同じ。
• 画像を入力して類似画像を検索する技術もある。 – 例：Google検索 – ただし、類似画像を検索しているのではなく、入力画像をキーワードに自動変換した上で画像検索している。

(c)長岡技術科学大学電気系 32 音声検索 • 「音声で検索」するためには音声認識を行えばよく、すでに実用的 • 「音声を検索」する場合も、事前に音声認識を行っておけばよい。
• 音声以外の情報も含めて検索するのはまだ実験段階か？ – 似た曲の検索

データベースと応用システム：情報検索

データベースと応用システム：情報検索

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Education

Featured

Transcript

(c)長岡技術科学大学電気系 1 データベースと応用システム情報検索山本和英長岡技術科学大学電気系

(c)長岡技術科学大学電気系 2 情報検索とは • Information Retrieval, IR • 広義では「ユーザの持つ問題（情報要求）を解決

(c)長岡技術科学大学電気系 3 情報検索の歴史 • 情報検索は図書館の蔵書・文書検索が起源であり、図書館学として研究が進められてきた。 • 科学技術分野、及び特許分野で大量の論文・特許の検索が必要となる。

(c)長岡技術科学大学電気系 4 関連分野 • データベース • 自然言語処理 – 聞いてほしいことはいっぱいありますので、興味ある人は

(c)長岡技術科学大学電気系 5 索引付け

(c)長岡技術科学大学電気系 6 索引付け(indexing) • 文書から、検索対象とする用語（キーワード）を決めること。 • 昔は、計算機性能が十分でなかったため、検索対象語を絞り込む必要があった。このため人手で

(c)長岡技術科学大学電気系 7 どんな語をキーワードにすべきか？一言で言えば特徴的な語。でも何がどうなっていれば「特徴的」なのか？ • その文書内でよく使われている語 – 文書の内容を代表的に表現している

(c)長岡技術科学大学電気系 8 TF・IDF 語の重要度を計算する指標 • TF (term frequency) –

(c)長岡技術科学大学電気系 9 不要語リスト(stop words) • 誰もこんな語で検索しないだろう、という語のリスト – 日本語の「それ」、英語の is

(c)長岡技術科学大学電気系 10 検索質問拡張(query expansion) • 一般に、言語表現は多様性がある。 – 異表記（例：「リンゴ」と「りんご」と「林檎」） –

(c)長岡技術科学大学電気系 11 情報検索モデル

(c)長岡技術科学大学電気系 12 検索結果の絞り込み検索要求を満たす文書（ページ）は大量に適合するかもしれない。どうやってほしい文書を見つけるか？ • さらに絞り込む –

(c)長岡技術科学大学電気系 13 ブーリアンモデル(Boolean model) • 最も古典的な検索方法 • 検索質問を論理式で表現して検索する •

(c)長岡技術科学大学電気系 14 ベクトル空間モデル (vector space model) • 検索質問と文書を同一軸のベクトルで表現する。 •

(c)長岡技術科学大学電気系 15 ＰａｇｅＲａｎｋ • Ｇｏｏｇｌｅの技術。PageRank(TM) は、米Google社の登録商標です。 • 文書の内容から重要性を判断しない •

(c)長岡技術科学大学電気系 16 ＰａｇｅＲａｎｋ：考え方 • 多くの良質なページからリンクされているページは、良質である。 • ページＡからページＢへのリンクを、「投票」と考える。

(c)長岡技術科学大学電気系 17 全文検索システム

(c)長岡技術科学大学電気系 18 全文検索の分類 • 逐次検索 – 毎回全文を最初から調べていく方法 – 文書が高頻度で更新される場合に有効

(c)長岡技術科学大学電気系 19 全文索引対象となる全文を分析してあらかじめ自動で転置索引を作成する。索引の作り方は大きく２種類ある。 • 単語索引 – 形態素解析を行って分かち書きする。

(c)長岡技術科学大学電気系 20 形態素解析 • 自然言語処理の基本技術 • 二つの仕事： – 形態素分割（分かち書き）

(c)長岡技術科学大学電気系 21 (文書) 文書１：「京都の寺は多い」文書２：「東京都国分寺はテニスコートが多い」文書３：「テニスするなら東京より京都がいい」 ... (単語転置索引) position(京都)

(c)長岡技術科学大学電気系 22 (文書) 文書１：「京都の寺は多い」文書２：「東京都国分寺はテニスコートが多い」文書３：「テニスするなら東京より京都がいい」 ... (転置索引) position(京都)

(c)長岡技術科学大学電気系 23 情報検索システムの評価

(c)長岡技術科学大学電気系 24 検索システムの評価 • 検索結果の有効性 – 検索の正確さ • 検索作業の作業効率

(c)長岡技術科学大学電気系 25 再現率と適合率 • 再現率(recall)：どの程度正解を検索できたか – R = (v∩w)÷v

(c)長岡技術科学大学電気系 26 Ｆ値 (F-measure) • 再現率と適合率を一つの尺度にまとめたもの。 • Ｒを再現率、Ｐを適合率とした時、両者の調和平均を計算する。

(c)長岡技術科学大学電気系 27 情報検索の今後

(c)長岡技術科学大学電気系 28 協調フィルタリング • ユーザに似た人の意見を参考にする、という考え方。 – 行動履歴によって検索要求を推測しようとする試み •

(c)長岡技術科学大学電気系 29 質問応答(Question Answering) • ユーザが知りたい情報を含む文書（ページ）を出力するのではなく、知りたい情報に対して回答を探す技術。 •

(c)長岡技術科学大学電気系 30

(c)長岡技術科学大学電気系 31 画像検索 • 画像検索は各画像に予め索引を付与しておき、それを検索するのが一般的。 – つまり索引を付与してしまえば後は文書検索と全く同じ。

(c)長岡技術科学大学電気系 32 音声検索 • 「音声で検索」するためには音声認識を行えばよく、すでに実用的 • 「音声を検索」する場合も、事前に音声認識を行っておけばよい。