QAサイトにおける最適な回答者提示

電気系　　山本研究室 10502489　堀江将隆 QAサイトにおける最適な回答者提示

2 研究動機 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている最適な回答を投稿できる回答者を提示質問を閲覧したユーザが回答完璧な回答ができるとは限らない

3 目的 • 質問に対し最適な回答者を全ユーザから探して提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋を対象 •
全ユーザ：対象の質問に回答したユーザ • 最適な回答者：ベストアンサー回答ユーザ対象の質問の回答者からベストアンサーを投稿した回答者を選択する評価実験を行う

4 質問に対する最適な回答者対象の質問に関する知識(専門用語) を多く持っている専門用語：質問の分野を表現対象の質問の難易度に対応した回答が得意

5 専門用語を用いた手法

6 知識の表現方法内容語（名詞，動詞，形容詞）単語単体で知識として意味を持たないものがある専門用語（特定分野に存在する単語）単語単体で分野を想像できる専門用語を知識として使用

7 回答者選択手法 • 質問文から回答する為に必要な知識 (専門用語)を抽出 • 複数の回答ユーザの中から必要な知識を最も多く持つユーザを探す

8 手法の流れ1 質問文専門用語抽出専門用語リスト〈プロダクトキー〉の〈入力〉〈なし〉で〈リカバリ〉〈でき〉ないものでしょうか？専門用語リスト:リカバリ,プロダクトキー質問の一文
内容語リスト:リカバリ,プロダクトキー,入力,なし,でき

9 手法の流れ2 専門用語の異なり数をカウント専門用語リストユーザの回答履歴過去に回答した質問文と回答文
・・・・・・・リカバリ・・・・・・･･・・・・・・・・・・・・・・・・・・･･・・・・・・・・・・・・・・・・・・プロダクトキー・・・・・・・・･･・・・・・・・・リカバリ・・・リカバリプロダクトキー異なり数　：　2 スコア＝2/2 ＝1 ユーザAの回答履歴専門用語リストユーザAの知識スコア各ユーザの知識スコア

10 手法の流れ3 スコアが最大のユーザを選択最適な回答者各ユーザの知識スコアユーザBのスコア：1 ユーザAのスコア：0.7
ユーザCのスコア：0.2 各ユーザの知識スコア出力するユーザユーザB ユーザAのスコア：0.7 ユーザBのスコア：1 ユーザCのスコア：0.2 知識スコアでランキング

11 質問難易度を用いた手法

12 質問難易度 • 質問への回答のしやすさを表す難しい質問易しい質問難しい質問易しい質問難易度が一致難しい質問に多く
回答してきたユーザ易しい質問に多く回答してきたユーザ難易度が不一致難易度が一致質問者は難易度が合った回答を求めている回答者は得意な難易度がある質問者回答者難易度が一致していれば良い回答が可能

13 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい

14 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易度情報)が一致するユーザを探す

15 抽象度の定義 • 抽象度1：回答候補が1種類事象の定義、説明、客観的な理由例：TVゲーム「テトリス」を考えたのはどこの国の人？ • 抽象度2：回答候補が複数経験を必要とする回答、手法、解決方法例：MDに入った曲をCDに録音する方法はありますか？
• 抽象度3：回答候補が複数情報提供、主観的な回答、推測例：今年4月から開始されるアニメでどれが一番お勧めですか？

16 予備調査実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ２人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •
各ユーザの質問を抽象度ごとに分類 • それぞれの質問数、ベストアンサー率を算出

17 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数の割合が高い抽象度に回答した場合＝高いベストアンサー率 • 質問数の割合が低い抽象度に回答した場合＝低いベストアンサー率
多く回答している抽象度に属する質問は得意抽象度が一致していれば、良い回答が可能

18 抽象度推定手法質問文を3段階の抽象度に分類する • 抽象度別の出現割合リストを作成 • 出現割合リストを参照し、質問の各抽象度スコアを計算 • 各抽象度スコアで重みを設定
• 割合が閾値以上なら割合に出現頻度を掛ける • ３つの抽象度スコアのうち、最大の抽象度を付与

19 出現割合リスト作成の流れ質問文抽象度ごとに分類単語の出現頻度計算抽象度1 質問文抽象度2
質問文抽象度3 質問文抽象度1 出現頻度抽象度2 出現頻度抽象度3 出現頻度単語の出現頻度単語の出現割合計算出現割合リスト

20 出現割合リストの例 • 割合が高いほど、その抽象度に属する確率が高い抽象度1 抽象度2 抽象度3 出現頻度割合
出現頻度割合出現頻度割合名前 28 0.81 1 0.04 4 0.14 対処 1 0.03 16 0.88 2 0.09 好き 4 0.05 3 0.06 53 0.88 例：閾値＝0.8　なら　0.81×28=22.68　とする

21 抽象度推定手法の流れ抽象度スコア抽象度1 抽象度2 抽象度3 アニメ＋0.29 ＋0
＋0.71 どれが＋0.4 ＋0.3 ＋0.3 一番＋0.32 ＋0.23 ＋0.45 勧め＋0.05 ＋0 ＋0.95 スコアの合計＝1.06 ＝0.53 ＝2.41 質問：アニメでどれが一番お勧めですか？出力：抽象度3 質問抽象度判定出現割合リスト単語出現割合参照質問の抽象度例：抽象度1の重み＝1.5 　　抽象度1スコア＝1.59

22 抽象度推定実験 • 使用データ：Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、
• 追加条件の為の閾値と重みを決定 • 人手で付与した抽象度と出力した抽象度が一致したら正解

23 抽象度推定実験結果 • 重み・閾値を設定することにより、精度が12ポイント向上 • 各抽象度スコアの差が大きい質問は精度が高い抽象度は特徴の大きい語によって推定可能出現割合出現割合
＋閾値・重み正解率 48.2% 60.3%

24 回答者選択手法の流れ１ • 回答者の過去の回答した全ての質問に対して、抽象度を付与 • 回答者の抽象度スコアを計算質問の抽象度の割合 • 質問文に対しても同様に抽象度を付与
質問と回答者の抽象度判定出現割合リスト単語参照出現割合対象の質問文回答者A の質問文回答者B の質問文回答者C の質問文質問文の抽象度回答者Cの抽象度スコア回答者Aの抽象度スコア回答者Bの抽象度スコア

25 回答者選択手法の流れ２ • 質問文の抽象度と一致する回答者の抽象度スコアが最大の回答者を出力する最大のスコアを持つユーザを出力質問文の抽象度回答者Cの抽象度スコア
回答者B 抽象度：3 回答者Aの抽象度スコア回答者Bの抽象度スコア抽象度1：0.3 抽象度2：0.6 抽象度3：0.1 抽象度1：0.1 抽象度2：0.1 抽象度3：0.8 抽象度1：0.5 抽象度2：0.3 抽象度3：0.2

26 専門用語と質問難易度を組み合わせた手法 • それぞれの手法での専門用語スコアと、抽象度スコアを加算し、最大のスコアを持つユーザを出力最大のスコアを持つユーザを出力質問文の抽象度回答者Cの
抽象度スコア回答者B 抽象度：3 回答者Aの抽象度スコア回答者Bの抽象度スコア専門用語：0.4 抽象度3：0.1 合計：0.5 専門用語：0.7 抽象度3：0.8 合計：1.5 専門用語：0.2 抽象度3：0.1 合計：0.3

27 回答者選択実験実験方法 • それぞれの手法を用いて、最適な回答者を選択 • 比較のために、ベストアンサー率が最大のユーザを出力する手法で実験実験データ •
Yahoo!知恵袋の全てのカテゴリを対象 • 回答者が3人から5人の質問1000件評価方法 • ベストアンサーを回答したユーザを正解

28 回答者選択実験結果 • 専門用語手法：高い精度複数の回答者候補が存在する場合も正解としている • 抽象度手法：低い精度質問と正解回答者の最大抽象度一致：478件 →　抽象度は有効
• 組み合わせ手法の結果：低い精度 • ベストアンサー率：高い精度ランダムベストアンサー率専門用語抽象度 (質問難易度) 組み合わせ正解率 27.8% 46.4% 40.0% 28.5% 28.6%

29 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり専門用語情報 – 質問の分野が一致するユーザ難易度情報
– 質問者と対応できるユーザ両手法とも回答者選択手法として高い精度ではなかった最適なユーザを探す為に有益な情報である

30 課題 • 組み合わせ手法の検討により精度の向上が期待できる • それぞれで正解している質問を合わせると7割ほどが正解 • 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築

31 ご清聴ありがとうございました

32 専門用語の拡張方法 Yahoo!APIの関連検索ワード検索を使用入力したキーワードとよく組み合わせて検索される単語各専門用語１つに対し、最大で50語を収集「メモリ」の関連検索ワードの例「ＰＣ」の関連検索ワードの例メモリ増設,仮想メモリ,バッファロー,ＵＳＢメモリ, 物理メモリ,増設メモリ,ガイアメモリ,エルピーダメモリ,フラッシュメモリ,パソコン
ＤＥＰＯＴ,ＰＣゲーム,ＰＣボンバー,自作ＰＣ,ＰＣ工房,１００円ＰＣ,Ｗａｔｃｈ,タブレットｐｃ,ｐｃマックス,モバイルＰＣ

33 専門用語手法結果の詳細 • 各手法でのみ正解がそれぞれ4件あった　内容語で「当初」や「イマイチ」等の出　現の差で正解となっているものがあった • 正解はユーザの回答数に依存していない • 正解と定義したユーザの回答履歴数が少な
いケースが4件 • 不正解の出力ユーザの回答で十分に満足できると思えるものが5件

34 文章表現辞書を用いた手法対応する抽象度文章表現抽象度1 はどういう意味でしょうかは誰でしょうか抽象度2 どうしたらいいのでしょうか方法はありますか
抽象度3 どう思いますかお勧めでしょうか • 抽象度を決める基準となる質問内容を含む文の文末表現・特定の表現を人手で抽出 • 文章表現辞書を作成文章表現を含む文は対応する抽象度と判定

QAサイトにおける最適な回答者提示

QAサイトにおける最適な回答者提示

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

電気系　　山本研究室 10502489　堀江将隆 QAサイトにおける最適な回答者提示

2 研究動機 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている最適な回答を投稿できる回答者を提示質問を閲覧したユーザが回答完璧な回答ができるとは限らない

3 目的 • 質問に対し最適な回答者を全ユーザから探して提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋を対象 •

4 質問に対する最適な回答者対象の質問に関する知識(専門用語) を多く持っている専門用語：質問の分野を表現対象の質問の難易度に対応した回答が得意

5 専門用語を用いた手法

6 知識の表現方法内容語（名詞，動詞，形容詞）単語単体で知識として意味を持たないものがある専門用語（特定分野に存在する単語）単語単体で分野を想像できる専門用語を知識として使用

7 回答者選択手法 • 質問文から回答する為に必要な知識 (専門用語)を抽出 • 複数の回答ユーザの中から必要な知識を最も多く持つユーザを探す

8 手法の流れ1 質問文専門用語抽出専門用語リスト〈プロダクトキー〉の〈入力〉〈なし〉で〈リカバリ〉〈でき〉ないものでしょうか？専門用語リスト:リカバリ,プロダクトキー質問の一文

9 手法の流れ2 専門用語の異なり数をカウント専門用語リストユーザの回答履歴過去に回答した質問文と回答文

10 手法の流れ3 スコアが最大のユーザを選択最適な回答者各ユーザの知識スコアユーザBのスコア：1 ユーザAのスコア：0.7

11 質問難易度を用いた手法

12 質問難易度 • 質問への回答のしやすさを表す難しい質問易しい質問難しい質問易しい質問難易度が一致難しい質問に多く

13 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識

14 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易度情報)が一致するユーザを探す

16 予備調査実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ２人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •

17 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数の割合が高い抽象度に回答した場合＝高いベストアンサー率 • 質問数の割合が低い抽象度に回答した場合＝低いベストアンサー率

18 抽象度推定手法質問文を3段階の抽象度に分類する • 抽象度別の出現割合リストを作成 • 出現割合リストを参照し、質問の各抽象度スコアを計算 • 各抽象度スコアで重みを設定

19 出現割合リスト作成の流れ質問文抽象度ごとに分類単語の出現頻度計算抽象度1 質問文抽象度2

20 出現割合リストの例 • 割合が高いほど、その抽象度に属する確率が高い抽象度1 抽象度2 抽象度3 出現頻度割合

21 抽象度推定手法の流れ抽象度スコア抽象度1 抽象度2 抽象度3 アニメ＋0.29 ＋0

22 抽象度推定実験 • 使用データ：Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、

23 抽象度推定実験結果 • 重み・閾値を設定することにより、精度が12ポイント向上 • 各抽象度スコアの差が大きい質問は精度が高い抽象度は特徴の大きい語によって推定可能出現割合出現割合

24 回答者選択手法の流れ１ • 回答者の過去の回答した全ての質問に対して、抽象度を付与 • 回答者の抽象度スコアを計算質問の抽象度の割合 • 質問文に対しても同様に抽象度を付与

25 回答者選択手法の流れ２ • 質問文の抽象度と一致する回答者の抽象度スコアが最大の回答者を出力する最大のスコアを持つユーザを出力質問文の抽象度回答者Cの抽象度スコア

26 専門用語と質問難易度を組み合わせた手法 • それぞれの手法での専門用語スコアと、抽象度スコアを加算し、最大のスコアを持つユーザを出力最大のスコアを持つユーザを出力質問文の抽象度回答者Cの

27 回答者選択実験実験方法 • それぞれの手法を用いて、最適な回答者を選択 • 比較のために、ベストアンサー率が最大のユーザを出力する手法で実験実験データ •

28 回答者選択実験結果 • 専門用語手法：高い精度複数の回答者候補が存在する場合も正解としている • 抽象度手法：低い精度質問と正解回答者の最大抽象度一致：478件 →　抽象度は有効

29 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり専門用語情報 – 質問の分野が一致するユーザ難易度情報

30 課題 • 組み合わせ手法の検討により精度の向上が期待できる • それぞれで正解している質問を合わせると7割ほどが正解 • 各手法において有効な質問を分析し、それ

31 ご清聴ありがとうございました

34 文章表現辞書を用いた手法対応する抽象度文章表現抽象度1 はどういう意味でしょうかは誰でしょうか抽象度2 どうしたらいいのでしょうか方法はありますか