質問の難易度情報を用いたQAサイトにおける最適な回答者提示

長岡技術科学大学堀江将隆, 山本和英質問の難易度情報を用いた QAサイトにおける最適な回答者提示

2 背景 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている・知らない知識について質問　→ どの回答が正しいか判断できない・質問を閲覧したユーザが回答　→ 完璧な回答が得られるとは限らない

3 背景 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている最適な回答を投稿できる回答者を提示・知らない知識について質問　→ どの回答が正しいか判断できない・質問を閲覧したユーザが回答　→
完璧な回答が得られるとは限らない

4 目的 • 質問に対し最適な回答者を全ユーザから探して提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋にて投稿された質問と回答者を対象 •
全ユーザ：対象の質問に回答したユーザ • 最適な回答者：ベストアンサー回答ユーザ対象の質問の回答者からベストアンサーを投稿した回答者を選択する評価実験を行う

5 質問に対する最適な回答者 • 単純に優れている回答者ではなく、対象の質問に対応した回答が得意 ➔ 対象の質問の難易度に回答するのが得意な回答者

6 質問難易度 • 質問への回答のしやすさを表す難しい質問易しい質問難しい質問易しい質問難易度が一致難しい質問に多く
回答してきたユーザ易しい質問に多く回答してきたユーザ詳細な回答や、専門的な回答を求めている難易度が一致質問者は難易度が合った回答を求めている回答者は得意な難易度がある質問者回答者難易度が一致していれば良い回答が可能単純な回答や、誰もが分かる回答を求めている

7 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい

8 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい

9 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易度情報)が一致するユーザを探す

10 抽象度の定義 • 抽象度1：回答候補が1種類事象の定義、説明、客観的な理由例：TVゲーム「テトリス」を考えたのはどこの国の人？ • 抽象度2：回答候補が複数経験を必要とする回答、手法、解決方法例：MDに入った曲をCDに録音する方法はありますか？
• 抽象度3：回答候補が複数情報提供、主観的な回答、推測例：今年4月から開始されるアニメでどれが一番お勧めですか？

11 予備調査実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ２人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •
各ユーザの質問を抽象度ごとに分類 • それぞれの質問数、ベストアンサー率を算出

12 抽象度とベストアンサー率の関係抽象度質問数 BA NA BA率 1 80 32
48 0.40 2 14 3 11 0.21 3 5 1 4 0.20 合計 99 36 63 0.36 BA：ベストアンサー回答、NA：ベストアンサー以外の回答 BA率：BA数/質問数

13 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数が多い抽象度の質問に回答した場合＝高いベストアンサー率 • 質問数が少ない抽象度の質問に回答した場合＝低いベストアンサー率
多く回答している抽象度に属する質問は得意抽象度が一致していれば、良い回答が可能

14 抽象度推定手法 • 抽象度別の単語出現割合リストを作成 • 単語出現割合リストを参照し質問の各抽象度スコアを計算 • 各抽象度スコアで重みを設定 •
割合が閾値以上なら割合に出現頻度を掛ける • ３つの抽象度スコアのうち、最大の抽象度を付与

15 出現割合リスト作成の流れ抽象度1 抽象度2 抽象度3 出現頻度割合出現頻度割合出現頻度
割合名前 28 0.81 1 0.04 4 0.14 対処 1 0.03 16 0.88 2 0.09 好き 4 0.05 3 0.06 53 0.88 質問文抽象度ごとに分類単語の出現頻度計算抽象度1 質問文抽象度2 質問文抽象度3 質問文抽象度1 出現頻度抽象度2 出現頻度抽象度3 出現頻度単語の出現頻度単語の出現割合計算出現割合リスト割合の値をスコアとして使用・出現割合リストの例

16 抽象度推定手法の流れ抽象度スコア抽象度1 抽象度2 抽象度3 アニメ＋0.29 ＋0
＋0.71 どれが＋0.4 ＋0.3 ＋0.3 一番＋0.32 ＋0.23 ＋0.45 勧め＋0.05 ＋0 ＋0.95 スコアの合計＝1.06 ＝0.53 ＝2.41 質問：アニメでどれが一番お勧めですか？出力：抽象度3 質問抽象度判定出現割合リスト単語出現割合参照質問の抽象度例：閾値＝0.8の場合、0.95×出現数　抽象度1の重み＝1.5の場合、 1.5×抽象度1スコアの合計

17 文章表現辞書を用いた手法対応する抽象度文章表現抽象度1 はどういう意味でしょうかは誰でしょうか抽象度2 どうしたらいいのでしょうか方法はありますか
抽象度3 どう思いますかお勧めでしょうか • 抽象度を決める基準となる質問内容を含む文の文末表現・特定の表現を人手で抽出 • 文章表現辞書を作成文章表現を含む文は対応する抽象度と判定

18 抽象度推定実験 • 使用データ：Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、
• 出現割合リストと文章表現辞書を作成 • 最適な閾値と重みを決定 • 実験はデータセットBを用いる • 出現割合リストを用いた手法 • 文章表現と出現割合リストを組み合わせた手法 • 人手で付与した抽象度と出力した抽象度が一致した場合を正解

19 抽象度推定実験結果 • 重み・閾値を設定することにより正解率が12ポイント向上閾値は0.8、抽象度1の重みを大きく設定 • 文章表現辞書を使うことで、3ポイント向上 • 文章表現を用いた手法では、適合率8割再現率2割
• 各抽象度スコアの差が大きい質問は精度が高い抽象度はスコアの大きい語によって推定可能出現割合出現割合＋閾値・重み文章表現正解率 48.2% 60.3% 63.2%

20 回答者選択手法の流れ１ • 回答者の過去の回答した全ての質問に対して、抽象度を付与 • 回答者の各抽象度に属する質問の割合を計算 • 質問文に対しても同様に抽象度を付与質問と回答者の抽象度判定
出現割合リスト単語参照出現割合対象の質問文回答者A の質問文回答者B の質問文回答者C の質問文質問文の抽象度回答者Cの抽象度スコア回答者Aの抽象度スコア回答者Bの抽象度スコア

21 回答者選択手法の流れ２ • 質問文の抽象度と一致する回答者の抽象度に属する質問の割合スコアが最大の回答者を出力する最大のスコアを持つユーザを出力質問文の抽象度回答者Cの抽象度スコア
回答者B 抽象度：3 回答者Aの抽象度スコア回答者Bの抽象度スコア抽象度1：0.3 抽象度2：0.6 抽象度3：0.1 抽象度1：0.1 抽象度2：0.1 抽象度3：0.8 抽象度1：0.5 抽象度2：0.3 抽象度3：0.2

22 回答者選択実験実験方法 • 質問と回答者の回答履歴を使用し、ベストアンサー回答者を選択 • 比較のために、ランダムに選択したユーザ、ベストアンサー率が最大のユーザを出力する手法で実験
実験データ • Yahoo!知恵袋の全てのカテゴリを対象 • 回答者が3人から5人の質問1000件評価方法 • ベストアンサーを回答したユーザを正解

23 回答者選択実験結果 • 抽象度手法：低い精度質問と正解回答者の最大抽象度一致：478件 →　抽象度は有効 → 複数人から選択できていない • ベストアンサー率：高い精度
• 2つの結果を比較すると、それぞれで正解が異なるランダムベストアンサー率抽象度 (質問難易度) 正解率 27.8% 46.4% 28.5%

24 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり　質問者と対応するユーザ－難易度情報 • 抽象度を推定する実験 •
抽象度(難易度情報)を用いた回答者選択実験・回答者選択手法として高い精度ではない・抽象度(質問難易度情報)は最適なユーザを　探す為に有益な情報である

25 今後の課題 • 他の手法との組み合わせの検討により精度の向上が期待できる • それぞれで正解している質問を合わせると7割ほどが正解 • 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築

26 ご清聴ありがとうございました

質問の難易度情報を用いたQAサイトにおける最適な回答者提示

質問の難易度情報を用いたQAサイトにおける最適な回答者提示

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript

長岡技術科学大学堀江将隆, 山本和英質問の難易度情報を用いた QAサイトにおける最適な回答者提示

2 背景 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている・知らない知識について質問　→ どの回答が正しいか判断できない・質問を閲覧したユーザが回答　→ 完璧な回答が得られるとは限らない

3 背景 Yahoo!知恵袋等で知られるQAサイトの需要が高くなってきている最適な回答を投稿できる回答者を提示・知らない知識について質問　→ どの回答が正しいか判断できない・質問を閲覧したユーザが回答　→

4 目的 • 質問に対し最適な回答者を全ユーザから探して提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋にて投稿された質問と回答者を対象 •

5 質問に対する最適な回答者 • 単純に優れている回答者ではなく、対象の質問に対応した回答が得意 ➔ 対象の質問の難易度に回答するのが得意な回答者

6 質問難易度 • 質問への回答のしやすさを表す難しい質問易しい質問難しい質問易しい質問難易度が一致難しい質問に多く

7 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識

8 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識

9 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易度情報)が一致するユーザを探す

11 予備調査実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ２人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •

12 抽象度とベストアンサー率の関係抽象度質問数 BA NA BA率 1 80 32

13 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数が多い抽象度の質問に回答した場合＝高いベストアンサー率 • 質問数が少ない抽象度の質問に回答した場合＝低いベストアンサー率

14 抽象度推定手法 • 抽象度別の単語出現割合リストを作成 • 単語出現割合リストを参照し質問の各抽象度スコアを計算 • 各抽象度スコアで重みを設定 •

15 出現割合リスト作成の流れ抽象度1 抽象度2 抽象度3 出現頻度割合出現頻度割合出現頻度

16 抽象度推定手法の流れ抽象度スコア抽象度1 抽象度2 抽象度3 アニメ＋0.29 ＋0

17 文章表現辞書を用いた手法対応する抽象度文章表現抽象度1 はどういう意味でしょうかは誰でしょうか抽象度2 どうしたらいいのでしょうか方法はありますか

18 抽象度推定実験 • 使用データ：Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、

19 抽象度推定実験結果 • 重み・閾値を設定することにより正解率が12ポイント向上閾値は0.8、抽象度1の重みを大きく設定 • 文章表現辞書を使うことで、3ポイント向上 • 文章表現を用いた手法では、適合率8割再現率2割

20 回答者選択手法の流れ１ • 回答者の過去の回答した全ての質問に対して、抽象度を付与 • 回答者の各抽象度に属する質問の割合を計算 • 質問文に対しても同様に抽象度を付与質問と回答者の抽象度判定

21 回答者選択手法の流れ２ • 質問文の抽象度と一致する回答者の抽象度に属する質問の割合スコアが最大の回答者を出力する最大のスコアを持つユーザを出力質問文の抽象度回答者Cの抽象度スコア

22 回答者選択実験実験方法 • 質問と回答者の回答履歴を使用し、ベストアンサー回答者を選択 • 比較のために、ランダムに選択したユーザ、ベストアンサー率が最大のユーザを出力する手法で実験

23 回答者選択実験結果 • 抽象度手法：低い精度質問と正解回答者の最大抽象度一致：478件 →　抽象度は有効 → 複数人から選択できていない • ベストアンサー率：高い精度

24 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり　質問者と対応するユーザ－難易度情報 • 抽象度を推定する実験 •

25 今後の課題 • 他の手法との組み合わせの検討により精度の向上が期待できる • それぞれで正解している質問を合わせると7割ほどが正解 • 各手法において有効な質問を分析し、それ

26 ご清聴ありがとうございました