Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
質問の難易度情報を用いたQAサイトにおける最適な回答者提示
Search
自然言語処理研究室
March 31, 2012
Research
1
88
質問の難易度情報を用いたQAサイトにおける最適な回答者提示
堀江将隆, 山本和英. 質問の難易度情報を用いたQAサイトにおける最適な回答者提示. 言語処理学会第18回年次大会, pp.1320-1323 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
490
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
98
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
160
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
610
診断前の病歴テキストを対象としたLLMによるエンティティリンキング精度検証
hagino3000
1
130
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
300
【緊急警告】日本の未来設計図 ~沈没か、再生か。国民と断行するラストチャンス~
yuutakasan
0
150
2025/7/5 応用音響研究会招待講演@北海道大学
takuma_okamoto
1
190
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
170
20250605_新交通システム推進議連_熊本都市圏「車1割削減、渋滞半減、公共交通2倍」から考える地方都市交通政策
trafficbrain
0
770
SSII2025 [TS2] リモートセンシング画像処理の最前線
ssii
PRO
7
3.1k
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
5
1.5k
Cross-Media Information Spaces and Architectures
signer
PRO
0
240
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
satai
3
180
Featured
See All Featured
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
656
61k
Code Reviewing Like a Champion
maltzj
525
40k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Into the Great Unknown - MozCon
thekraken
40
2k
How To Stay Up To Date on Web Technology
chriscoyier
790
250k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3k
Product Roadmaps are Hard
iamctodd
PRO
54
11k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
507
140k
A better future with KSS
kneath
239
17k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
229
22k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
48
9.7k
Transcript
長岡技術科学大学 堀江 将隆, 山本 和英 質問の難易度情報を用いた QAサイトにおける 最適な回答者提示
2 背景 Yahoo!知恵袋等で知られるQAサイトの 需要が高くなってきている ・知らない知識について質問 → どの回答が正しいか判断できない ・質問を閲覧したユーザが回答 → 完璧な回答が得られるとは限らない
3 背景 Yahoo!知恵袋等で知られるQAサイトの 需要が高くなってきている 最適な回答を投稿できる回答者を提示 ・知らない知識について質問 → どの回答が正しいか判断できない ・質問を閲覧したユーザが回答 →
完璧な回答が得られるとは限らない
4 目的 • 質問に対し最適な回答者を全ユーザから探し て提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋にて投稿された質問と回答者を対象 •
全ユーザ:対象の質問に回答したユーザ • 最適な回答者:ベストアンサー回答ユーザ 対象の質問の回答者からベストアンサーを投 稿した回答者を選択する評価実験を行う
5 質問に対する最適な回答者 • 単純に優れている回答者ではなく、 対象の質問に対応した回答が得意 ➔ 対象の質問の難易度に回答するの が得意な回答者
6 質問難易度 • 質問への回答のしやすさを表す 難しい質問 易しい質問 難しい質問 易しい質問 難易度が一致 難しい質問に多く
回答してきたユーザ 易しい質問に多く 回答してきたユーザ 詳細な回答や、専門的 な回答を求めている 難易度が一致 質問者は難易度が合った回答を求めている 回答者は得意な難易度がある 質問者 回答者 難易度が一致していれば良い回答が可能 単純な回答や、誰もが分 かる回答を求めている
7 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい
8 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい
9 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易 度情報)が一致するユーザを探す
10 抽象度の定義 • 抽象度1:回答候補が1種類 事象の定義、説明、客観的な理由 例:TVゲーム「テトリス」を考えたのはどこの国の人? • 抽象度2:回答候補が複数 経験を必要とする回答、手法、解決方法 例:MDに入った曲をCDに録音する方法はありますか?
• 抽象度3:回答候補が複数 情報提供、主観的な回答、推測 例:今年4月から開始されるアニメでどれが一番お勧めですか?
11 予備調査 実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ2人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •
各ユーザの質問を抽象度ごとに分類 • それぞれの質問数、ベストアンサー率を算出
12 抽象度とベストアンサー率の関係 抽象度 質問数 BA NA BA率 1 80 32
48 0.40 2 14 3 11 0.21 3 5 1 4 0.20 合計 99 36 63 0.36 BA:ベストアンサー回答、NA:ベストアンサー以外の回答 BA率:BA数/質問数
13 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数が多い抽象度の質問に回答した場合 =高いベストアンサー率 • 質問数が少ない抽象度の質問に回答した場合 =低いベストアンサー率
多く回答している抽象度に属する質問は得意 抽象度が一致していれば、良い回答が可能
14 抽象度推定手法 • 抽象度別の単語出現割合リストを作成 • 単語出現割合リストを参照し質問の各抽象度スコ アを計算 • 各抽象度スコアで重みを設定 •
割合が閾値以上なら割合に出現頻度を掛ける • 3つの抽象度スコアのうち、最大の抽象度を付与
15 出現割合リスト作成の流れ 抽象度1 抽象度2 抽象度3 出現頻度 割合 出現頻度 割合 出現頻度
割合 名前 28 0.81 1 0.04 4 0.14 対処 1 0.03 16 0.88 2 0.09 好き 4 0.05 3 0.06 53 0.88 質問文 抽象度 ごとに分類 単語の 出現頻度計算 抽象度1 質問文 抽象度2 質問文 抽象度3 質問文 抽象度1 出現頻度 抽象度2 出現頻度 抽象度3 出現頻度 単語の 出現頻度 単語の 出現割合計算 出現割合 リスト 割合の値をスコアとして使用 ・出現割合リストの例
16 抽象度推定手法の流れ 抽象度 スコア 抽象度1 抽象度2 抽象度3 アニメ +0.29 +0
+0.71 どれが +0.4 +0.3 +0.3 一番 +0.32 +0.23 +0.45 勧め +0.05 +0 +0.95 スコア の合計 =1.06 =0.53 =2.41 質問:アニメでどれが一番お勧めですか? 出力:抽象度3 質問 抽象度判定 出現割合リスト 単語 出現割合 参照 質問の抽象度 例: 閾値=0.8の場合、0.95×出現数 抽象度1の重み=1.5の場合、 1.5×抽象度1スコアの合計
17 文章表現辞書を用いた手法 対応する抽象度 文章表現 抽象度1 はどういう意味でしょうか は誰でしょうか 抽象度2 どうしたらいいのでしょうか 方法はありますか
抽象度3 どう思いますか お勧めでしょうか • 抽象度を決める基準となる質問内容を含む文 の文末表現・特定の表現を人手で抽出 • 文章表現辞書を作成 文章表現を含む文は対応する抽象度と判定
18 抽象度推定実験 • 使用データ:Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、
• 出現割合リストと文章表現辞書を作成 • 最適な閾値と重みを決定 • 実験はデータセットBを用いる • 出現割合リストを用いた手法 • 文章表現と出現割合リストを組み合わせた手法 • 人手で付与した抽象度と出力した抽象度が 一致した場合を正解
19 抽象度推定実験結果 • 重み・閾値を設定することにより正解率が12ポイント向上 閾値は0.8、抽象度1の重みを大きく設定 • 文章表現辞書を使うことで、3ポイント向上 • 文章表現を用いた手法では、適合率8割 再現率2割
• 各抽象度スコアの差が大きい質問は精度が高い 抽象度はスコアの大きい語によって推定可能 出現割合 出現割合 +閾値・重み 文章表現 正解率 48.2% 60.3% 63.2%
20 回答者選択手法の流れ1 • 回答者の過去の回答した全ての質問に対して、抽象 度を付与 • 回答者の各抽象度に属する質問の割合を計算 • 質問文に対しても同様に抽象度を付与 質問と回答者の抽象度判定
出現割合リスト 単語 参照 出現割合 対象の 質問文 回答者A の質問文 回答者B の質問文 回答者C の質問文 質問文 の抽象度 回答者Cの 抽象度スコア 回答者Aの 抽象度スコア 回答者Bの 抽象度スコア
21 回答者選択手法の流れ2 • 質問文の抽象度と一致する回答者の抽象度に属す る質問の割合スコアが最大の回答者を出力する 最大のスコアを持つユーザを出力 質問文 の抽象度 回答者Cの 抽象度スコア
回答者B 抽象度:3 回答者Aの 抽象度スコア 回答者Bの 抽象度スコア 抽象度1:0.3 抽象度2:0.6 抽象度3:0.1 抽象度1:0.1 抽象度2:0.1 抽象度3:0.8 抽象度1:0.5 抽象度2:0.3 抽象度3:0.2
22 回答者選択実験 実験方法 • 質問と回答者の回答履歴を使用し、ベストアン サー回答者を選択 • 比較のために、 ランダムに選択したユーザ、ベストアンサー率が最大の ユーザを出力する手法で実験
実験データ • Yahoo!知恵袋の全てのカテゴリを対象 • 回答者が3人から5人の質問1000件 評価方法 • ベストアンサーを回答したユーザを正解
23 回答者選択実験結果 • 抽象度手法:低い精度 質問と正解回答者の最大抽象度一致:478件 → 抽象度は有効 → 複数人から選択できていない • ベストアンサー率:高い精度
• 2つの結果を比較すると、それぞれで正解が 異なる ランダム ベストアンサー率 抽象度 (質問難易度) 正解率 27.8% 46.4% 28.5%
24 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり 質問者と対応するユーザ-難易度情報 • 抽象度を推定する実験 •
抽象度(難易度情報)を用いた回答者選択実験 ・回答者選択手法として高い精度ではない ・抽象度(質問難易度情報)は最適なユーザを 探す為に有益な情報である
25 今後の課題 • 他の手法との組み合わせの検討により精度 の向上が期待できる • それぞれで正解している質問を合わせると7割 ほどが正解 • 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築
26 ご清聴ありがとうございました