Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
QAサイトにおける最適な回答者提示
Search
自然言語処理研究室
March 31, 2012
Research
1
77
QAサイトにおける最適な回答者提示
堀江 将隆 QAサイトにおける最適な回答者提示. 長岡技術科学大学修士論文. (2013.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
480
データサイエンス12_分類.pdf
jnlp
0
340
データサイエンス11_前処理.pdf
jnlp
0
460
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
97
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
190
Other Decks in Research
See All in Research
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
7
4k
SSII2025 [SS1] レンズレスカメラ
ssii
PRO
2
1.1k
PhD Defense 2025: Visual Understanding of Human Hands in Interactions
tkhkaeio
1
180
言語モデルの地図:確率分布と情報幾何による類似性の可視化
shimosan
5
1.4k
SegEarth-OV: Towards Training-Free Open-Vocabulary Segmentation for Remote Sensing Images
satai
3
170
MIRU2025 チュートリアル講演「ロボット基盤モデルの最前線」
haraduka
15
7.9k
Time to Cash: The Full Stack Breakdown of Modern ATM Attacks
ratatata
0
100
Galileo: Learning Global & Local Features of Many Remote Sensing Modalities
satai
3
230
Hiding What from Whom? A Critical Review of the History of Programming languages for Music
tomoyanonymous
0
160
Towards a More Efficient Reasoning LLM: AIMO2 Solution Summary and Introduction to Fast-Math Models
analokmaus
2
790
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
290
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
2.8k
Featured
See All Featured
Navigating Team Friction
lara
189
15k
Bootstrapping a Software Product
garrettdimon
PRO
307
110k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
358
30k
Fight the Zombie Pattern Library - RWD Summit 2016
marcelosomers
234
17k
Music & Morning Musume
bryan
46
6.8k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Side Projects
sachag
455
43k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
840
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
126
53k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6k
Fireside Chat
paigeccino
39
3.6k
Transcript
電気系 山本研究室 10502489 堀江 将隆 QAサイトにおける 最適な回答者提示
2 研究動機 Yahoo!知恵袋等で知られるQAサイトの 需要が高くなってきている 最適な回答を投稿できる回答者を提示 質問を閲覧したユーザが回答 完璧な回答ができるとは限らない
3 目的 • 質問に対し最適な回答者を全ユーザから探し て提示し回答してもらうこと • 目的達成のため以下の条件設定 • Yahoo!知恵袋を対象 •
全ユーザ:対象の質問に回答したユーザ • 最適な回答者:ベストアンサー回答ユーザ 対象の質問の回答者からベストアンサーを投 稿した回答者を選択する評価実験を行う
4 質問に対する最適な回答者 対象の質問に関する知識(専門用語) を多く持っている 専門用語:質問の分野を表現 対象の質問の難易度に対応した回答 が得意
5 専門用語を用いた手法
6 知識の表現方法 内容語(名詞,動詞,形容詞) 単語単体で知識として意味を持たない ものがある 専門用語(特定分野に存在する単語) 単語単体で分野を想像できる 専門用語を知識として使用
7 回答者選択手法 • 質問文から回答する為に必要な知識 (専門用語)を抽出 • 複数の回答ユーザの中から 必要な知識を最も多く持つユーザを探す
8 手法の流れ1 質問文 専門用語抽出 専門用語 リスト 〈プロダクトキー〉の〈入力〉〈なし〉で〈リカバリ〉 〈でき〉ないものでしょうか? 専門用語リスト:リカバリ,プロダクトキー 質問の一文
内容語リスト:リカバリ,プロダクトキー,入力,なし,でき
9 手法の流れ2 専門用語の 異なり数をカウント 専門用語 リスト ユーザの 回答履歴 過去に回答した 質問文と回答文
・・・・・・・リカバリ・・・・・・ ・・・・・・・・・・・・・・・・・・・・ ・・・・・・・・・・・・・・・・・・・・ プロダクトキー・・・・・・・・ ・・・・・・・・・・リカバリ・・・ リカバリ プロダクトキー 異なり数 : 2 スコア=2/2 =1 ユーザAの回答履歴 専門用語リスト ユーザAの知識スコア 各ユーザの 知識スコア
10 手法の流れ3 スコアが最大の ユーザを選択 最適な 回答者 各ユーザの 知識スコア ユーザBのスコア:1 ユーザAのスコア:0.7
ユーザCのスコア:0.2 各ユーザの知識スコア 出力するユーザ ユーザB ユーザAのスコア:0.7 ユーザBのスコア:1 ユーザCのスコア:0.2 知識スコアでランキング
11 質問難易度を用いた手法
12 質問難易度 • 質問への回答のしやすさを表す 難しい質問 易しい質問 難しい質問 易しい質問 難易度が一致 難しい質問に多く
回答してきたユーザ 易しい質問に多く 回答してきたユーザ 難易度が不一致 難易度が一致 質問者は難易度が合った回答を求めている 回答者は得意な難易度がある 質問者 回答者 難易度が一致していれば良い回答が可能
13 質問難易度を決定する要素 • 質問者が求めている回答の抽象度 • 回答が1つに決まっている質問は答えやすい • 回答候補が複数ある質問は答えにくい • 質問に必要な知識
• 周知の事実に関する話題であれば答えやすい • 専門性の高い話題は答えにくい • 質問文の情報の不十分さ • 詳細な設定や条件があると回答を導きやすい • 単純で曖昧な質問は答えにくい
14 回答者選択手法 1.質問の抽象度(難易度情報)を推定 2.複数の回答者の中から抽象度(難易 度情報)が一致するユーザを探す
15 抽象度の定義 • 抽象度1:回答候補が1種類 事象の定義、説明、客観的な理由 例:TVゲーム「テトリス」を考えたのはどこの国の人? • 抽象度2:回答候補が複数 経験を必要とする回答、手法、解決方法 例:MDに入った曲をCDに録音する方法はありますか?
• 抽象度3:回答候補が複数 情報提供、主観的な回答、推測 例:今年4月から開始されるアニメでどれが一番お勧めですか?
16 予備調査 実際の質問と抽象度に関係があるか • 5カテゴリからそれぞれ2人選択 • 回答者が過去に回答した質問100件 • 1000件の質問文に対し人手で抽象度を判断 •
各ユーザの質問を抽象度ごとに分類 • それぞれの質問数、ベストアンサー率を算出
17 予備調査の結果 • ユーザの質問が属する抽象度が偏っている • 質問数の割合が高い抽象度に回答した場合 =高いベストアンサー率 • 質問数の割合が低い抽象度に回答した場合 =低いベストアンサー率
多く回答している抽象度に属する質問は得意 抽象度が一致していれば、良い回答が可能
18 抽象度推定手法 質問文を3段階の抽象度に分類する • 抽象度別の出現割合リストを作成 • 出現割合リストを参照し、質問の各抽象度スコア を計算 • 各抽象度スコアで重みを設定
• 割合が閾値以上なら割合に出現頻度を掛ける • 3つの抽象度スコアのうち、最大の抽象度を付与
19 出現割合リスト作成の流れ 質問文 抽象度 ごとに分類 単語の 出現頻度計算 抽象度1 質問文 抽象度2
質問文 抽象度3 質問文 抽象度1 出現頻度 抽象度2 出現頻度 抽象度3 出現頻度 単語の 出現頻度 単語の 出現割合計算 出現割合 リスト
20 出現割合リストの例 • 割合が高いほど、その抽象度に属する確率 が高い 抽象度1 抽象度2 抽象度3 出現頻度 割合
出現頻度 割合 出現頻度 割合 名前 28 0.81 1 0.04 4 0.14 対処 1 0.03 16 0.88 2 0.09 好き 4 0.05 3 0.06 53 0.88 例:閾値=0.8 なら 0.81×28=22.68 とする
21 抽象度推定手法の流れ 抽象度 スコア 抽象度1 抽象度2 抽象度3 アニメ +0.29 +0
+0.71 どれが +0.4 +0.3 +0.3 一番 +0.32 +0.23 +0.45 勧め +0.05 +0 +0.95 スコア の合計 =1.06 =0.53 =2.41 質問:アニメでどれが一番お勧めですか? 出力:抽象度3 質問 抽象度判定 出現割合リスト 単語 出現割合 参照 質問の抽象度 例:抽象度1の重み=1.5 抽象度1スコア=1.59
22 抽象度推定実験 • 使用データ:Yahoo!知恵袋の質問1900件 • 準備の為のデータセットA(950件) • 実験の為のデータセットB(950件) • データセットAを用いて、
• 追加条件の為の閾値と重みを決定 • 人手で付与した抽象度と出力した抽象度が 一致したら正解
23 抽象度推定実験結果 • 重み・閾値を設定することにより、 精度が12ポイント向上 • 各抽象度スコアの差が大きい質問は精度が高い 抽象度は特徴の大きい語によって推定可能 出現割合 出現割合
+閾値・重み 正解率 48.2% 60.3%
24 回答者選択手法の流れ1 • 回答者の過去の回答した全ての質問に対して、抽象 度を付与 • 回答者の抽象度スコアを計算 質問の抽象度の割合 • 質問文に対しても同様に抽象度を付与
質問と回答者の抽象度判定 出現割合リスト 単語 参照 出現割合 対象の 質問文 回答者A の質問文 回答者B の質問文 回答者C の質問文 質問文 の抽象度 回答者Cの 抽象度スコア 回答者Aの 抽象度スコア 回答者Bの 抽象度スコア
25 回答者選択手法の流れ2 • 質問文の抽象度と一致する回答者の抽象度スコア が最大の回答者を出力する 最大のスコアを持つユーザを出力 質問文 の抽象度 回答者Cの 抽象度スコア
回答者B 抽象度:3 回答者Aの 抽象度スコア 回答者Bの 抽象度スコア 抽象度1:0.3 抽象度2:0.6 抽象度3:0.1 抽象度1:0.1 抽象度2:0.1 抽象度3:0.8 抽象度1:0.5 抽象度2:0.3 抽象度3:0.2
26 専門用語と質問難易度を 組み合わせた手法 • それぞれの手法での専門用語スコアと、抽象度スコ アを加算し、最大のスコアを持つユーザを出力 最大のスコアを持つユーザを出力 質問文 の抽象度 回答者Cの
抽象度スコア 回答者B 抽象度:3 回答者Aの 抽象度スコア 回答者Bの 抽象度スコア 専門用語:0.4 抽象度3:0.1 合計:0.5 専門用語:0.7 抽象度3:0.8 合計:1.5 専門用語:0.2 抽象度3:0.1 合計:0.3
27 回答者選択実験 実験方法 • それぞれの手法を用いて、最適な回答者を選択 • 比較のために、ベストアンサー率が最大のユー ザを出力する手法で実験 実験データ •
Yahoo!知恵袋の全てのカテゴリを対象 • 回答者が3人から5人の質問1000件 評価方法 • ベストアンサーを回答したユーザを正解
28 回答者選択実験結果 • 専門用語手法:高い精度 複数の回答者候補が存在する場合も正解と している • 抽象度手法:低い精度 質問と正解回答者の最大抽象度一致:478件 → 抽象度は有効
• 組み合わせ手法の結果:低い精度 • ベストアンサー率:高い精度 ランダム ベストアン サー率 専門用語 抽象度 (質問難易度) 組み合わせ 正解率 27.8% 46.4% 40.0% 28.5% 28.6%
29 まとめ • 最適な回答者の提示手法を提案 • 最適なユーザを探す手がかり 専門用語情報 – 質問の分野が一致するユーザ 難易度情報
– 質問者と対応できるユーザ 両手法とも回答者選択手法として高い精度で はなかった 最適なユーザを探す為に有益な情報である
30 課題 • 組み合わせ手法の検討により精度の向上が 期待できる • それぞれで正解している質問を合わせると7割 ほどが正解 • 各手法において有効な質問を分析し、それ
ぞれに合った手法を適用する手法を構築
31 ご清聴ありがとうございました
32 専門用語の拡張方法 Yahoo!APIの関連検索ワード検索を使用 入力したキーワードとよく組み合わせて検索される単語 各専門用語1つに対し、最大で50語を収集 「メモリ」の関連検索ワードの例 「PC」の関連検索ワードの例 メモリ増設,仮想メモリ,バッファロー,USBメモリ, 物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ モリ,フラッシュメモリ,パソコン
DEPOT,PCゲーム,PCボンバー,自作PC,PC 工房,100円PC,Watch,タブレットpc,pc マックス,モバイルPC
33 専門用語手法結果の詳細 • 各手法でのみ正解がそれぞれ4件あった 内容語で「当初」や「イマイチ」等の出 現の差で正解となっているものがあった • 正解はユーザの回答数に依存していない • 正解と定義したユーザの回答履歴数が少な
いケースが4件 • 不正解の出力ユーザの回答で 十分に満足できると思えるものが5件
34 文章表現辞書を用いた手法 対応する抽象度 文章表現 抽象度1 はどういう意味でしょうか は誰でしょうか 抽象度2 どうしたらいいのでしょうか 方法はありますか
抽象度3 どう思いますか お勧めでしょうか • 抽象度を決める基準となる質問内容を含む文 の文末表現・特定の表現を人手で抽出 • 文章表現辞書を作成 文章表現を含む文は対応する抽象度と判定