Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
QAサイトにおける専門用語を用いた最適な回答者提示
Search
自然言語処理研究室
March 31, 2011
Research
0
63
QAサイトにおける専門用語を用いた最適な回答者提示
堀江 将隆, 山本 和英. QAサイトにおける専門用語を用いた最適な回答者提示. 言語処理学会第17回年次大会, pp.228-231 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
330
データサイエンス13_解析.pdf
jnlp
0
380
データサイエンス12_分類.pdf
jnlp
0
290
データサイエンス11_前処理.pdf
jnlp
0
400
Recurrent neural network based language model
jnlp
0
100
自然言語処理研究室 研究概要(2012年)
jnlp
0
100
自然言語処理研究室 研究概要(2013年)
jnlp
0
69
自然言語処理研究室 研究概要(2014年)
jnlp
0
65
自然言語処理研究室 研究概要(2015年)
jnlp
0
120
Other Decks in Research
See All in Research
200名の育児中男性の声 「僕たちは、キャリアとライフをトレードオフにしたくない」共働き3.0世代の男性が 本当に求める働き方とは【ワーキングペアレンツの転職意識調査2023|XTalent株式会社】
xtalent
0
480
Scaling Rectified Flow Transformers for High-Resolution Image Synthesis / Stable Diffusion 3
shunk031
0
460
「歴史的農業環境閲覧システム」と「迅速測図」について
wata909
1
610
Equivalence of Geodesics and Importance Weighting from the Perspective of Information Geometry
mkimura
0
140
Azure Arc-enabled Serversを利用した ハイブリッド・マルチクラウド環境の管理 / Managing Hybrid Multi-cloud Environments with Azure Arc-enabled Servers
nttcom
0
210
プロシェアリング白書2024_PROSHARING_REPORT_2024
circulation
0
630
Refactoring Mining - The key to unlock software evolution
tsantalis
0
260
DeepCrysTet: A Deep Learning Approach Using Tetrahedral Mesh for Predicting Properties of Crystalline Materials
tsurubee
0
370
リサーチに組織を巻き込むための「準備8割」の話
terasho
0
470
Deep State Space Models 101 / Mamba
kurita
9
3.5k
ニフティのインナーソース導入事例 - InnerSource Commons #11
niftycorp
PRO
0
260
MLtraq: Track your AI experiments at hyperspeed
micheda
1
110
Featured
See All Featured
GitHub's CSS Performance
jonrohan
1025
450k
In The Pink: A Labor of Love
frogandcode
138
21k
Become a Pro
speakerdeck
PRO
11
4.5k
Designing for Performance
lara
601
67k
How STYLIGHT went responsive
nonsquared
92
4.8k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
9
8.3k
The Mythical Team-Month
searls
216
42k
Debugging Ruby Performance
tmm1
70
11k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
121
39k
We Have a Design System, Now What?
morganepeng
43
6.8k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
1k
KATA
mclloyd
15
12k
Transcript
長岡技術科学大学 電気系 堀江 将隆,山本和英 QAサイトにおける 専門用語を用いた 最適な回答者提示
背景 QAサイトで得られた回答でどれが正 しいのか判断できない ベストアンサーが得られた質問でも 質問者は満足していない場合がある ① 質問者に対し、最も満足できるような回答を 投稿できる回答者を提示
背景補足 ? ? 質問 質問 ? ? ? A A
A どの回答が良い か判断できない A 最適な 回答者 × ◦
最適な回答者の定義 対象の質問に関する知識を多く持っている ユーザの回答は信頼性が高い 最適な回答者とは 知識を多く持っているユーザ ② 知識とは特定の分野でのみ使用され るような情報
知識の表現方法 内容語 単語単体で知識として意味を持たない ものがある 専門用語 単語単体で分野を想像できる ③ 知識として専門用語を用いる
提案手法の全体図 質問文 専門用語抽出 回答履歴から 専門用語検索 専門用語数で ユーザをランキング 専門用語 リスト 最適な回答者
④ ユーザの 回答履歴 入力 出力 入力の質問文 は含めない
PCをリカバリしたいのですが、プロダクトキーが書か れた冊子が見当たりません。プロダクトキーの入力な しでリカバリできないものでしょうか?WinXPメーカー はhpです。ご教示、よろしくお願いします。 専門用語抽出 PC,リカバリ,プロダクトキー,WinXP,hp 質問文 ⑤ PC,リカバリ,プロダクト,キー,書かれ,冊子,見当,入 力,なし,でき,WinXP,メーカー,hp,教示,お願い
内容語 専門用語
専門用語検索 ⑥ 1.各回答ユーザの回答履歴を参照 回答履歴とは、ユーザが過去に回答した質問文と それに対する回答文とのペアの集合 2.専門用語の異なり数をカウント 3.異なり数を各ユーザのスコアとする 4.スコアが最大のユーザを出力
実験 実験データ Yahoo!知恵袋の「インターネット、PCと家電」 回答者が3人のみの質問30件 評価方法 ベストアンサーを回答したユーザを正解 実験 専門用語と内容語を用いて比較 ⑦
実験結果と考察 ⑧ 内容語 専門用語 正解率 (正解/質問数) 43.3% (13/30) 43.3% (13/30)
各手法でのみ正解が4件ずつあった • 内容語で「当初」「イマイチ」等の出現の 差で正解となっているものがあった 知識の数が多くても正解率が変わらない 専門用語に限定する意味はある
結果の詳細 ⑨ 過去の回答数が平均の1割に満たないBAユー ザであるものは4件(平均回答件数は1920件) • この手法では正解するのが難しい BAユーザの回答数ランキングごとの正解率 1位:6/11、2位:3/9、3位:4/10 • 回答数には依存しない
出力ユーザの回答が不正解だが、 十分に満足できると考えた回答が5件
結果の詳細 ⑩ 内容語 専門用語 知識の 平均語数 36語 10語 同スコアによる 複数ユーザ出力
4件 7件 専門用語の場合、知識の語数が少ない • 各回答者のスコアが等しくなり、出力する ユーザが複数になる 専門用語を拡張して知識の量を増やす 改善策として
専門用語の拡張方法 Yahoo!APIの関連検索ワード検索を使用 入力したワードとよく組み合わせて検索されるワード 各専門用語1つに対し、最大で50語を収集 ⑪ 「メモリ」の関連検索ワードの例 「PC」の関連検索ワードの例 メモリ増設,仮想メモリ,バッファロー,USBメモリ, 物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ モリ,フラッシュメモリ,パソコン
DEPOT,PCゲーム,PCボンバー,自作PC,PC 工房,100円PC,Watch,タブレットpc,pc マックス,モバイルPC
拡張語の実験結果と考察 提示するユーザを一人に絞れた 拡張により5件の質問が改善 ⑫ 知識が増えたことにより、質問に適したユーザ を選出しやすくなった 正解率 同スコアによる 複数ユーザ出力 専門用語
拡張 40.0% (12/30) 0件
まとめ 質問に対し最適な回答者の提示手法を提案 • 最適なユーザを探す手がかりとして 専門用語を用いた 結果は内容語を用いたときと同じ正解率 • 同率1位で複数のユーザを出力してしまう 専門用語を拡張することで正解率を維持しつ つ、ユーザを一人に絞れた
⑬