Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
QAサイトにおける専門用語を用いた最適な回答者提示
Search
自然言語処理研究室
March 31, 2011
Research
0
87
QAサイトにおける専門用語を用いた最適な回答者提示
堀江 将隆, 山本 和英. QAサイトにおける専門用語を用いた最適な回答者提示. 言語処理学会第17回年次大会, pp.228-231 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
380
データサイエンス13_解析.pdf
jnlp
0
470
データサイエンス12_分類.pdf
jnlp
0
330
データサイエンス11_前処理.pdf
jnlp
0
450
Recurrent neural network based language model
jnlp
0
130
自然言語処理研究室 研究概要(2012年)
jnlp
0
130
自然言語処理研究室 研究概要(2013年)
jnlp
0
93
自然言語処理研究室 研究概要(2014年)
jnlp
0
110
自然言語処理研究室 研究概要(2015年)
jnlp
0
180
Other Decks in Research
See All in Research
線形判別分析のPU学習による朝日歌壇短歌の分析
masakat0
0
130
MGDSS:慣性式モーションキャプチャを用いたジェスチャによるドローンの操作 / ec75-yamauchi
yumulab
0
250
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
450
Computational OT #4 - Gradient flow and diffusion models
gpeyre
0
300
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
1
530
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
180
プロシェアリング白書2025_PROSHARING_REPORT_2025
circulation
1
870
Adaptive Experimental Design for Efficient Average Treatment Effect Estimation and Treatment Choice
masakat0
0
130
EarthMarker: A Visual Prompting Multimodal Large Language Model for Remote Sensing
satai
3
340
数理最適化に基づく制御
mickey_kubo
5
670
最適決定木を用いた処方的価格最適化
mickey_kubo
4
1.7k
在庫管理のための機械学習と最適化の融合
mickey_kubo
3
1.1k
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
351
20k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
4 Signs Your Business is Dying
shpigford
184
22k
How to Ace a Technical Interview
jacobian
277
23k
Chrome DevTools: State of the Union 2024 - Debugging React & Beyond
addyosmani
7
720
Rebuilding a faster, lazier Slack
samanthasiow
82
9.1k
Unsuck your backbone
ammeep
671
58k
Mobile First: as difficult as doing things right
swwweet
223
9.7k
Testing 201, or: Great Expectations
jmmastey
42
7.6k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Art, The Web, and Tiny UX
lynnandtonic
299
21k
The Cost Of JavaScript in 2023
addyosmani
51
8.5k
Transcript
長岡技術科学大学 電気系 堀江 将隆,山本和英 QAサイトにおける 専門用語を用いた 最適な回答者提示
背景 QAサイトで得られた回答でどれが正 しいのか判断できない ベストアンサーが得られた質問でも 質問者は満足していない場合がある ① 質問者に対し、最も満足できるような回答を 投稿できる回答者を提示
背景補足 ? ? 質問 質問 ? ? ? A A
A どの回答が良い か判断できない A 最適な 回答者 × ◦
最適な回答者の定義 対象の質問に関する知識を多く持っている ユーザの回答は信頼性が高い 最適な回答者とは 知識を多く持っているユーザ ② 知識とは特定の分野でのみ使用され るような情報
知識の表現方法 内容語 単語単体で知識として意味を持たない ものがある 専門用語 単語単体で分野を想像できる ③ 知識として専門用語を用いる
提案手法の全体図 質問文 専門用語抽出 回答履歴から 専門用語検索 専門用語数で ユーザをランキング 専門用語 リスト 最適な回答者
④ ユーザの 回答履歴 入力 出力 入力の質問文 は含めない
PCをリカバリしたいのですが、プロダクトキーが書か れた冊子が見当たりません。プロダクトキーの入力な しでリカバリできないものでしょうか?WinXPメーカー はhpです。ご教示、よろしくお願いします。 専門用語抽出 PC,リカバリ,プロダクトキー,WinXP,hp 質問文 ⑤ PC,リカバリ,プロダクト,キー,書かれ,冊子,見当,入 力,なし,でき,WinXP,メーカー,hp,教示,お願い
内容語 専門用語
専門用語検索 ⑥ 1.各回答ユーザの回答履歴を参照 回答履歴とは、ユーザが過去に回答した質問文と それに対する回答文とのペアの集合 2.専門用語の異なり数をカウント 3.異なり数を各ユーザのスコアとする 4.スコアが最大のユーザを出力
実験 実験データ Yahoo!知恵袋の「インターネット、PCと家電」 回答者が3人のみの質問30件 評価方法 ベストアンサーを回答したユーザを正解 実験 専門用語と内容語を用いて比較 ⑦
実験結果と考察 ⑧ 内容語 専門用語 正解率 (正解/質問数) 43.3% (13/30) 43.3% (13/30)
各手法でのみ正解が4件ずつあった • 内容語で「当初」「イマイチ」等の出現の 差で正解となっているものがあった 知識の数が多くても正解率が変わらない 専門用語に限定する意味はある
結果の詳細 ⑨ 過去の回答数が平均の1割に満たないBAユー ザであるものは4件(平均回答件数は1920件) • この手法では正解するのが難しい BAユーザの回答数ランキングごとの正解率 1位:6/11、2位:3/9、3位:4/10 • 回答数には依存しない
出力ユーザの回答が不正解だが、 十分に満足できると考えた回答が5件
結果の詳細 ⑩ 内容語 専門用語 知識の 平均語数 36語 10語 同スコアによる 複数ユーザ出力
4件 7件 専門用語の場合、知識の語数が少ない • 各回答者のスコアが等しくなり、出力する ユーザが複数になる 専門用語を拡張して知識の量を増やす 改善策として
専門用語の拡張方法 Yahoo!APIの関連検索ワード検索を使用 入力したワードとよく組み合わせて検索されるワード 各専門用語1つに対し、最大で50語を収集 ⑪ 「メモリ」の関連検索ワードの例 「PC」の関連検索ワードの例 メモリ増設,仮想メモリ,バッファロー,USBメモリ, 物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ モリ,フラッシュメモリ,パソコン
DEPOT,PCゲーム,PCボンバー,自作PC,PC 工房,100円PC,Watch,タブレットpc,pc マックス,モバイルPC
拡張語の実験結果と考察 提示するユーザを一人に絞れた 拡張により5件の質問が改善 ⑫ 知識が増えたことにより、質問に適したユーザ を選出しやすくなった 正解率 同スコアによる 複数ユーザ出力 専門用語
拡張 40.0% (12/30) 0件
まとめ 質問に対し最適な回答者の提示手法を提案 • 最適なユーザを探す手がかりとして 専門用語を用いた 結果は内容語を用いたときと同じ正解率 • 同率1位で複数のユーザを出力してしまう 専門用語を拡張することで正解率を維持しつ つ、ユーザを一人に絞れた
⑬