Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
QAサイトにおける専門用語を用いた最適な回答者提示
Search
自然言語処理研究室
March 31, 2011
Research
0
88
QAサイトにおける専門用語を用いた最適な回答者提示
堀江 将隆, 山本 和英. QAサイトにおける専門用語を用いた最適な回答者提示. 言語処理学会第17回年次大会, pp.228-231 (2011.3)
自然言語処理研究室
March 31, 2011
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
490
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
100
自然言語処理研究室 研究概要(2014年)
jnlp
0
120
自然言語処理研究室 研究概要(2015年)
jnlp
0
200
Other Decks in Research
See All in Research
20250725-bet-ai-day
cipepser
2
480
2025年度人工知能学会全国大会チュートリアル講演「深層基盤モデルの数理」
taiji_suzuki
25
19k
ロボット学習における大規模検索技術の展開と応用
denkiwakame
1
130
2021年度-基盤研究B-研究計画調書
trycycle
PRO
0
340
AWSで実現した大規模日本語VLM学習用データセット "MOMIJI" 構築パイプライン/buiding-momiji
studio_graph
2
690
国際論文を出そう!ICRA / IROS / RA-L への論文投稿の心構えとノウハウ / RSJ2025 Luncheon Seminar
koide3
9
5.4k
GPUを利用したStein Particle Filterによる点群6自由度モンテカルロSLAM
takuminakao
0
360
問いを起点に、社会と共鳴する知を育む場へ
matsumoto_r
PRO
0
650
EcoWikiRS: Learning Ecological Representation of Satellite Images from Weak Supervision with Species Observation and Wikipedia
satai
3
250
診断前の病歴テキストを対象としたLLMによるエンティティリンキング精度検証
hagino3000
1
150
心理言語学の視点から再考する言語モデルの学習過程
chemical_tree
2
610
RHO-1: Not All Tokens Are What You Need
sansan_randd
1
190
Featured
See All Featured
Raft: Consensus for Rubyists
vanstee
139
7.1k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
6.1k
Music & Morning Musume
bryan
46
6.8k
The Pragmatic Product Professional
lauravandoore
36
6.9k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
45
2.5k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
32
1.6k
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.4k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
54
3k
Building a Modern Day E-commerce SEO Strategy
aleyda
43
7.7k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
23
1.5k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
620
Transcript
長岡技術科学大学 電気系 堀江 将隆,山本和英 QAサイトにおける 専門用語を用いた 最適な回答者提示
背景 QAサイトで得られた回答でどれが正 しいのか判断できない ベストアンサーが得られた質問でも 質問者は満足していない場合がある ① 質問者に対し、最も満足できるような回答を 投稿できる回答者を提示
背景補足 ? ? 質問 質問 ? ? ? A A
A どの回答が良い か判断できない A 最適な 回答者 × ◦
最適な回答者の定義 対象の質問に関する知識を多く持っている ユーザの回答は信頼性が高い 最適な回答者とは 知識を多く持っているユーザ ② 知識とは特定の分野でのみ使用され るような情報
知識の表現方法 内容語 単語単体で知識として意味を持たない ものがある 専門用語 単語単体で分野を想像できる ③ 知識として専門用語を用いる
提案手法の全体図 質問文 専門用語抽出 回答履歴から 専門用語検索 専門用語数で ユーザをランキング 専門用語 リスト 最適な回答者
④ ユーザの 回答履歴 入力 出力 入力の質問文 は含めない
PCをリカバリしたいのですが、プロダクトキーが書か れた冊子が見当たりません。プロダクトキーの入力な しでリカバリできないものでしょうか?WinXPメーカー はhpです。ご教示、よろしくお願いします。 専門用語抽出 PC,リカバリ,プロダクトキー,WinXP,hp 質問文 ⑤ PC,リカバリ,プロダクト,キー,書かれ,冊子,見当,入 力,なし,でき,WinXP,メーカー,hp,教示,お願い
内容語 専門用語
専門用語検索 ⑥ 1.各回答ユーザの回答履歴を参照 回答履歴とは、ユーザが過去に回答した質問文と それに対する回答文とのペアの集合 2.専門用語の異なり数をカウント 3.異なり数を各ユーザのスコアとする 4.スコアが最大のユーザを出力
実験 実験データ Yahoo!知恵袋の「インターネット、PCと家電」 回答者が3人のみの質問30件 評価方法 ベストアンサーを回答したユーザを正解 実験 専門用語と内容語を用いて比較 ⑦
実験結果と考察 ⑧ 内容語 専門用語 正解率 (正解/質問数) 43.3% (13/30) 43.3% (13/30)
各手法でのみ正解が4件ずつあった • 内容語で「当初」「イマイチ」等の出現の 差で正解となっているものがあった 知識の数が多くても正解率が変わらない 専門用語に限定する意味はある
結果の詳細 ⑨ 過去の回答数が平均の1割に満たないBAユー ザであるものは4件(平均回答件数は1920件) • この手法では正解するのが難しい BAユーザの回答数ランキングごとの正解率 1位:6/11、2位:3/9、3位:4/10 • 回答数には依存しない
出力ユーザの回答が不正解だが、 十分に満足できると考えた回答が5件
結果の詳細 ⑩ 内容語 専門用語 知識の 平均語数 36語 10語 同スコアによる 複数ユーザ出力
4件 7件 専門用語の場合、知識の語数が少ない • 各回答者のスコアが等しくなり、出力する ユーザが複数になる 専門用語を拡張して知識の量を増やす 改善策として
専門用語の拡張方法 Yahoo!APIの関連検索ワード検索を使用 入力したワードとよく組み合わせて検索されるワード 各専門用語1つに対し、最大で50語を収集 ⑪ 「メモリ」の関連検索ワードの例 「PC」の関連検索ワードの例 メモリ増設,仮想メモリ,バッファロー,USBメモリ, 物理メモリ,増設メモリ,ガイアメモリ,エルピーダメ モリ,フラッシュメモリ,パソコン
DEPOT,PCゲーム,PCボンバー,自作PC,PC 工房,100円PC,Watch,タブレットpc,pc マックス,モバイルPC
拡張語の実験結果と考察 提示するユーザを一人に絞れた 拡張により5件の質問が改善 ⑫ 知識が増えたことにより、質問に適したユーザ を選出しやすくなった 正解率 同スコアによる 複数ユーザ出力 専門用語
拡張 40.0% (12/30) 0件
まとめ 質問に対し最適な回答者の提示手法を提案 • 最適なユーザを探す手がかりとして 専門用語を用いた 結果は内容語を用いたときと同じ正解率 • 同率1位で複数のユーザを出力してしまう 専門用語を拡張することで正解率を維持しつ つ、ユーザを一人に絞れた
⑬