Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
質問意図によるQAサイト質問文の自動分類
Search
自然言語処理研究室
June 14, 2013
Research
0
350
質問意図によるQAサイト質問文の自動分類
林 秀治, 山本 和英. 質問意図によるQAサイト質問文の自動分類. 信学技報, vol. 113, no. 83, , NLC2013-10, pp. 51-56 (2013.6)
自然言語処理研究室
June 14, 2013
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
390
データサイエンス13_解析.pdf
jnlp
0
500
データサイエンス12_分類.pdf
jnlp
0
350
データサイエンス11_前処理.pdf
jnlp
0
470
Recurrent neural network based language model
jnlp
0
140
自然言語処理研究室 研究概要(2012年)
jnlp
0
140
自然言語処理研究室 研究概要(2013年)
jnlp
0
110
自然言語処理研究室 研究概要(2014年)
jnlp
0
130
自然言語処理研究室 研究概要(2015年)
jnlp
0
210
Other Decks in Research
See All in Research
学習型データ構造:機械学習を内包する新しいデータ構造の設計と解析
matsui_528
4
1.9k
IMC の細かすぎる話 2025
smly
2
780
論文読み会 SNLP2025 Learning Dynamics of LLM Finetuning. In: ICLR 2025
s_mizuki_nlp
0
340
SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing
satai
3
150
HoliTracer:Holistic Vectorization of Geographic Objects from Large-Size Remote Sensing Imagery
satai
3
310
世界の人気アプリ100個を分析して見えたペイウォール設計の心得
akihiro_kokubo
PRO
63
34k
AIグラフィックデザインの進化:断片から統合(One Piece)へ / From Fragment to One Piece: A Survey on AI-Driven Graphic Design
shunk031
0
570
まずはここから:Overleaf共同執筆・CopilotでAIコーディング入門・Codespacesで独立環境
matsui_528
2
880
思いつきが武器になる:研究というゲームを始めよう / Ideas Are Your Equipments : Let the Game of Research Begin!
ks91
PRO
0
100
"主観で終わらせない"定性データ活用 ― プロダクトディスカバリーを加速させるインサイトマネジメント / Utilizing qualitative data that "doesn't end with subjectivity" - Insight management that accelerates product discovery
kaminashi
14
14k
Sat2City:3D City Generation from A Single Satellite Image with Cascaded Latent Diffusion
satai
4
320
情報技術の社会実装に向けた応用と課題:ニュースメディアの事例から / appmech-jsce 2025
upura
0
270
Featured
See All Featured
Documentation Writing (for coders)
carmenintech
76
5.2k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
122
21k
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.6k
For a Future-Friendly Web
brad_frost
180
10k
10 Git Anti Patterns You Should be Aware of
lemiorhan
PRO
659
61k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
128
54k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
46
2.6k
Large-scale JavaScript Application Architecture
addyosmani
515
110k
Leading Effective Engineering Teams in the AI Era
addyosmani
8
1.3k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
970
How GitHub (no longer) Works
holman
316
140k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Transcript
質問意図によるQAサイト 質問文の自動分類 長岡技術科学大学 林 秀治 山本 和英
1.背景・目的 2.キーワードによる分類 3.語の頻度によるスコアでの分類 4.正規化したスコアでの分類
1.背景・目的 2.キーワードによる分類 3.語の頻度によるスコアでの分類 4.正規化したスコアでの分類
4 背景 自然文の質問により、簡単に自分の知りたい 情報を得ることができるQAサイトの利用者は 増加している。しかし、質問をしても回答を 得られないことが多い。 回答者が答えられそうな質問を探す場合、カ テゴリごとに分けて表示などは可能だが、そ
れ以外の方法で数を絞ることができない。
5 目的 質問文の難易度は質問者が求める回答の内容 によって分類することができると考えた。 回答者が答えやすい質問をより簡単に見つけ るための支援として、質問文を質問者の質問 意図ごとに事実、根拠、提案、意見、経験の5 タイプに自動で分類する方法を提案する。
6 質問の分類 渡邊らは『コミュニティQAにおける質問の多 面的評価法の検討』という研究で事実、根 拠、提案、意見、経験の5種類のタイプを定義 し、人手での判定を行っている。 本研究ではこの5タイプを質問文の難易度ごと の分類に使用するため、今回の目的に合わせ
て再定義し用いた。
7 質問タイプの定義 事実 答えが明確に1つに決まる質問 答えはいくつか考えられるが1つあればいい質問 自分の考えがあっているか尋ねるような質問
とあるものについての情報を求める質問 例:富士山の標高は何mですか? エクセルで平均を出す方法を教えて 手袋は着けるであってますか?
8 質問タイプの定義 根拠 理由や根拠についての質問 例:どんぐりにはなぜ帽子がついているのですか 血液型占いの根拠はなんですか?
提案 ある物事のオススメについての質問 例:オススメの英語勉強法はなんですか? 観光に行くならどこがお勧めですか?
9 質問タイプの定義 経験 経験に基づいた回答を求める質問 例:ミニチュアダックスを飼ってらっしゃる方、 習性や性格を教えてください。 意見
回答者の意見やアドバイスを求める質問 アンケート形式の質問 回答する人に関する質問 例:この服どう思いますか? 集中したいときどうしますか?
1.背景・目的 2.キーワードによる分類 3.語の頻度によるスコアでの分類 4.正規化したスコアでの分類
11 キーワードによる分類の方法 質問文に、ある特定の語(キーワード)が含ま れていたとき、質問文をそのキーワードが該当 するタイプに分類する。 キーワードは筆者が質問文を分類するときに、 『この語があればこの分類を表している』と考 えたのものを使用してた。
複数のキーワードが1つの質問文に含まれてい る場合は、優先度が高いキーワードのタイプに 分類される。
12 使用するキーワードとその分類 事実:知りたい、方法、教えて、ますか、 ですか、でしょうか 根拠:どうして、何故、なんで、根拠、由来 提案:オススメ 意見:どちら、あなた 経験:る方
13 使用するキーワードの優先度 優先度順:オススメ、知りたい、方法、どうして 何故、なんで、根拠、由来、教えて ますか、ですか、でしょうか、る方 『オススメを知りたい』という質問は『知りた い』よりも『オススメ』の優先度が高いので、 事実ではなく提案に分類される。
14 キーワードによる分類の結果 Yahoo!知恵袋からランダムに抽出した質問文 のうち、文中に一つの質問しかないと判断し た1509文を自動分類した。 その結果1380文の分類に成功した。 タイプ 質問文数
事実 1090 根拠 113 提案 32 意見 221 経験 38 キーワード分類の精度・再現率 0 20 40 60 80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度 再現率
15 考察 キーワードを多く設定できた事実は結果がよ く、1つしか設定できなかった経験は結果がわ るかった 提案もキーワードは1つだけだが、提案タイプ の質問で全体的に見られ、その他のタイプで はほとんど使用されない語のため結果は良よ
かった より多くの語をそれぞれのタイプでの出現頻 度を考慮し、分類に使用すれば結果がよくな るのでは?
1.背景・目的 2.キーワードによる分類 3.語の頻度によるスコアでの分類 4.正規化したスコアでの分類
17 語の頻度による分類 より多くの語を分類に使用するために、各タ イプでの語の頻度で重み付けを行う以下のス コア関数を定義し用いた A=Freq(c,w)/Q_c+0.0001 B=Freq(all,c)/(ΣQ-Q_c)+0.0001 Score=A/B
Freq(c,w):タイプCでの語Wの出現数 Q_c:タイプCの質問文の数
18 語の頻度による分類の方法 質問文に含まれる語のスコアを全て足し、そ の合計のスコアが最も高い種類に分類される。 例:世界一短い曲は何ですか? 世界一 0.02939 0.00117 0.00037 0.00127
0.00173 事実 根拠 提案 経験 意見 短い 0.00562 0.00039 0.00012 0.00042 0.01730 ・・・ “?” 0.00527 0.00485 0.00105 0.00511 0.00811 合計 0.07415 0.02628 0.00840 0.02601 0.05994 この質問の場合、事実のスコアが一番高いの で、事実に分類される。 + + + =
19 語の頻度による分類の結果 キーワードの分類で使用した1509文を使って スコアを算出し、そのスコアで1509文を自動 分類した 語の頻度による分類の精度、再現率 0 20 40 60
80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度(スコア) 精度(キーワード) 再現率(スコア) 再現率(キーワード)
20 語の頻度による分類結果の考察 キーワードによる分類に比べ、全体的に精 度・再現率ともに向上した。 事実以外の分類で精度が低いのは事実の質問 が誤って分類されているためなので、事実の 再現率向上が全ての分類の精度向上につなが る
21 データ追加後の分類の精度、再現率 0 20 40 60 80 100 事実 根拠
提案 経験 意見 タイプ 精度・再現率 精度(追加後) 精度(追加前) 再現率(追加後) 再現率(追加前) データ追加後の分類の結果 スコアの計算は語の頻度を使うので、使用する 質問文の数を増やした方がよりよい結果が得ら れると考え、データを追加し、1509文か ら、2938文とした タイプ 質問文数 事実 1967 根拠 216 提案 90 意見 500 経験 31
1.背景・目的 2.キーワードによる分類 3.語の頻度によるスコアでの分類 4.正規化したスコアでの分類
23 スコアの正規化 事実の誤分類が多い原因を、データが増える ほどスコアに差が出る現在のスコア関数にあ ると考えた そこで、全ての分類でスコアの最大値が同じ1 になるように正規化した。
24 スコア正規化後の分類結果 スコア正規化前と同様に2938文からスコアを 算出し、得られたスコアでその2938文を自動 分類した。 スコア正規化後の分類の精度、再現率 0 20 40 60
80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度(正規化後) 精度(正規化前) 再現率(正規化後) 再現率(正規化前)
25 スコア正規化後の結果の考察 再現率は大きな変化が見られなかったが、精 度は全体的によくなった。 意見の精度のみ30ポイント近く下がった この原因は、今までいろいろなタイプに分類 されていた事実がほぼ全て意見に分類される
ようになってしまったためである。
26 事実の再現率が低い理由の調査 事実の再現率が低い原因を調べるために、各 分類のスコアが上位の語を調べた。 事実 根拠 提案 意見 経験
エクセル 由来 オススメ 別れる きつく 再 決定 下旬 貴方 実体験 歌詞 山下 予算 エッチ 受けよ 関数 何故 肌 誘わ 転換 入力 物入れ 合い 浮気 まさ
27 考察 事実以外のタイプでは、該当するタイプの質問 のみで全体的に出現する語のスコアが高いため その語を手がかりに分類を行うことができる 事実では、事実全体で出現しやすい語はほかの タイプの質問でも出現しやい。そのため、より 多くの語にスコアを付与する必要があり、スコ
ア付与にその語が入った人手で分類済みの質問 が必要な本手法では、これ以上の精度向上は困 難であることがわかった。
28 まとめ QAサイトの回答者支援として、質問文を質問意 図ごとに事実、根拠、提案、意見、経験の5タイ プに自動で分類する手法を提案した。 分類はキーワード、語の頻度によるスコアとそ れを正規化したものを使う3つの手法で行った
結果、スコアを正規化したものが一番結果が良 かった。 しかし、事実のより正確な分類にはより多くの 語のスコアが必要になるため、スコア計算に質 問文のデータが必要な本手法ではこれ以上の精 度向上は困難であることがわかった。
ご清聴ありがとうございました