Upgrade to Pro — share decks privately, control downloads, hide ads and more …

質問意図によるQAサイト質問文の自動分類

 質問意図によるQAサイト質問文の自動分類

林 秀治, 山本 和英. 質問意図によるQAサイト質問文の自動分類. 信学技報, vol. 113, no. 83, , NLC2013-10, pp. 51-56 (2013.6)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 7 質問タイプの定義  事実  答えが明確に1つに決まる質問  答えはいくつか考えられるが1つあればいい質問  自分の考えがあっているか尋ねるような質問

     とあるものについての情報を求める質問 例:富士山の標高は何mですか?   エクセルで平均を出す方法を教えて   手袋は着けるであってますか?  
  2. 8 質問タイプの定義  根拠  理由や根拠についての質問 例:どんぐりにはなぜ帽子がついているのですか   血液型占いの根拠はなんですか? 

    提案  ある物事のオススメについての質問 例:オススメの英語勉強法はなんですか?   観光に行くならどこがお勧めですか?
  3. 9 質問タイプの定義  経験  経験に基づいた回答を求める質問 例:ミニチュアダックスを飼ってらっしゃる方、   習性や性格を教えてください。  意見

     回答者の意見やアドバイスを求める質問  アンケート形式の質問  回答する人に関する質問 例:この服どう思いますか?   集中したいときどうしますか?
  4. 14 キーワードによる分類の結果  Yahoo!知恵袋からランダムに抽出した質問文 のうち、文中に一つの質問しかないと判断し た1509文を自動分類した。  その結果1380文の分類に成功した。 タイプ 質問文数

    事実 1090 根拠 113 提案 32 意見 221 経験 38 キーワード分類の精度・再現率 0 20 40 60 80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度 再現率
  5. 18 語の頻度による分類の方法  質問文に含まれる語のスコアを全て足し、そ の合計のスコアが最も高い種類に分類される。 例:世界一短い曲は何ですか? 世界一 0.02939 0.00117 0.00037 0.00127

    0.00173 事実 根拠 提案 経験 意見 短い 0.00562 0.00039 0.00012 0.00042 0.01730 ・・・ “?” 0.00527 0.00485 0.00105 0.00511 0.00811 合計 0.07415 0.02628 0.00840 0.02601 0.05994  この質問の場合、事実のスコアが一番高いの で、事実に分類される。 + + + =
  6. 19 語の頻度による分類の結果  キーワードの分類で使用した1509文を使って スコアを算出し、そのスコアで1509文を自動 分類した 語の頻度による分類の精度、再現率 0 20 40 60

    80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度(スコア) 精度(キーワード) 再現率(スコア) 再現率(キーワード)
  7. 21 データ追加後の分類の精度、再現率 0 20 40 60 80 100 事実 根拠

    提案 経験 意見 タイプ 精度・再現率 精度(追加後) 精度(追加前) 再現率(追加後) 再現率(追加前) データ追加後の分類の結果  スコアの計算は語の頻度を使うので、使用する 質問文の数を増やした方がよりよい結果が得ら れると考え、データを追加し、1509文か ら、2938文とした タイプ 質問文数 事実 1967 根拠 216 提案 90 意見 500 経験 31
  8. 24 スコア正規化後の分類結果  スコア正規化前と同様に2938文からスコアを 算出し、得られたスコアでその2938文を自動 分類した。 スコア正規化後の分類の精度、再現率 0 20 40 60

    80 100 事実 根拠 提案 経験 意見 タイプ 精度・再現率 精度(正規化後) 精度(正規化前) 再現率(正規化後) 再現率(正規化前)
  9. 26 事実の再現率が低い理由の調査  事実の再現率が低い原因を調べるために、各 分類のスコアが上位の語を調べた。 事実 根拠 提案 意見 経験

    エクセル 由来 オススメ 別れる きつく 再 決定 下旬 貴方 実体験 歌詞 山下 予算 エッチ 受けよ 関数 何故 肌 誘わ 転換 入力 物入れ 合い 浮気 まさ
  10. 28 まとめ  QAサイトの回答者支援として、質問文を質問意 図ごとに事実、根拠、提案、意見、経験の5タイ プに自動で分類する手法を提案した。  分類はキーワード、語の頻度によるスコアとそ れを正規化したものを使う3つの手法で行った 

    結果、スコアを正規化したものが一番結果が良 かった。  しかし、事実のより正確な分類にはより多くの 語のスコアが必要になるため、スコア計算に質 問文のデータが必要な本手法ではこれ以上の精 度向上は困難であることがわかった。