Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文献紹介:対話破綻検出の対話システムへの適用

shu_suzuki
May 07, 2019
170

 文献紹介:対話破綻検出の対話システムへの適用

長岡技術科学大学
自然言語処理研究室
鈴木脩右

shu_suzuki

May 07, 2019
Tweet

More Decks by shu_suzuki

Transcript

  1. 対話破綻検出手法 • DBDC2 において性能が最も良かった手法を用いる (杉山 2016) • 急激な話題転換や対話行為などを素性に,Extra Trees Regressor

    でラベルの確率分布を推定 • 素性の 1 つに対話行為アノテーション済みコーパスを用いる → 当該コーパスは非公開 • 新たに,対話行為コーパスを作成し対話行為推定器を構築 • 39 個の対話行為を多クラス SVM で学習 • 予備実験で杉山の結果と,同等の結果が得られることを確認 6
  2. 対話モデル(1) • 用例ベース対話システム (IRS) • ユーザ発話と類似した用例を検索し応答とする • 408 回分の対話から抽出した合計 26972

    個の用例を使用 • 検索に Apache Lucene,形態素解析器に Kuromoji を使用 • 応答候補は類似度の上位 10 件,応答スコアは Apache Lucene が 出力した類似度 7
  3. 対話モデル(2) • Neural Conversational Model(NCM) • ニューラルベースの Encoder-Decoder Model •

    各 1000 次元の LSTM を 4 層のネットワークに使用 • 語彙数は入力, 出力ともに 80000 とし, Dropout 率は 20% , パラ メータの最適化手法には Adam • 学習データには約 1000 万件の Twitter のツイート・リプライペア を使用 8
  4. 対話モデル(3) • Neural Utterance Ranking モデル (NUR) • ニューラルネットワークベースの対話モデル •

    生成した発話候補をランキングし,高順位の発話を使用 • 応答のスコアは NUR モデルが発話候補の順位付けのために出力す るスコアを用いる 9
  5. 提案手法 • 分類ベース • 破綻検出の分類結果を重視し,破綻と分類された応答候補を下位 にする手法 • 各ラベルの確率分布から最大確率のラベルを分類結果とする • 非破綻確率ベース

    • 応答候補のスコアと非破綻確率の積をスコアとしリランキング • 線形回帰ベース • 各破綻ラベルの確率と応答スコアを入力とした線形回帰モデルの 算出スコアでリランキング • 損失関数は,教師スコア 1.0,負例 0.0 とした時の平均二乗誤差 10
  6. 学習データ • NCM と NUR は,独自に収 集したものを使用 • IRS は

    DBDC2 のデータセッ トを使用 Table 1: 対話破綻検出学習データ 11
  7. 実験結果 Figure 1: 順位 n を変化さ せた際の MAP (IRS) Figure

    2: 順位 n を変化さ せた際の MAP (NCM) Figure 3: 順位 n を変化さ せた際の MAP (NUR) 13
  8. 出力ラベルの分析 • IRS では X ラベルとなった 応答候補が多い → より多くの応答候補がリ ランキングされたため,大

    きく性能が向上 • NCM と NUR は性能向上の 余地が小さい → O ラベルの情報を用いる 非破綻確率ベース, 線形回 帰ベースが有効 Table 3: 破綻検出手法の出力ラベルの 分布 ( 括弧内は件数 ) 14
  9. 適用前後の応答の変化 • 適用前後の 1 位の応答に含まれる単語数と語彙数を調査 • 適用後に単語数と語彙数が少なくなる → 無難で簡潔な応答が増加 •

    NURには応答候補に簡潔な応答が少ないため,殆ど変化なし Table 4: 対話破綻検出適用前後の単語数と語彙数の変化 16
  10. 対話実験 • 実際にユーザとシステムで 対話を行い評価 • IRS+非破綻確率ベースを 使用 • クラウドワーカー 110

    名に より,自然さ,楽しさ,総 合の 3 項目で評価 Table 5: 対話実験結果 ( 括弧内は人数 ) 17