Upgrade to Pro — share decks privately, control downloads, hide ads and more …

文字対話における対話関係成立の可否判別

 文字対話における対話関係成立の可否判別

三ノ宮和俊, 山本和英. 文字対話における対話関係成立の可否判別. 言語処理学会第18回年次大会, pp.831-834 (2012.3)

More Decks by 自然言語処理研究室

Other Decks in Research

Transcript

  1. 文字対話における対話関係
    成立の可否判別
    長岡技術科学大学 電気系
    自然言語処理研究室
    三ノ宮和俊 山本和英

    View full-size slide

  2. 目的
    • 自然言語処理の文生成分野において、自然
    な対話文を自動的に生成することは困難
    • 対話の精度を向上させることが課題として挙
    げられる
    1
    別々の人間によって作成された二つの文が
    対話として成立しているかどうかを自動的に
    判別することを目的とした

    View full-size slide

  3. 文字対話とは
    • Web上のテキストで行われた人間同士の話の
    やりとりを文字対話とし、対話情報として使用
    • 文字対話はTwitterより収集
    2
    文字対話の例
    ツイートの内容:九時むりぽよ。今起きたなう。
    返信の内容: 私もいま起きた。
    一つの「ツイート」と「返信」の対を発話対とし、
    文字対話として扱っている

    View full-size slide

  4. 対話関係の可否判別までの流れ
    • 対話関係の可否判別を行うことは、二値判定
    の問題として扱うことができる
    • 以下の三つの要素を素性とし、対話関係の
    可否判別を行った
    3
    A) 語の共起情報
    B) 対象発話対の疑問判定
    C) 内容語・未知語クラスタリング

    View full-size slide

  5. (A) 語の共起情報
    発話対内に共起しやすい単語が存在するか
    によって、対話関係の可否判別を行う素性
    • Twitterより収集した約20万の発話対より獲得
    • 共起情報は対数尤度比として使用
    • 品詞が名詞、動詞、形容詞、未知語である語
    の組合せについて対数尤度比を算出
    • 形態素解析器として「MeCab」を使用
    4

    View full-size slide

  6. 対数尤度比の算出方法
    各変数の説明
    a: 語Aがツイート文、語Bが返信文に存在する場合の発話対の数
    b: 語Aがツイート文に存在し、語Bが返信文に存在しない場合の
    発話対の数
    c: 語Bが返信文に存在し、語Aがツイート文に存在しない場合の
    発話対の数
    d: 語Aも語Bも存在しない場合の発話対の数
    N: 対数尤度比算出の際に使用した全発話対の数 5
         
         
    d
    c
    d
    b
    dN
    d
    d
    c
    c
    a
    cN
    c
    d
    b
    b
    a
    bN
    b
    c
    a
    b
    a
    aN
    a
    LLR












    log
    log
    log
    log
       

    View full-size slide

  7. 語Aと語Bについての対数尤度比
    語A 語B a b c d N LLR
    例1 旅行 ハワイ 1 190 16 181924 182131 3.076
    例2 大学 研究 2 324 100 181705 182131 2.991
    例3 腹痛 良い 1 67 29232 179141 182131 0.004
    6

    View full-size slide

  8. (B) 対象発話対の疑問判定
    7
    疑問や質問に対する応答によって対話関係の
    可否判別を行う素性
    • 文字対話における疑問判定の素性は以下の
    ように仮定
    • 疑問であるか否かの判定は文内の疑問符の
    有無で行った
    ツイートが疑問ではない場合 ツイートが疑問ある場合
    返信が疑問でない場合 素性として1を付与 素性として1を付与
    返信が疑問である場合 素性として1を付与 素性として0を付与

    View full-size slide

  9. (C) 内容語・未知語クラスタリング
    語のクラスタリング結果を用いて対話関係の
    可否判別を行う素性
    • コーパスとしてWeb日本語Nグラムの7-gram
    データを使用
    • 形態素解析器として「MeCab」を使用
    • データクラスタリングツール「bayon」を使用
    • 品詞が名詞、動詞、形容詞、未知語である語
    のクラスタリングを行った
    8

    View full-size slide

  10. 9
    語のクラスタを作成する際に使用するデータ

    View full-size slide

  11. 対話関係の可否判別実験
    • ベースラインは内容語の一致で判別した結果
    • 判別の際に使用する素性が一つの場合、そ
    の素性の有無で適合率を算出
    • 素性の組み合わせはLIBSVMを使用して
    行った
    • 学習データと評価データにはそれぞれ2万の
    発話対を使用
    (正例データ1万対、負例データ1万対)
    10

    View full-size slide

  12. 可否判別実験の結果
    使用した
    素性情報
    正例データに
    関する適合率
    負例データに
    関する適合率
    全体の適合率
    ベースライン 0.395 0.885 0.640
    (A) 0.441 0.711 0.576
    (B) 0.982 0.021 0.502
    (C) 0.097 0.935 0.516
    (A)(B) 0.441 0.711 0.576
    (A)(C) 0.441 0.711 0.576
    (B)(C) 0.113 0.915 0.514
    (A)(B)(C) 0.441 0.711 0.576
    11

    View full-size slide

  13. 語の共起情報でのみ
    対話関係を正確に判別できた例
    12
    例1
    ツイート:面接終わった
    返信: お疲れおかえり!
    例2
    ツイート:うっし寝るかー。
    おやすみなさーい!
    返信: おやすみなさいませ
    良き夢を
    「終わる⇔つかれる」の
    共起情報により正例と判別
    「寝る⇔夢」の
    共起情報により
    正例と判別

    View full-size slide

  14. 対象発話対の疑問判定で
    対話関係を正確に判別できた例
    13
    例1
    ツイート:大丈夫??
    返信: 何てお店??
    例2
    ツイート:どんな雑誌に載ったの?
    大阪でも売ってる雑誌?
    返信: 目が覚めたか?
    疑問符がどちらにも
    あるため負例と判別
    疑問符がどちらにも
    あるため負例と判別

    View full-size slide

  15. 内容語・未知語クラスタリングでのみ
    対話関係を正確に判別できた例
    14

    ツイート:うちはガラケーのテザリングつかってipodを
    ネットにつないでるのですよ 1個にしたいw
    返信: なるほどそれは一つにしたほが楽ですねぇ。
    うちはドコモのAndroidですが、あまりストレス
    なく使えますよ。
    「ネット⇔ドコモ」 「ネット⇔Android」
    「ネット⇔使える」が同じクラスタに
    属している情報より正例と判別

    View full-size slide

  16. おわりに
    • 文字対話について対話が成立しているか否
    かの可否判別を自動的に行う方法を提案
    • 三つの要素を素性として用いたが、判別実験
    でベースラインを上回ることはできなかった
    • 複数の素性を組合せた場合の影響を確認す
    ることはできなかった
    • 各素性によって可否判別が適切に行われて
    いる発話対に違いはあった
    • 三つの素性は対話の可否判別に効果はある
    15

    View full-size slide

  17. 補足資料:Twitterを用いた文字対話
    • Twitterの「ツイート」と「返信」の関係に着目
    • ある人間の「ツイート」に対して、別の人間が
    「返信」を行っている
    「ツイート」と「返信」の関係は人間同士の対話
    が成立している関係にあると仮定できる

    View full-size slide

  18. 補足資料:素性について
    • 素性として語の共起情報を用いた理由
    発話対内に共起しやすい単語が存在した場合、
    その発話対は対話として関係にあると期待できるから
    • 素性として対象発話対の疑問判定を用いた理由
    疑問や質問を相手に問いかけた場合、その問いに
    対する応答が相手から返ってくることが期待できるから
    • 素性として内容語・未知語クラスタリングを用いた理由
    対話関係の判別において、語の関連性が有効である
    と考えたから

    View full-size slide

  19. 補足資料:各素性の付与方法
    (A) 語の共起情報
    判別対象の二文内の全ての内容語対について
    対数尤度比を算出し、閾値を超える対があるか
    (B) 対象発話対の疑問判定
    判定対象の二文のどちらにも疑問符があるか
    (C) 内容語・未知語クラスタリング
    判定対象の二文内の内容語と未知語について
    同じクラスタに属する語があるか

    View full-size slide

  20. 補足資料:
    対象発話対の疑問判定
    発話対における疑問符の使用頻度を調査
    • 会話関係が成立している1万の発話対を対象
    • 疑問符が使用されている発話対は全体の約
    25%(2650対)
    • ツイートと返信のどちらにも疑問符が使用され
    ている発話対は全体の約2%(242対)
    対話関係が成立している場合、疑問の応答に対
    して疑問を用いていないことが確認できた

    View full-size slide

  21. 補足資料:
    内容語・未知語クラスタリング
    発話対内の未知語の出現頻度を調査
    • Twitterから獲得した1万の発話対を対象
    • MeCabを用いて形態素解析を行い、未知語
    の出現数をカウント
    • 結果、約2万語の未知語が存在
    Twitterにおける未知語は重要な要素である
    クラスタリングの際に使用したWeb日本語Nグラム
    の7-gramデータは約500万文

    View full-size slide

  22. 補足資料:
    データクラスタリングツール「bayon」
    • クラスタリング手法としてRepeated Bisection法を採用
    • Repeated Bisectionでは以下の1-4の処理を繰り返し実行することでクラスタリ
    ングを行う
    1. 分割するクラスタを選択(一番クラスタ内のまとまりが悪いものを選択)
    2. クラスタ中からランダムに2つ要素を選択し、それぞれを格納したクラスタを
    作成
    3. 元のクラスタ中の全ての要素に対し、2で選んだ要素との類似度を求め、類
    似度が高い方のクラスタに要素を追加する
    4. 2クラスタ間で要素の移動を行い、分割結果の洗練を行う(移動できる要素が
    なくなるまで続ける)
    引用ページ:「mixi Engineers' Blog » 軽量データクラスタリングツールbayon」
    http://alpha.mixi.co.jp/blog/?p=1049

    View full-size slide

  23. 補足資料:LIBSVM
    • 台湾国立大学のLinらによって作成されたSVMのラ
    イブラリ
    • 設定はデフォルトのままで使用
    SVMのタイプ:C-SVC
    カーネル関数のタイプ:RBF(radial basis function)
    exp(-gamma*|u-v|^2)
    • 他のSVMタイプとしてnu-SVC、one-class SVM、
    epsilon-SVR、nu-SVRが選択可能
    • 他のカーネル関数として線形、多項式、シグモイドが
    選択可能

    View full-size slide

  24. 補足資料:使用データの詳細
    • SVM用の学習データ
    正例データ1万対 負例データ1万対
    • 判別実験の評価データ
    正例データ1万対 負例データ1万対
    正例データ:二文間の対話関係が成立している発話対
    負例データ:二文間の対話関係が成立していない発話対

    View full-size slide

  25. 補足資料:使用データの作成方法

    View full-size slide

  26. 補足資料:可否判別実験の結果
    • 提案した各素性を用いた結果はいずれも
    ベースラインを下回ってしまった
    • 素性の組合せによる影響を確認することがで
    きなかった
    ※ SVMによる学習データを正例・負例データ
    10万対に変更して同様の実験を行ってみた
    が結果は変わらなかった

    View full-size slide

  27. 関連研究
    • 複数の対話システムからの応答候補文を用
    いた最適応答文選択手法の性能評価
    [今井,2010]
    対話システムにより生成された応答の中から
    最適なものを選択する
    • 語の共起情報を用いた非タスク指向型対話
    エージェントの評価 [稲葉, 2009]
    共起語対を発話間に含むかで対話エージェント
    の評価を行っている

    View full-size slide