文字対話における対話関係成立の可否判別

文字対話における対話関係成立の可否判別長岡技術科学大学電気系自然言語処理研究室三ノ宮和俊山本和英

目的 • 自然言語処理の文生成分野において、自然な対話文を自動的に生成することは困難 • 対話の精度を向上させることが課題として挙げられる 1 別々の人間によって作成された二つの文が対話として成立しているかどうかを自動的に
判別することを目的とした

文字対話とは • Web上のテキストで行われた人間同士の話のやりとりを文字対話とし、対話情報として使用 • 文字対話はTwitterより収集 2 文字対話の例ツイートの内容：九時むりぽよ。今起きたなう。返信の内容：
私もいま起きた。一つの「ツイート」と「返信」の対を発話対とし、文字対話として扱っている

対話関係の可否判別までの流れ • 対話関係の可否判別を行うことは、二値判定の問題として扱うことができる • 以下の三つの要素を素性とし、対話関係の可否判別を行った 3 A) 語の共起情報
B) 対象発話対の疑問判定 C) 内容語・未知語クラスタリング

(Ａ) 語の共起情報発話対内に共起しやすい単語が存在するかによって、対話関係の可否判別を行う素性 • Twitterより収集した約20万の発話対より獲得 • 共起情報は対数尤度比として使用 • 品詞が名詞、動詞、形容詞、未知語である語
の組合せについて対数尤度比を算出 • 形態素解析器として「MeCab」を使用 4

対数尤度比の算出方法各変数の説明 a: 語Aがツイート文、語Bが返信文に存在する場合の発話対の数 b: 語Aがツイート文に存在し、語Bが返信文に存在しない場合の発話対の数 c: 語Bが返信文に存在し、語Aがツイート文に存在しない場合の発話対の数
d: 語Aも語Bも存在しない場合の発話対の数 N: 対数尤度比算出の際に使用した全発話対の数 5             d c d b dN d d c c a cN c d b b a bN b c a b a aN a LLR             log log log log 　　　

語Aと語Bについての対数尤度比語A 語B a b c d N LLR 例1
旅行ハワイ 1 190 16 181924 182131 3.076 例2 大学研究 2 324 100 181705 182131 2.991 例3 腹痛良い 1 67 29232 179141 182131 0.004 6

(B) 対象発話対の疑問判定 7 疑問や質問に対する応答によって対話関係の可否判別を行う素性 • 文字対話における疑問判定の素性は以下のように仮定 • 疑問であるか否かの判定は文内の疑問符の
有無で行ったツイートが疑問ではない場合ツイートが疑問ある場合返信が疑問でない場合素性として1を付与素性として1を付与返信が疑問である場合素性として1を付与素性として0を付与

(C) 内容語・未知語クラスタリング語のクラスタリング結果を用いて対話関係の可否判別を行う素性 • コーパスとしてWeb日本語Nグラムの7-gram データを使用 • 形態素解析器として「MeCab」を使用 •
データクラスタリングツール「bayon｣を使用 • 品詞が名詞、動詞、形容詞、未知語である語のクラスタリングを行った 8

9 語のクラスタを作成する際に使用するデータ

対話関係の可否判別実験 • ベースラインは内容語の一致で判別した結果 • 判別の際に使用する素性が一つの場合、その素性の有無で適合率を算出 • 素性の組み合わせはLIBSVMを使用して行った •
学習データと評価データにはそれぞれ2万の発話対を使用 (正例データ1万対、負例データ1万対) 10

可否判別実験の結果使用した素性情報正例データに関する適合率負例データに関する適合率全体の適合率ベースライン 0.395
0.885 0.640 (A) 0.441 0.711 0.576 (B) 0.982 0.021 0.502 (C) 0.097 0.935 0.516 (A)(B) 0.441 0.711 0.576 (A)(C) 0.441 0.711 0.576 (B)(C) 0.113 0.915 0.514 (A)(B)(C) 0.441 0.711 0.576 11

語の共起情報でのみ対話関係を正確に判別できた例 12 例1 ツイート：面接終わった返信：お疲れおかえり！例2 ツイート：うっし寝るかー。おやすみなさーい！
返信：おやすみなさいませ良き夢を｢終わる⇔つかれる｣の共起情報により正例と判別｢寝る⇔夢｣の共起情報により正例と判別

対象発話対の疑問判定で対話関係を正確に判別できた例 13 例1 ツイート：大丈夫？？返信：何てお店？？例2 ツイート：どんな雑誌に載ったの？大阪でも売ってる雑誌？
返信：目が覚めたか？疑問符がどちらにもあるため負例と判別疑問符がどちらにもあるため負例と判別

内容語・未知語クラスタリングでのみ対話関係を正確に判別できた例 14 例ツイート：うちはガラケーのテザリングつかってipodをネットにつないでるのですよ 1個にしたいｗ返信：なるほどそれは一つにしたほが楽ですねぇ。うちはドコモのAndroidですが、あまりストレス
なく使えますよ。｢ネット⇔ドコモ｣｢ネット⇔Android｣｢ネット⇔使える｣が同じクラスタに属している情報より正例と判別

おわりに • 文字対話について対話が成立しているか否かの可否判別を自動的に行う方法を提案 • 三つの要素を素性として用いたが、判別実験でベースラインを上回ることはできなかった • 複数の素性を組合せた場合の影響を確認することはできなかった
• 各素性によって可否判別が適切に行われている発話対に違いはあった • 三つの素性は対話の可否判別に効果はある 15

補足資料：Twitterを用いた文字対話 • Twitterの「ツイート」と「返信」の関係に着目 • ある人間の「ツイート」に対して、別の人間が「返信」を行っている「ツイート」と「返信」の関係は人間同士の対話が成立している関係にあると仮定できる

補足資料：素性について • 素性として語の共起情報を用いた理由発話対内に共起しやすい単語が存在した場合、その発話対は対話として関係にあると期待できるから • 素性として対象発話対の疑問判定を用いた理由疑問や質問を相手に問いかけた場合、その問いに対する応答が相手から返ってくることが期待できるから •
素性として内容語・未知語クラスタリングを用いた理由対話関係の判別において、語の関連性が有効であると考えたから

補足資料：各素性の付与方法 (A) 語の共起情報判別対象の二文内の全ての内容語対について対数尤度比を算出し、閾値を超える対があるか (B) 対象発話対の疑問判定判定対象の二文のどちらにも疑問符があるか (C) 内容語・未知語クラスタリング
判定対象の二文内の内容語と未知語について同じクラスタに属する語があるか

補足資料：対象発話対の疑問判定発話対における疑問符の使用頻度を調査 • 会話関係が成立している1万の発話対を対象 • 疑問符が使用されている発話対は全体の約 25%(2650対) • ツイートと返信のどちらにも疑問符が使用され
ている発話対は全体の約2%(242対) 対話関係が成立している場合、疑問の応答に対して疑問を用いていないことが確認できた

補足資料：内容語・未知語クラスタリング発話対内の未知語の出現頻度を調査 • Twitterから獲得した1万の発話対を対象 • MeCabを用いて形態素解析を行い、未知語の出現数をカウント • 結果、約2万語の未知語が存在
Twitterにおける未知語は重要な要素であるクラスタリングの際に使用したWeb日本語Nグラムの7-gramデータは約500万文

補足資料：データクラスタリングツール「bayon」 • クラスタリング手法としてRepeated Bisection法を採用 • Repeated Bisectionでは以下の1-4の処理を繰り返し実行することでクラスタリングを行う 1.
分割するクラスタを選択(一番クラスタ内のまとまりが悪いものを選択) 2. クラスタ中からランダムに2つ要素を選択し、それぞれを格納したクラスタを作成 3. 元のクラスタ中の全ての要素に対し、2で選んだ要素との類似度を求め、類似度が高い方のクラスタに要素を追加する 4. 2クラスタ間で要素の移動を行い、分割結果の洗練を行う(移動できる要素がなくなるまで続ける) 引用ページ：「mixi Engineers' Blog » 軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049

補足資料：LIBSVM • 台湾国立大学のLinらによって作成されたSVMのライブラリ • 設定はデフォルトのままで使用 SVMのタイプ：C-SVC カーネル関数のタイプ：RBF(radial basis function)
exp(-gamma*|u-v|^2) • 他のSVMタイプとしてnu-SVC、one-class SVM、 epsilon-SVR、nu-SVRが選択可能 • 他のカーネル関数として線形、多項式、シグモイドが選択可能

補足資料：使用データの詳細 • SVM用の学習データ正例データ1万対負例データ1万対 • 判別実験の評価データ正例データ1万対負例データ1万対正例データ：二文間の対話関係が成立している発話対
負例データ：二文間の対話関係が成立していない発話対

補足資料：使用データの作成方法

補足資料：可否判別実験の結果 • 提案した各素性を用いた結果はいずれもベースラインを下回ってしまった • 素性の組合せによる影響を確認することができなかった ※ SVMによる学習データを正例・負例データ 10万対に変更して同様の実験を行ってみた
が結果は変わらなかった

関連研究 • 複数の対話システムからの応答候補文を用いた最適応答文選択手法の性能評価 [今井，2010] 対話システムにより生成された応答の中から最適なものを選択する • 語の共起情報を用いた非タスク指向型対話エージェントの評価
[稲葉， 2009] 共起語対を発話間に含むかで対話エージェントの評価を行っている

文字対話における対話関係成立の可否判別

文字対話における対話関係成立の可否判別

自然言語処理研究室

More Decks by 自然言語処理研究室

Other Decks in Research

Featured

Transcript