Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文字対話における対話関係成立の可否判別
Search
自然言語処理研究室
March 31, 2012
Research
1
65
文字対話における対話関係成立の可否判別
三ノ宮和俊, 山本和英. 文字対話における対話関係成立の可否判別. 言語処理学会第18回年次大会, pp.831-834 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
360
データサイエンス13_解析.pdf
jnlp
0
420
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
120
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
79
自然言語処理研究室 研究概要(2014年)
jnlp
0
93
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
精度を無視しない推薦多様化の評価指標
kuri8ive
1
290
Neural Fieldの紹介
nnchiba
1
420
Global Evidence Summit (GES) 参加報告
daimoriwaki
0
190
尺度開発における質的研究アプローチ(自主企画シンポジウム7:認知行動療法における尺度開発のこれから)
litalicolab
0
360
メールからの名刺情報抽出におけるLLM活用 / Use of LLM in extracting business card information from e-mails
sansan_randd
2
270
チュートリアル:Mamba, Vision Mamba (Vim)
hf149
5
1.7k
ECCV2024読み会: Minimalist Vision with Freeform Pixels
hsmtta
1
310
RSJ2024「基盤モデルの実ロボット応用」チュートリアルA(河原塚)
haraduka
3
700
The Fellowship of Trust in AI
tomzimmermann
0
160
Weekly AI Agents News! 11月号 プロダクト/ニュースのアーカイブ
masatoto
0
220
VisFocus: Prompt-Guided Vision Encoders for OCR-Free Dense Document Understanding
sansan_randd
1
350
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
210
Featured
See All Featured
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
26
1.5k
KATA
mclloyd
29
14k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
365
25k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
95
17k
We Have a Design System, Now What?
morganepeng
51
7.3k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
6
450
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
132
33k
Java REST API Framework Comparison - PWX 2021
mraible
28
8.3k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
33
2k
The Language of Interfaces
destraynor
154
24k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Transcript
文字対話における対話関係 成立の可否判別 長岡技術科学大学 電気系 自然言語処理研究室 三ノ宮和俊 山本和英
目的 • 自然言語処理の文生成分野において、自然 な対話文を自動的に生成することは困難 • 対話の精度を向上させることが課題として挙 げられる 1 別々の人間によって作成された二つの文が 対話として成立しているかどうかを自動的に
判別することを目的とした
文字対話とは • Web上のテキストで行われた人間同士の話の やりとりを文字対話とし、対話情報として使用 • 文字対話はTwitterより収集 2 文字対話の例 ツイートの内容:九時むりぽよ。今起きたなう。 返信の内容:
私もいま起きた。 一つの「ツイート」と「返信」の対を発話対とし、 文字対話として扱っている
対話関係の可否判別までの流れ • 対話関係の可否判別を行うことは、二値判定 の問題として扱うことができる • 以下の三つの要素を素性とし、対話関係の 可否判別を行った 3 A) 語の共起情報
B) 対象発話対の疑問判定 C) 内容語・未知語クラスタリング
(A) 語の共起情報 発話対内に共起しやすい単語が存在するか によって、対話関係の可否判別を行う素性 • Twitterより収集した約20万の発話対より獲得 • 共起情報は対数尤度比として使用 • 品詞が名詞、動詞、形容詞、未知語である語
の組合せについて対数尤度比を算出 • 形態素解析器として「MeCab」を使用 4
対数尤度比の算出方法 各変数の説明 a: 語Aがツイート文、語Bが返信文に存在する場合の発話対の数 b: 語Aがツイート文に存在し、語Bが返信文に存在しない場合の 発話対の数 c: 語Bが返信文に存在し、語Aがツイート文に存在しない場合の 発話対の数
d: 語Aも語Bも存在しない場合の発話対の数 N: 対数尤度比算出の際に使用した全発話対の数 5 d c d b dN d d c c a cN c d b b a bN b c a b a aN a LLR log log log log
語Aと語Bについての対数尤度比 語A 語B a b c d N LLR 例1
旅行 ハワイ 1 190 16 181924 182131 3.076 例2 大学 研究 2 324 100 181705 182131 2.991 例3 腹痛 良い 1 67 29232 179141 182131 0.004 6
(B) 対象発話対の疑問判定 7 疑問や質問に対する応答によって対話関係の 可否判別を行う素性 • 文字対話における疑問判定の素性は以下の ように仮定 • 疑問であるか否かの判定は文内の疑問符の
有無で行った ツイートが疑問ではない場合 ツイートが疑問ある場合 返信が疑問でない場合 素性として1を付与 素性として1を付与 返信が疑問である場合 素性として1を付与 素性として0を付与
(C) 内容語・未知語クラスタリング 語のクラスタリング結果を用いて対話関係の 可否判別を行う素性 • コーパスとしてWeb日本語Nグラムの7-gram データを使用 • 形態素解析器として「MeCab」を使用 •
データクラスタリングツール「bayon」を使用 • 品詞が名詞、動詞、形容詞、未知語である語 のクラスタリングを行った 8
9 語のクラスタを作成する際に使用するデータ
対話関係の可否判別実験 • ベースラインは内容語の一致で判別した結果 • 判別の際に使用する素性が一つの場合、そ の素性の有無で適合率を算出 • 素性の組み合わせはLIBSVMを使用して 行った •
学習データと評価データにはそれぞれ2万の 発話対を使用 (正例データ1万対、負例データ1万対) 10
可否判別実験の結果 使用した 素性情報 正例データに 関する適合率 負例データに 関する適合率 全体の適合率 ベースライン 0.395
0.885 0.640 (A) 0.441 0.711 0.576 (B) 0.982 0.021 0.502 (C) 0.097 0.935 0.516 (A)(B) 0.441 0.711 0.576 (A)(C) 0.441 0.711 0.576 (B)(C) 0.113 0.915 0.514 (A)(B)(C) 0.441 0.711 0.576 11
語の共起情報でのみ 対話関係を正確に判別できた例 12 例1 ツイート:面接終わった 返信: お疲れおかえり! 例2 ツイート:うっし寝るかー。 おやすみなさーい!
返信: おやすみなさいませ 良き夢を 「終わる⇔つかれる」の 共起情報により正例と判別 「寝る⇔夢」の 共起情報により 正例と判別
対象発話対の疑問判定で 対話関係を正確に判別できた例 13 例1 ツイート:大丈夫?? 返信: 何てお店?? 例2 ツイート:どんな雑誌に載ったの? 大阪でも売ってる雑誌?
返信: 目が覚めたか? 疑問符がどちらにも あるため負例と判別 疑問符がどちらにも あるため負例と判別
内容語・未知語クラスタリングでのみ 対話関係を正確に判別できた例 14 例 ツイート:うちはガラケーのテザリングつかってipodを ネットにつないでるのですよ 1個にしたいw 返信: なるほどそれは一つにしたほが楽ですねぇ。 うちはドコモのAndroidですが、あまりストレス
なく使えますよ。 「ネット⇔ドコモ」 「ネット⇔Android」 「ネット⇔使える」が同じクラスタに 属している情報より正例と判別
おわりに • 文字対話について対話が成立しているか否 かの可否判別を自動的に行う方法を提案 • 三つの要素を素性として用いたが、判別実験 でベースラインを上回ることはできなかった • 複数の素性を組合せた場合の影響を確認す ることはできなかった
• 各素性によって可否判別が適切に行われて いる発話対に違いはあった • 三つの素性は対話の可否判別に効果はある 15
補足資料:Twitterを用いた文字対話 • Twitterの「ツイート」と「返信」の関係に着目 • ある人間の「ツイート」に対して、別の人間が 「返信」を行っている 「ツイート」と「返信」の関係は人間同士の対話 が成立している関係にあると仮定できる
補足資料:素性について • 素性として語の共起情報を用いた理由 発話対内に共起しやすい単語が存在した場合、 その発話対は対話として関係にあると期待できるから • 素性として対象発話対の疑問判定を用いた理由 疑問や質問を相手に問いかけた場合、その問いに 対する応答が相手から返ってくることが期待できるから •
素性として内容語・未知語クラスタリングを用いた理由 対話関係の判別において、語の関連性が有効である と考えたから
補足資料:各素性の付与方法 (A) 語の共起情報 判別対象の二文内の全ての内容語対について 対数尤度比を算出し、閾値を超える対があるか (B) 対象発話対の疑問判定 判定対象の二文のどちらにも疑問符があるか (C) 内容語・未知語クラスタリング
判定対象の二文内の内容語と未知語について 同じクラスタに属する語があるか
補足資料: 対象発話対の疑問判定 発話対における疑問符の使用頻度を調査 • 会話関係が成立している1万の発話対を対象 • 疑問符が使用されている発話対は全体の約 25%(2650対) • ツイートと返信のどちらにも疑問符が使用され
ている発話対は全体の約2%(242対) 対話関係が成立している場合、疑問の応答に対 して疑問を用いていないことが確認できた
補足資料: 内容語・未知語クラスタリング 発話対内の未知語の出現頻度を調査 • Twitterから獲得した1万の発話対を対象 • MeCabを用いて形態素解析を行い、未知語 の出現数をカウント • 結果、約2万語の未知語が存在
Twitterにおける未知語は重要な要素である クラスタリングの際に使用したWeb日本語Nグラム の7-gramデータは約500万文
補足資料: データクラスタリングツール「bayon」 • クラスタリング手法としてRepeated Bisection法を採用 • Repeated Bisectionでは以下の1-4の処理を繰り返し実行することでクラスタリ ングを行う 1.
分割するクラスタを選択(一番クラスタ内のまとまりが悪いものを選択) 2. クラスタ中からランダムに2つ要素を選択し、それぞれを格納したクラスタを 作成 3. 元のクラスタ中の全ての要素に対し、2で選んだ要素との類似度を求め、類 似度が高い方のクラスタに要素を追加する 4. 2クラスタ間で要素の移動を行い、分割結果の洗練を行う(移動できる要素が なくなるまで続ける) 引用ページ:「mixi Engineers' Blog » 軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049
補足資料:LIBSVM • 台湾国立大学のLinらによって作成されたSVMのラ イブラリ • 設定はデフォルトのままで使用 SVMのタイプ:C-SVC カーネル関数のタイプ:RBF(radial basis function)
exp(-gamma*|u-v|^2) • 他のSVMタイプとしてnu-SVC、one-class SVM、 epsilon-SVR、nu-SVRが選択可能 • 他のカーネル関数として線形、多項式、シグモイドが 選択可能
補足資料:使用データの詳細 • SVM用の学習データ 正例データ1万対 負例データ1万対 • 判別実験の評価データ 正例データ1万対 負例データ1万対 正例データ:二文間の対話関係が成立している発話対
負例データ:二文間の対話関係が成立していない発話対
補足資料:使用データの作成方法
補足資料:可否判別実験の結果 • 提案した各素性を用いた結果はいずれも ベースラインを下回ってしまった • 素性の組合せによる影響を確認することがで きなかった ※ SVMによる学習データを正例・負例データ 10万対に変更して同様の実験を行ってみた
が結果は変わらなかった
関連研究 • 複数の対話システムからの応答候補文を用 いた最適応答文選択手法の性能評価 [今井,2010] 対話システムにより生成された応答の中から 最適なものを選択する • 語の共起情報を用いた非タスク指向型対話 エージェントの評価
[稲葉, 2009] 共起語対を発話間に含むかで対話エージェント の評価を行っている