Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
文字対話における対話関係成立の可否判別
Search
自然言語処理研究室
March 31, 2012
Research
1
63
文字対話における対話関係成立の可否判別
三ノ宮和俊, 山本和英. 文字対話における対話関係成立の可否判別. 言語処理学会第18回年次大会, pp.831-834 (2012.3)
自然言語処理研究室
March 31, 2012
Tweet
Share
More Decks by 自然言語処理研究室
See All by 自然言語処理研究室
データサイエンス14_システム.pdf
jnlp
0
350
データサイエンス13_解析.pdf
jnlp
0
410
データサイエンス12_分類.pdf
jnlp
0
310
データサイエンス11_前処理.pdf
jnlp
0
430
Recurrent neural network based language model
jnlp
0
110
自然言語処理研究室 研究概要(2012年)
jnlp
0
110
自然言語処理研究室 研究概要(2013年)
jnlp
0
77
自然言語処理研究室 研究概要(2014年)
jnlp
0
90
自然言語処理研究室 研究概要(2015年)
jnlp
0
150
Other Decks in Research
See All in Research
Leveraging LLMs for Unsupervised Dense Retriever Ranking (SIGIR 2024)
kampersanda
2
220
言語処理学会30周年記念事業留学支援交流会@YANS2024:「学生のための短期留学」
a1da4
1
250
論文紹介: COSMO: A Large-Scale E-commerce Common Sense Knowledge Generation and Serving System at Amazon (SIGMOD 2024)
ynakano
1
110
LLM時代にLabは何をすべきか聞いて回った1年間
hargon24
1
510
[依頼講演] 適応的実験計画法に基づく効率的無線システム設計
k_sato
0
150
MIRU2024チュートリアル「様々なセンサやモダリティを用いたシーン状態推定」
miso2024
4
2.2k
CoRL2024サーベイ
rpc
1
770
クロスセクター効果研究会 熊本都市交通リノベーション~「車1割削減、渋滞半減、公共交通2倍」の実現へ~
trafficbrain
0
260
精度を無視しない推薦多様化の評価指標
kuri8ive
1
260
EBPMにおける生成AI活用について
daimoriwaki
0
210
文化が形作る音楽推薦の消費と、その逆
kuri8ive
0
180
「並列化時代の乱数生成」
abap34
3
850
Featured
See All Featured
Become a Pro
speakerdeck
PRO
25
5k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.3k
Code Review Best Practice
trishagee
64
17k
RailsConf 2023
tenderlove
29
910
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
31
2.7k
Embracing the Ebb and Flow
colly
84
4.5k
The Cost Of JavaScript in 2023
addyosmani
45
6.8k
Save Time (by Creating Custom Rails Generators)
garrettdimon
PRO
27
870
"I'm Feeling Lucky" - Building Great Search Experiences for Today's Users (#IAC19)
danielanewman
226
22k
4 Signs Your Business is Dying
shpigford
181
21k
Mobile First: as difficult as doing things right
swwweet
222
8.9k
Product Roadmaps are Hard
iamctodd
PRO
49
11k
Transcript
文字対話における対話関係 成立の可否判別 長岡技術科学大学 電気系 自然言語処理研究室 三ノ宮和俊 山本和英
目的 • 自然言語処理の文生成分野において、自然 な対話文を自動的に生成することは困難 • 対話の精度を向上させることが課題として挙 げられる 1 別々の人間によって作成された二つの文が 対話として成立しているかどうかを自動的に
判別することを目的とした
文字対話とは • Web上のテキストで行われた人間同士の話の やりとりを文字対話とし、対話情報として使用 • 文字対話はTwitterより収集 2 文字対話の例 ツイートの内容:九時むりぽよ。今起きたなう。 返信の内容:
私もいま起きた。 一つの「ツイート」と「返信」の対を発話対とし、 文字対話として扱っている
対話関係の可否判別までの流れ • 対話関係の可否判別を行うことは、二値判定 の問題として扱うことができる • 以下の三つの要素を素性とし、対話関係の 可否判別を行った 3 A) 語の共起情報
B) 対象発話対の疑問判定 C) 内容語・未知語クラスタリング
(A) 語の共起情報 発話対内に共起しやすい単語が存在するか によって、対話関係の可否判別を行う素性 • Twitterより収集した約20万の発話対より獲得 • 共起情報は対数尤度比として使用 • 品詞が名詞、動詞、形容詞、未知語である語
の組合せについて対数尤度比を算出 • 形態素解析器として「MeCab」を使用 4
対数尤度比の算出方法 各変数の説明 a: 語Aがツイート文、語Bが返信文に存在する場合の発話対の数 b: 語Aがツイート文に存在し、語Bが返信文に存在しない場合の 発話対の数 c: 語Bが返信文に存在し、語Aがツイート文に存在しない場合の 発話対の数
d: 語Aも語Bも存在しない場合の発話対の数 N: 対数尤度比算出の際に使用した全発話対の数 5 d c d b dN d d c c a cN c d b b a bN b c a b a aN a LLR log log log log
語Aと語Bについての対数尤度比 語A 語B a b c d N LLR 例1
旅行 ハワイ 1 190 16 181924 182131 3.076 例2 大学 研究 2 324 100 181705 182131 2.991 例3 腹痛 良い 1 67 29232 179141 182131 0.004 6
(B) 対象発話対の疑問判定 7 疑問や質問に対する応答によって対話関係の 可否判別を行う素性 • 文字対話における疑問判定の素性は以下の ように仮定 • 疑問であるか否かの判定は文内の疑問符の
有無で行った ツイートが疑問ではない場合 ツイートが疑問ある場合 返信が疑問でない場合 素性として1を付与 素性として1を付与 返信が疑問である場合 素性として1を付与 素性として0を付与
(C) 内容語・未知語クラスタリング 語のクラスタリング結果を用いて対話関係の 可否判別を行う素性 • コーパスとしてWeb日本語Nグラムの7-gram データを使用 • 形態素解析器として「MeCab」を使用 •
データクラスタリングツール「bayon」を使用 • 品詞が名詞、動詞、形容詞、未知語である語 のクラスタリングを行った 8
9 語のクラスタを作成する際に使用するデータ
対話関係の可否判別実験 • ベースラインは内容語の一致で判別した結果 • 判別の際に使用する素性が一つの場合、そ の素性の有無で適合率を算出 • 素性の組み合わせはLIBSVMを使用して 行った •
学習データと評価データにはそれぞれ2万の 発話対を使用 (正例データ1万対、負例データ1万対) 10
可否判別実験の結果 使用した 素性情報 正例データに 関する適合率 負例データに 関する適合率 全体の適合率 ベースライン 0.395
0.885 0.640 (A) 0.441 0.711 0.576 (B) 0.982 0.021 0.502 (C) 0.097 0.935 0.516 (A)(B) 0.441 0.711 0.576 (A)(C) 0.441 0.711 0.576 (B)(C) 0.113 0.915 0.514 (A)(B)(C) 0.441 0.711 0.576 11
語の共起情報でのみ 対話関係を正確に判別できた例 12 例1 ツイート:面接終わった 返信: お疲れおかえり! 例2 ツイート:うっし寝るかー。 おやすみなさーい!
返信: おやすみなさいませ 良き夢を 「終わる⇔つかれる」の 共起情報により正例と判別 「寝る⇔夢」の 共起情報により 正例と判別
対象発話対の疑問判定で 対話関係を正確に判別できた例 13 例1 ツイート:大丈夫?? 返信: 何てお店?? 例2 ツイート:どんな雑誌に載ったの? 大阪でも売ってる雑誌?
返信: 目が覚めたか? 疑問符がどちらにも あるため負例と判別 疑問符がどちらにも あるため負例と判別
内容語・未知語クラスタリングでのみ 対話関係を正確に判別できた例 14 例 ツイート:うちはガラケーのテザリングつかってipodを ネットにつないでるのですよ 1個にしたいw 返信: なるほどそれは一つにしたほが楽ですねぇ。 うちはドコモのAndroidですが、あまりストレス
なく使えますよ。 「ネット⇔ドコモ」 「ネット⇔Android」 「ネット⇔使える」が同じクラスタに 属している情報より正例と判別
おわりに • 文字対話について対話が成立しているか否 かの可否判別を自動的に行う方法を提案 • 三つの要素を素性として用いたが、判別実験 でベースラインを上回ることはできなかった • 複数の素性を組合せた場合の影響を確認す ることはできなかった
• 各素性によって可否判別が適切に行われて いる発話対に違いはあった • 三つの素性は対話の可否判別に効果はある 15
補足資料:Twitterを用いた文字対話 • Twitterの「ツイート」と「返信」の関係に着目 • ある人間の「ツイート」に対して、別の人間が 「返信」を行っている 「ツイート」と「返信」の関係は人間同士の対話 が成立している関係にあると仮定できる
補足資料:素性について • 素性として語の共起情報を用いた理由 発話対内に共起しやすい単語が存在した場合、 その発話対は対話として関係にあると期待できるから • 素性として対象発話対の疑問判定を用いた理由 疑問や質問を相手に問いかけた場合、その問いに 対する応答が相手から返ってくることが期待できるから •
素性として内容語・未知語クラスタリングを用いた理由 対話関係の判別において、語の関連性が有効である と考えたから
補足資料:各素性の付与方法 (A) 語の共起情報 判別対象の二文内の全ての内容語対について 対数尤度比を算出し、閾値を超える対があるか (B) 対象発話対の疑問判定 判定対象の二文のどちらにも疑問符があるか (C) 内容語・未知語クラスタリング
判定対象の二文内の内容語と未知語について 同じクラスタに属する語があるか
補足資料: 対象発話対の疑問判定 発話対における疑問符の使用頻度を調査 • 会話関係が成立している1万の発話対を対象 • 疑問符が使用されている発話対は全体の約 25%(2650対) • ツイートと返信のどちらにも疑問符が使用され
ている発話対は全体の約2%(242対) 対話関係が成立している場合、疑問の応答に対 して疑問を用いていないことが確認できた
補足資料: 内容語・未知語クラスタリング 発話対内の未知語の出現頻度を調査 • Twitterから獲得した1万の発話対を対象 • MeCabを用いて形態素解析を行い、未知語 の出現数をカウント • 結果、約2万語の未知語が存在
Twitterにおける未知語は重要な要素である クラスタリングの際に使用したWeb日本語Nグラム の7-gramデータは約500万文
補足資料: データクラスタリングツール「bayon」 • クラスタリング手法としてRepeated Bisection法を採用 • Repeated Bisectionでは以下の1-4の処理を繰り返し実行することでクラスタリ ングを行う 1.
分割するクラスタを選択(一番クラスタ内のまとまりが悪いものを選択) 2. クラスタ中からランダムに2つ要素を選択し、それぞれを格納したクラスタを 作成 3. 元のクラスタ中の全ての要素に対し、2で選んだ要素との類似度を求め、類 似度が高い方のクラスタに要素を追加する 4. 2クラスタ間で要素の移動を行い、分割結果の洗練を行う(移動できる要素が なくなるまで続ける) 引用ページ:「mixi Engineers' Blog » 軽量データクラスタリングツールbayon」 http://alpha.mixi.co.jp/blog/?p=1049
補足資料:LIBSVM • 台湾国立大学のLinらによって作成されたSVMのラ イブラリ • 設定はデフォルトのままで使用 SVMのタイプ:C-SVC カーネル関数のタイプ:RBF(radial basis function)
exp(-gamma*|u-v|^2) • 他のSVMタイプとしてnu-SVC、one-class SVM、 epsilon-SVR、nu-SVRが選択可能 • 他のカーネル関数として線形、多項式、シグモイドが 選択可能
補足資料:使用データの詳細 • SVM用の学習データ 正例データ1万対 負例データ1万対 • 判別実験の評価データ 正例データ1万対 負例データ1万対 正例データ:二文間の対話関係が成立している発話対
負例データ:二文間の対話関係が成立していない発話対
補足資料:使用データの作成方法
補足資料:可否判別実験の結果 • 提案した各素性を用いた結果はいずれも ベースラインを下回ってしまった • 素性の組合せによる影響を確認することがで きなかった ※ SVMによる学習データを正例・負例データ 10万対に変更して同様の実験を行ってみた
が結果は変わらなかった
関連研究 • 複数の対話システムからの応答候補文を用 いた最適応答文選択手法の性能評価 [今井,2010] 対話システムにより生成された応答の中から 最適なものを選択する • 語の共起情報を用いた非タスク指向型対話 エージェントの評価
[稲葉, 2009] 共起語対を発話間に含むかで対話エージェント の評価を行っている