グラフ畳み込みネットワークを用いた対話関係性抽出

グラフ畳み込みネットワークに基づく対話関係性抽出林貴斗，岡田将吾（北陸先端科学技術大学院大学） 2022 年 6 月 15 日 2022 年度
人工知能学会全国大会

概要 ▶ 対話内容から話者間の関係性を推定する対話関係性抽出は，自然言語理解における重要な研究の一つである． 1/50

概要 ▶ 実際の対話においては，話者間の関係性を明示的に示す発話（”Hey, Mam!” など）が含まれることは少ない． ▶ 複数発話に跨がる暗黙的な情報（雰囲気，トピックなど）をもとに関係性を推察する必要がある． ▶ これを実現するために，対話関係性抽出のためのグラフ畳み込みネッ
トワークである Dialogue Relation Extraction - Graph Convolutional Network（DRE-GCN）を提案する． 2/50

動機応用先イベントや飲食店における利用者の自動分析や関係性を考慮した対話翻訳．課題
対話関係性抽出に関する研究はまだ少なく，既存の手法も対話の文脈情報を十分に活用できていない． 5/50

動機応用先イベントや飲食店における利用者の自動分析や関係性を考慮した対話翻訳．課題
対話関係性抽出に関する研究はまだ少なく，既存の手法も対話の文脈情報を十分に活用できていない． 6/50

目的目的対話文脈のモデル化を通して，複数発話に跨がる暗黙的な情報を対話関係性抽出に利用する． 7/50

目的目的対話文脈のモデル化を通して，複数発話に跨がる暗黙的な情報を対話関係性抽出に利用する． ▶ 対話文脈のモデル化のために，対話状況おける感情分類で有効性が示
されているDialogueGCN[2] を対話関係性抽出に応用する． 8/50

方法タスクの定義対話テキストから話者間の関係性を推定する． 9/50

方法タスクの定義対話テキストから話者間の関係性を推定する． ▶ n 個の発話
u の系列 (u1, u2, · · · , un ) で構成される対話を Dとする．また，モデルの話者間の関係性の予測を ¯ yとすると，タスクは次式で表せる． ¯ y = f(D) (1) 10/50

方法図 1 DRE-GCN の全体図 DRE-GCN は，（a）発話埋め込み表現の獲得，（b）対話文脈のモデル化，（c）対話埋め込み表現の獲得とクラス分類の3
つの要素で構成されている． 11/50

方法図 2 sentence-BERT （a）発話埋め込み表現の獲得 ▶ 発話の意味的な埋め込み表現を獲得するために，sentence-BERT[5] を使用する． ▶
ある対話の i 番目の発話を ui とすると，発話埋め込み表現 gi ∈ Rg は次式で導出される. gi = sentenceBERT(ui ) (2) 12/50

方法図 2 sentence-BERT （a）発話埋め込み表現の獲得 ▶ 発話の意味的な埋め込み表現を獲得するために，sentence-BERT[5] を使用する． ▶
ある対話の i 番目の発話を ui とすると，発話埋め込み表現 gi ∈ Rg は次式で導出される. gi = sentenceBERT(ui ) (2) 13/50

方法図 3 対話グラフ（b）対話文脈のモデル化（1/4） G（対話グラフ）対話を有向グラフG =
(V, E, W, R) で表す. V（ノードの集合）ノードは，発話 gi を示し，gi ∈ V が成り立つ． E（エッジの集合） gi から gj に向かうエッジを vij とすると，vij ∈ E が成り立つ． 14/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（1/4） G（対話グラフ）対話を有向グラフ G
= (V, E, W, R) で表す. V（ノードの集合）ノードは，発話gi を示し，gi ∈ V が成り立つ． E（エッジの集合） gi から gj に向かうエッジを vij とすると，vij ∈ E が成り立つ． 15/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（1/4） G（対話グラフ）対話を有向グラフ G
= (V, E, W, R) で表す. V（ノードの集合）ノードは，発話 gi を示し，gi ∈ V が成り立つ． E（エッジの集合） gi から gj に向かうエッジを vij とすると，vij ∈ E が成り立つ． 16/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（1/4） W（エッジの重みの集合）エッジの重みは，ノード（発話）ごとにアテンションに基づいて決定する．
▶ 各ノード（発話）に向かってくるエッジの重みの総和は 1 である． αij = softmax(gT i We [gi−p , · · · , gi+f ]) (3) for j = i − p, · · · , i + f ただし，We ∈ Rg，αij ∈ R である． 17/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（2/4） W（エッジの重みの集合）エッジの重みは，ノード（発話）ごとにアテンションに基づいて決定する．
18/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（3/4） R（エッジの種類） vij のエッジの種類を
rij とすると，rij ∈ R が成り立つ．発話間の話者関係：同じ話者，異なる話者発話間の時系列関係：未来から過去，過去から未来 19/50

方法図 4 グラフ畳み込み（b）対話文脈のモデル化（3/4） R（エッジの種類） vij のエッジの種類を
rij とすると，rij ∈ R が成り立つ．発話間の話者関係：同じ話者，異なる話者発話間の時系列関係：未来から過去，過去から未来 20/50

方法（b）対話文脈のモデル化（4/4） ▶ 2 回の畳み込みによって，ノード（発話）にはエッジの種類に応じて周辺発話の情報が伝えられるため，それぞれの発話は文脈情報を獲得する． h(1) i =
σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(1) r gi + αii W(1) 0 gi ) (4) h(2) i = σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(2) r h(1) i + αii W(2) 0 h(1) i ) (5) ▶ ここで，Nr i は，i 番目の発話と関係 r で接続されている発話の集合である．また，ci,r は |Nr i |，σ は ReLU 関数，W(1) ∈ Rg，W(1) ∈ Rh2 は学習パラメータを示す．さらに，h(1) i ∈ Rh1，h(2) i ∈ Rh2 である． 21/50

方法（b）対話文脈のモデル化（4/4） ▶ 2 回の畳み込みによって，ノード（発話）にはエッジの種類に応じて周辺発話の情報が伝えられるため，それぞれの発話は文脈情報を獲得する． h(1) i =
σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(1) r gi + αii W(1) 0 gi ) (4) h(2) i = σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(2) r h(1) i + αii W(2) 0 h(1) i ) (5) ▶ ここで，Nr i は，i 番目の発話と関係 r で接続されている発話の集合である．また，ci,r は |Nr i |，σ は ReLU 関数，W(1) ∈ Rg，W(1) ∈ Rh2 は学習パラメータを示す．さらに，h(1) i ∈ Rh1，h(2) i ∈ Rh2 である． 22/50

方法（c）対話埋め込み表現の獲得と関係性クラス分類（1/2）図 5 max pooling ▶プーリング処理によって，発話埋め込み表現から対話埋め込み表現を獲得する． ▶ 対話埋め込み表現
d ∈ Rd の獲得を次の式で表す． dmax = MaxPooling(h1, h2, · · · , hn ) (6) dmin = MinPooling(h1, h2, · · · , hn ) (7) d = dmax ⊕ dmin (8) ここで，⊕ はベクトル同士の連結を示す．また，dmax ∈ Rdmax，dmin ∈ Rdmin，d = dmax + dmin である． 23/50

方法（c）対話埋め込み表現の獲得と関係性クラス分類（2/2） ▶ 対話埋め込み表現 d を入力とした4 層全結合型ニューラルネットワークで関係性を推定する．図 6
関係性分類 l(1) = ReLU(W(1) l d + b(1) l ) (9) l(2) = ReLU(W(2) l l(1) + b(2) l ) (10) P = softmax(Wsmax l(2) + bsmax ) (11) ˆ y = argmax k (Pi [k]) (12) ただし，W(1) ∈ Rl1×d，W(2) ∈ Rl2×l1，l(1), b(1) ∈ Rl1，l(2), b(2) ∈ Rl2． 24/50

方法損失関数 ▶ L2 正則化された交差エントロピー誤差を用いる． ▶ N を全対話数，P を i
番目の対話の関係性ラベルに対するモデルの予測確率，[yi ] を i 番目の対話の正解ラベル，λ を L2 正則化の重みパラメータ，θ をすべての学習パラメータとすると，損失関数は次の式で表せる． L = − N ∑ i=1 log Pi [yi ] + λ∥θ∥2 (13) 25/50

実験 4 class 6 class 13 class Family Elder -
Junior Child - Parent Child - Other Family Elder Family Peer Siblings Spouse Intimacy Intimacy Lovers Courtship Others Peer Friends Neighbors Roommates Official Elder - Junior Workplace Superior - Subordinate Official Peer Colleague / Partners Opponents Professional Contact 表 1 関係性分類 DDRel データセット [3] ▶ 映画の脚本から収集された 6300 対話を含む． ▶ 全ての対話に対して，粒度の異なる 3 種類の関係性がアノテーションされている． 26/50

実験実験設定 ▶ ハイパーパラメータの設定等は補足に記載． ▶ early-stopping なしで 30epoch 学習した後に，検証用データに対して，最も高い
F1-macro（精度）が得られた epoch のモデルを選んで評価する． 27/50

実験比較手法図 7 BERT の Fine-tuning モデル ▶ 先行研究
[3] と同様に，CNN[4]，LSTM[6]，BERT[1] をベースラインとする． ▶ LSTM と BERT は，時系列性を考慮できているものの，発話の話者情報を使用していない． 28/50

実験比較手法図 7 BERT の Fine-tuning モデル ▶ 先行研究
[3] と同様に，CNN[4]，LSTM[6]，BERT[1] をベースラインとする． ▶ LSTM と BERT は，時系列性を考慮できているものの，発話の話者情報を使用していない． 29/50

結果 model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority 　 31.00 11.80 31.00 7.90 28.50 3.20 Human 　 56.00 55.20 50.00 53.00 38.50 40.75 CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN（GCN なし） 43.28 38.82 36.23 32.49 33.93 12.87 表 2 DDRel データセットに対する実験結果 30/50

結果（人間評価との比較） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority 　 31.00 11.80 31.00 7.90 28.50 3.20 Human 　 56.00 55.20 50.00 53.00 38.50 40.75 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN と人間評価 ▶ Majority および Random 予測を大きく上回った． ▶ 人間にとっても難しいタスク． 31/50

結果（人間評価との比較） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority 　 31.00 11.80 31.00 7.90 28.50 3.20 Human 　 56.00 55.20 50.00 53.00 38.50 40.75 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN と人間評価 ▶ Majority および Random 予測を大きく上回った． ▶ 人間にとっても難しいタスク． 32/50

結果（モデル間比較） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN とベースライン ▶ DRE-GCN は，全ての指標で，CNN および LSTM を大幅に上回った．しかし，BERT のスコアを改善するには至らなかった. ▶ DRE-GCN は，BERT の精度を平均 0.98 ポイント下回り，F1-macro を平均 1.79 ポイント下回った． 33/50

結果（モデル間比較） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN とベースライン ▶ DRE-GCN は，全ての指標で，CNN および LSTM を大幅に上回った．しかし，BERT のスコアを改善するには至らなかった. ▶ DRE-GCN は，BERT の精度を平均 0.98 ポイント下回り，F1-macro を平均 1.79 ポイント下回った． 34/50

考察（DRE-GCN と BERT） model 4 class 6 class 13 class
Acc F1-macro Acc F1-macro Acc F1-macro BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 4 DRE-GCN と BERT ▶ DRE-GCN は，BERT の改善には失敗したが，BERT と近い値のスコアを得られた． ▶ 一定程度，複数発話に跨って表出する関係性タイプの特性を捉える対話埋め込み表現の獲得に成功したと考えられる． 35/50

考察（DRE-GCN と BERT） model 4 class 6 class 13 class
Acc F1-macro Acc F1-macro Acc F1-macro BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 4 DRE-GCN と BERT ▶ DRE-GCN は，BERT の改善には失敗したが，BERT と近い値のスコアを得られた． ▶ 一定程度，複数発話に跨って表出する関係性タイプの特性を捉える対話埋め込み表現の獲得に成功したと考えられる． 36/50

考察（グラフ畳み込みの有無） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN（GCN なし） 43.28 38.82 36.23 32.49 33.93 12.87 表 5 グラフ畳み込みの有無と精度変化 ▶ 畳み込みの貢献を確認するため，DRE-GCN からグラフ畳み込みネットワークを取り除いたモデルの F1-macro（精度）を算出した． ▶ DRE-GCN は，全ての指標で，畳み込みネットワークを取り除いた DRE-GCN のスコアを上回った．具体的には，精度で平均 4.0 ポイント上回り，F1-macro で平均 4.9 ポイント上回った． 37/50

考察（グラフ畳み込みの有無） model 4 class 6 class 13 class Acc F1-macro
Acc F1-macro Acc F1-macro DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN（GCN なし） 43.28 38.82 36.23 32.49 33.93 12.87 表 5 グラフ畳み込みの有無と精度変化 ▶ 畳み込みの貢献を確認するため，DRE-GCN からグラフ畳み込みネットワークを取り除いたモデルの F1-macro（精度）を算出した． ▶ DRE-GCNは，全ての指標で，畳み込みネットワークを取り除いた DRE-GCN のスコアを上回った．具体的には，精度で平均 4.0 ポイント上回り，F1-macro で平均 4.9 ポイント上回った． 38/50

考察（ウィンドウサイズ） Window Size 4 class 6 class 13 class Acc
F1-macro Acc F1-macro Acc F1-macro DRE-GCN（GCN なし） 43.28 38.82 36.23 32.49 33.93 12.87 1 43.11 39.56 37.38 31.60 32.62 14.91 5 47.21 39.89 40.33 36.32 37.87 16.61 10 43.61 44.55 37.37 35.73 36.89 18.69 表 6 ウィンドウサイズと精度変化 ▶ ウィンドウサイズに応じて精度は大きく変化する． ▶ Accuracy と F1 スコアで適したウィンドウサイズは異なる． 39/50

考察（ウィンドウサイズ） Window Size 4 class 6 class 13 class Acc
F1-macro Acc F1-macro Acc F1-macro DRE-GCN（GCN なし） 43.28 38.82 36.23 32.49 33.93 12.87 1 43.11 39.56 37.38 31.60 32.62 14.91 5 47.21 39.89 40.33 36.32 37.87 16.61 10 43.61 44.55 37.37 35.73 36.89 18.69 表 6 ウィンドウサイズと精度変化 ▶ ウィンドウサイズに応じて精度は大きく変化する． ▶ Accuracy と F1 スコアで適したウィンドウサイズは異なる． 40/50

まとめ ▶ 複数発話に跨がる暗黙的な情報を対話関係性抽出に利用するするために，DRE-GCN を提案した． ▶ 今回の実験では，DRE-GCN は BERT を上回るスコアを達成できなかっ
た． ▶ アブレーションテストの結果，グラフ畳み込みネットワークが，対話関係性抽出に有効であることが示唆された． 41/50

今後の展望 ▶ 現時点では，感情認識で有効性が示されている手法を転用したに過ぎないので，より関係性抽出に特化したモデル構造を考える． ▶ 発話埋め込みから対話埋め込みを獲得する方法として，最大（最小）プーリングよりもアテンションによる重み付き平均のほうが適切ではないか． 44/50

今後の展望 ▶ 現時点では，感情認識で有効性が示されている手法を転用したに過ぎないので，より関係性抽出に特化したモデル構造を考える． ▶ 発話埋め込みから対話埋め込みを獲得する方法として，最大（最小）プーリングよりもアテンションによる重み付き平均のほうが適切ではないか． 45/50

参考 i J. Devlin, M. Chang, K. Lee, and K.
Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. D. Ghosal, N. Majumder, S. Poria, N. Chhaya, and A. F. Gelbukh. DialogueGCN: A graph convolutional neural network for emotion recognition in conversation. CoRR, abs/1908.11540, 2019. 46/50

参考 ii Q. Jia, H. Huang, and K. Q. Zhu.
DDRel: A new dataset for interpersonal relation classification in dyadic dialogues. CoRR, abs/2012.02553, 2020. Y. Kim. Convolutional neural networks for sentence classification. CoRR, abs/1408.5882, 2014. N. Reimers and I. Gurevych. Sentence-BERT: Sentence embeddings using siamese bert-networks. CoRR, abs/1908.10084, 2019. 47/50

参考 iii X. Zhou, X. Wan, and J. Xiao. Attention-based
LSTM network for cross-lingual sentiment classification. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 247–256, Austin, Texas, Nov. 2016. Association for Computational Linguistics. 48/50

補足実験設定（1/2）本実験では，batch-size は 32，パラメーターの更新には Adam，ハイパーパラメータの決定には Optuna を使用した．ハイパーパラメーターは，損失関数の
L2 正則化重みパラメータ λ( 探索範囲:0 ≤ λ ≤ 1)，学習率 (0 ≤ lr ≤ 0.001)，drop-rate(0 ≤ lr ≤ 0.5)，weight-decay(0 ≤ dr ≤ 0.001)， 4 層全結合型ニューラルネットワークの 2 つ目の中間層の次元数 (100 または 200) である．精度でファインチューニングする場合のウィンドウサイズ p と f は 5，F1 スコアでファインチューニングする場合は 10 である． 49/50

補足実験設定（2/2）発話埋め込み表現 gi ∈ Rg は 384 次元，グラフニューラルネットの 1
つ目の中間層 h(1) i は 100 次元，グラフニューラルネットの 2 つ目の中間層 h(1) i は 200 次元，全結合型ニューラルネットワークの 1 つ目の中間層 l(1) は 200 次元である． 50/50

グラフ畳み込みネットワークを用いた対話関係性抽出

グラフ畳み込みネットワークを用いた対話関係性抽出

Other Decks in Research

Featured

Transcript