Upgrade to Pro — share decks privately, control downloads, hide ads and more …

グラフ畳み込みネットワークを用いた対話関係性抽出

 グラフ畳み込みネットワークを用いた対話関係性抽出

Takato Hayashi

June 27, 2022
Tweet

Other Decks in Research

Transcript

  1. 動機 応用先   イベントや飲食店における利用者の自動分析や関係性を考慮した対話 翻訳.   課題 

     対話関係性抽出に関する研究はまだ少なく,既存の手法も対話の文脈 情報を十分に活用できていない.   5/50
  2. 動機 応用先   イベントや飲食店における利用者の自動分析や関係性を考慮した対話 翻訳.   課題 

     対話関係性抽出に関する研究はまだ少なく,既存の手法も対話の文脈 情報を十分に活用できていない.   6/50
  3. 方法 タスクの定義   対話テキストから話者間の関係性を推定する.   ▶ n 個の発話

    u の系列 (u1, u2, · · · , un ) で構成される対話を Dとする.ま た,モデルの話者間の関係性の予測を ¯ yとすると,タスクは次式で表 せる. ¯ y = f(D) (1) 10/50
  4. 方法 図 2 sentence-BERT (a)発話埋め込み表現の獲得 ▶ 発話の意味的な埋め込み表現を 獲得するために,sentence-BERT[5] を使用する. ▶

    ある対話の i 番目の発話を ui とすると, 発話埋め込み表現 gi ∈ Rg は次式で導出される. gi = sentenceBERT(ui ) (2) 12/50
  5. 方法 図 2 sentence-BERT (a)発話埋め込み表現の獲得 ▶ 発話の意味的な埋め込み表現を 獲得するために,sentence-BERT[5] を使用する. ▶

    ある対話の i 番目の発話を ui とすると, 発話埋め込み表現 gi ∈ Rg は次式で導出される. gi = sentenceBERT(ui ) (2) 13/50
  6. 方法 図 3 対話グラフ (b)対話文脈のモデル化(1/4) G(対話グラフ)   対話を有向グラフG =

    (V, E, W, R) で表す.   V(ノードの集合)   ノードは,発話 gi を示し,gi ∈ V が成り立つ.   E(エッジの集合)   gi から gj に向かうエッジを vij とすると,vij ∈ E が成り立つ.   14/50
  7. 方法 図 4 グラフ畳み込み (b)対話文脈のモデル化(1/4) G(対話グラフ)   対話を有向グラフ G

    = (V, E, W, R) で表す.   V(ノードの集合)   ノードは,発話gi を示し,gi ∈ V が成り立つ.   E(エッジの集合)   gi から gj に向かうエッジを vij とすると,vij ∈ E が成り立つ.   15/50
  8. 方法 図 4 グラフ畳み込み (b)対話文脈のモデル化(1/4) G(対話グラフ)   対話を有向グラフ G

    = (V, E, W, R) で表す.   V(ノードの集合)   ノードは,発話 gi を示し,gi ∈ V が成り立つ.   E(エッジの集合)   gi から gj に向かうエッジを vij とすると,vij ∈ E が成り立つ.   16/50
  9. 方法 図 4 グラフ畳み込み (b)対話文脈のモデル化(1/4) W(エッジの重みの集合)   エッジの重みは,ノード(発話)ごとにアテンシ ョンに基づいて決定する.

      ▶ 各ノード(発話)に向かってくるエッジの重みの 総和は 1 である. αij = softmax(gT i We [gi−p , · · · , gi+f ]) (3) for j = i − p, · · · , i + f ただし,We ∈ Rg,αij ∈ R である. 17/50
  10. 方法 図 4 グラフ畳み込み (b)対話文脈のモデル化(3/4) R(エッジの種類)   vij のエッジの種類を

    rij とすると,rij ∈ R が成り 立つ.   発話間の話者関係:同じ話者,異なる話者 発話間の時系列関係:未来から過去,過去から未来 19/50
  11. 方法 図 4 グラフ畳み込み (b)対話文脈のモデル化(3/4) R(エッジの種類)   vij のエッジの種類を

    rij とすると,rij ∈ R が成り 立つ.   発話間の話者関係:同じ話者,異なる話者 発話間の時系列関係:未来から過去,過去から未来 20/50
  12. 方法 (b)対話文脈のモデル化(4/4) ▶ 2 回の畳み込みによって,ノード(発話)にはエッジの種類に応じて 周辺発話の情報が伝えられるため,それぞれの発話は文脈情報を獲得 する. h(1) i =

    σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(1) r gi + αii W(1) 0 gi ) (4) h(2) i = σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(2) r h(1) i + αii W(2) 0 h(1) i ) (5) ▶ ここで,Nr i は,i 番目の発話と関係 r で接続されている発話の集合で ある.また,ci,r は |Nr i |,σ は ReLU 関数,W(1) ∈ Rg,W(1) ∈ Rh2 は学 習パラメータを示す.さらに,h(1) i ∈ Rh1,h(2) i ∈ Rh2 である. 21/50
  13. 方法 (b)対話文脈のモデル化(4/4) ▶ 2 回の畳み込みによって,ノード(発話)にはエッジの種類に応じて 周辺発話の情報が伝えられるため,それぞれの発話は文脈情報を獲得 する. h(1) i =

    σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(1) r gi + αii W(1) 0 gi ) (4) h(2) i = σ( ∑ r∈R ∑ j∈Nr i αij ci,r W(2) r h(1) i + αii W(2) 0 h(1) i ) (5) ▶ ここで,Nr i は,i 番目の発話と関係 r で接続されている発話の集合で ある.また,ci,r は |Nr i |,σ は ReLU 関数,W(1) ∈ Rg,W(1) ∈ Rh2 は学 習パラメータを示す.さらに,h(1) i ∈ Rh1,h(2) i ∈ Rh2 である. 22/50
  14. 方法 (c)対話埋め込み表現の獲得と関係性クラス分類(1/2) 図 5 max pooling ▶プーリング処理によって,発話埋め込み表現 から対話埋め込み表現を獲得する. ▶ 対話埋め込み表現

    d ∈ Rd の獲得を次の式で表す. dmax = MaxPooling(h1, h2, · · · , hn ) (6) dmin = MinPooling(h1, h2, · · · , hn ) (7) d = dmax ⊕ dmin (8) ここで,⊕ はベクトル同士の連結を示す. また,dmax ∈ Rdmax,dmin ∈ Rdmin,d = dmax + dmin である. 23/50
  15. 方法 (c)対話埋め込み表現の獲得と関係性クラス分類(2/2) ▶ 対話埋め込み表現 d を入力とした4 層全結合型 ニューラルネットワークで関係性を推定する. 図 6

    関係性分類 l(1) = ReLU(W(1) l d + b(1) l ) (9) l(2) = ReLU(W(2) l l(1) + b(2) l ) (10) P = softmax(Wsmax l(2) + bsmax ) (11) ˆ y = argmax k (Pi [k]) (12) ただし,W(1) ∈ Rl1×d,W(2) ∈ Rl2×l1,l(1), b(1) ∈ Rl1,l(2), b(2) ∈ Rl2. 24/50
  16. 方法 損失関数 ▶ L2 正則化された交差エントロピー誤差を用いる. ▶ N を全対話数,P を i

    番目の対話の関係性ラベルに対するモデルの予 測確率,[yi ] を i 番目の対話の正解ラベル,λ を L2 正則化の重みパラ メータ,θ をすべての学習パラメータとすると,損失関数は次の式で 表せる. L = − N ∑ i=1 log Pi [yi ] + λ∥θ∥2 (13) 25/50
  17. 実験 4 class 6 class 13 class Family Elder -

    Junior Child - Parent Child - Other Family Elder Family Peer Siblings Spouse Intimacy Intimacy Lovers Courtship Others Peer Friends Neighbors Roommates Official Elder - Junior Workplace Superior - Subordinate Official Peer Colleague / Partners Opponents Professional Contact 表 1 関係性分類 DDRel データセット [3] ▶ 映画の脚本から収集された 6300 対話を含む. ▶ 全ての対話に対して,粒度の異なる 3 種類の関係性がアノテーショ ンされている. 26/50
  18. 実験 比較手法 図 7 BERT の Fine-tuning モデル ▶ 先行研究

    [3] と同様に,CNN[4],LSTM[6],BERT[1] をベースラインと する. ▶ LSTM と BERT は,時系列性を考慮できているものの,発話の話者情報 を使用していない. 28/50
  19. 実験 比較手法 図 7 BERT の Fine-tuning モデル ▶ 先行研究

    [3] と同様に,CNN[4],LSTM[6],BERT[1] をベースラインと する. ▶ LSTM と BERT は,時系列性を考慮できているものの,発話の話者情 報を使用していない. 29/50
  20. 結果 model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority   31.00 11.80 31.00 7.90 28.50 3.20 Human   56.00 55.20 50.00 53.00 38.50 40.75 CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN(GCN なし) 43.28 38.82 36.23 32.49 33.93 12.87 表 2 DDRel データセットに対する実験結果 30/50
  21. 結果(人間評価との比較) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority   31.00 11.80 31.00 7.90 28.50 3.20 Human   56.00 55.20 50.00 53.00 38.50 40.75 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN と人間評価 ▶ Majority および Random 予測を大きく上回った. ▶ 人間にとっても難しいタスク. 31/50
  22. 結果(人間評価との比較) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro Random 23.00 22.67 17.33 15.80 8.33 6.67 Majority   31.00 11.80 31.00 7.90 28.50 3.20 Human   56.00 55.20 50.00 53.00 38.50 40.75 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN と人間評価 ▶ Majority および Random 予測を大きく上回った. ▶ 人間にとっても難しいタスク. 32/50
  23. 結果(モデル間比較) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN とベースライン ▶ DRE-GCN は,全ての指標で,CNN および LSTM を大幅に上回った.し かし,BERT のスコアを改善するには至らなかった. ▶ DRE-GCN は,BERT の精度を平均 0.98 ポイント下回り,F1-macro を 平均 1.79 ポイント下回った. 33/50
  24. 結果(モデル間比較) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro CNN 42.67 33.27 37.80 31.40 32.33 9.20 LSTM 29.80 22.87 30.83 11.10 28.50 4.63 BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 3 DRE-GCN とベースライン ▶ DRE-GCN は,全ての指標で,CNN および LSTM を大幅に上回った.し かし,BERT のスコアを改善するには至らなかった. ▶ DRE-GCN は,BERT の精度を平均 0.98 ポイント下回り,F1-macro を 平均 1.79 ポイント下回った. 34/50
  25. 考察(DRE-GCN と BERT) model 4 class 6 class 13 class

    Acc F1-macro Acc F1-macro Acc F1-macro BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 4 DRE-GCN と BERT ▶ DRE-GCN は,BERT の改善には失敗したが,BERT と近い値のスコアを 得られた. ▶ 一定程度,複数発話に跨って表出する関係性タイプの特性を捉える対 話埋め込み表現の獲得に成功したと考えられる. 35/50
  26. 考察(DRE-GCN と BERT) model 4 class 6 class 13 class

    Acc F1-macro Acc F1-macro Acc F1-macro BERT 47.10 44.53 41.87 39.40 39.40 20.40 DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 表 4 DRE-GCN と BERT ▶ DRE-GCN は,BERT の改善には失敗したが,BERT と近い値のスコアを 得られた. ▶ 一定程度,複数発話に跨って表出する関係性タイプの特性を捉える対 話埋め込み表現の獲得に成功したと考えられる. 36/50
  27. 考察(グラフ畳み込みの有無) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN(GCN なし) 43.28 38.82 36.23 32.49 33.93 12.87 表 5 グラフ畳み込みの有無と精度変化 ▶ 畳み込みの貢献を確認するため,DRE-GCN からグラフ畳み込みネット ワークを取り除いたモデルの F1-macro(精度)を算出した. ▶ DRE-GCN は,全ての指標で,畳み込みネットワークを取り除いた DRE-GCN のスコアを上回った.具体的には,精度で平均 4.0 ポイント 上回り,F1-macro で平均 4.9 ポイント上回った. 37/50
  28. 考察(グラフ畳み込みの有無) model 4 class 6 class 13 class Acc F1-macro

    Acc F1-macro Acc F1-macro DRE-GCN 47.21 44.55 40.33 35.73 37.87 18.69 DRE-GCN(GCN なし) 43.28 38.82 36.23 32.49 33.93 12.87 表 5 グラフ畳み込みの有無と精度変化 ▶ 畳み込みの貢献を確認するため,DRE-GCN からグラフ畳み込みネット ワークを取り除いたモデルの F1-macro(精度)を算出した. ▶ DRE-GCNは,全ての指標で,畳み込みネットワークを取り除いた DRE-GCN のスコアを上回った.具体的には,精度で平均 4.0 ポイント 上回り,F1-macro で平均 4.9 ポイント上回った. 38/50
  29. 考察(ウィンドウサイズ) Window Size 4 class 6 class 13 class Acc

    F1-macro Acc F1-macro Acc F1-macro DRE-GCN(GCN なし) 43.28 38.82 36.23 32.49 33.93 12.87 1 43.11 39.56 37.38 31.60 32.62 14.91 5 47.21 39.89 40.33 36.32 37.87 16.61 10 43.61 44.55 37.37 35.73 36.89 18.69 表 6 ウィンドウサイズと精度変化 ▶ ウィンドウサイズに応じて精度は大きく変化する. ▶ Accuracy と F1 スコアで適したウィンドウサイズは異なる. 39/50
  30. 考察(ウィンドウサイズ) Window Size 4 class 6 class 13 class Acc

    F1-macro Acc F1-macro Acc F1-macro DRE-GCN(GCN なし) 43.28 38.82 36.23 32.49 33.93 12.87 1 43.11 39.56 37.38 31.60 32.62 14.91 5 47.21 39.89 40.33 36.32 37.87 16.61 10 43.61 44.55 37.37 35.73 36.89 18.69 表 6 ウィンドウサイズと精度変化 ▶ ウィンドウサイズに応じて精度は大きく変化する. ▶ Accuracy と F1 スコアで適したウィンドウサイズは異なる. 40/50
  31. まとめ ▶ 複数発話に跨がる暗黙的な情報を対話関係性抽出に利用するするため に,DRE-GCN を提案した. ▶ 今回の実験では,DRE-GCN は BERT を上回るスコアを達成できなかっ

    た. ▶ アブレーションテストの結果,グラフ畳み込みネットワークが,対話 関係性抽出に有効であることが示唆された. 41/50
  32. まとめ ▶ 複数発話に跨がる暗黙的な情報を対話関係性抽出に利用するするため に,DRE-GCN を提案した. ▶ 今回の実験では,DRE-GCN は BERT を上回るスコアを達成できなかっ

    た. ▶ アブレーションテストの結果,グラフ畳み込みネットワークが,対話 関係性抽出に有効であることが示唆された. 42/50
  33. まとめ ▶ 複数発話に跨がる暗黙的な情報を対話関係性抽出に利用するするため に,DRE-GCN を提案した. ▶ 今回の実験では,DRE-GCN は BERT を上回るスコアを達成できなかっ

    た. ▶ アブレーションテストの結果,グラフ畳み込みネットワークが,対話 関係性抽出に有効であることが示唆された. 43/50
  34. 参考 i J. Devlin, M. Chang, K. Lee, and K.

    Toutanova. BERT: pre-training of deep bidirectional transformers for language understanding. CoRR, abs/1810.04805, 2018. D. Ghosal, N. Majumder, S. Poria, N. Chhaya, and A. F. Gelbukh. DialogueGCN: A graph convolutional neural network for emotion recognition in conversation. CoRR, abs/1908.11540, 2019. 46/50
  35. 参考 ii Q. Jia, H. Huang, and K. Q. Zhu.

    DDRel: A new dataset for interpersonal relation classification in dyadic dialogues. CoRR, abs/2012.02553, 2020. Y. Kim. Convolutional neural networks for sentence classification. CoRR, abs/1408.5882, 2014. N. Reimers and I. Gurevych. Sentence-BERT: Sentence embeddings using siamese bert-networks. CoRR, abs/1908.10084, 2019. 47/50
  36. 参考 iii X. Zhou, X. Wan, and J. Xiao. Attention-based

    LSTM network for cross-lingual sentiment classification. In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 247–256, Austin, Texas, Nov. 2016. Association for Computational Linguistics. 48/50
  37. 補足 実験設定(1/2) 本実験では,batch-size は 32,パラメーターの更新には Adam,ハイパー パラメータの決定には Optuna を使用した.ハイパーパラメーターは,損 失関数の

    L2 正則化重みパラメータ λ( 探索範囲:0 ≤ λ ≤ 1),学習率 (0 ≤ lr ≤ 0.001),drop-rate(0 ≤ lr ≤ 0.5),weight-decay(0 ≤ dr ≤ 0.001), 4 層全結合型ニューラルネットワークの 2 つ目の中間層の次元数 (100 また は 200) である. 精度でファインチューニングする場合のウィンドウサイズ p と f は 5,F1 スコアでファインチューニングする場合は 10 である. 49/50
  38. 補足 実験設定(2/2) 発話埋め込み表現 gi ∈ Rg は 384 次元,グラフニューラルネットの 1

    つ目 の中間層 h(1) i は 100 次元,グラフニューラルネットの 2 つ目の中間層 h(1) i は 200 次元,全結合型ニューラルネットワークの 1 つ目の中間層 l(1) は 200 次元である. 50/50