Naik, Erik Cambria, Rada Mihalcea, "MELD: A Multimodal Multi-Party Dataset for Emotion Recognition in Conversations", In Proc. ACL, pp. 527-536, 2019. 発話に加えてその際の顔表情まで含めた上で、各人の感情をアノテーション 会話テキスト+音声+映像+アノテーションのデータ例① MELD [Poria+ 2019]というデータセットでは、 Friendsというテレビ番組の会話に対して感情ラベルをアノテーション
2019] Santiago Castro, Devamanyu Hazarika, Veronica Perez-Rosas, Roger Zimmermann, Rada Mihalcea, Soujanya Poria, "Towards Multimodal Sarcasm Detection", In Proc. ACL, 4619-4629, 2019.
しかしこれらの技術は会話コンテキストを考慮する機構を事前学習できない ELMoやBERTの学習方法 文内の前後コンテキストの単語列から間の 単語を予測する言語モデルを大量のテキストで学習 今日 の ? は 晴れ ELMoやBERTの利用方法 短期文脈を理解するネットワークを転移し、目的タスク向けの 識別問題を学習することで、少ない学習データでも高精度を実現 発話内の系列(短期文脈) を理解する ネットワーク ? 単語穴埋めネットワーク 今日 の 天気 は 晴れ 発話内の系列(短期文脈) を理解する ネットワーク 例えば話題推定や固有表現抽出 目的タスク識別ネットワーク 知識転移 これを言語モデルと呼ぶ [Peters+ 2018] M. E. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” In Proc. NAACL-HLT, pp. 2227–2237, 2018 [Devlin+2019] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre-training of deep bidirectional transformers for language understanding,” In Proc. NAACL-HLT, pp. 4171–4186, 2019.