2019/03/28 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩
マルチモーダル学習2019/03/28長岡技術科学大学 自然言語処理研究室学部4年 守谷 歩概要、タスク、問題点
View Slide
言語処理におけるマルチモーダル学習⚫複数のモダリティを含む処理を行いモデル構築⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画像の情報なども用いたい。⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の精度を上げるといった面で使われている。
マルチモーダル学習のタスク⚫唇の画像から何を話しているか推定する(Lip Reading)⚫手話を言語情報に置き換える⚫テキストの情報からどんな画像かを推定する⚫人の画像情報と話している内容から感情推定する⚫映像からリアルタイムで実況を生成する。
画像説明生成⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる
動画像キャプショニング⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系列データとしてRNNへ入力
画像スタイル変換⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系列データとしてRNNへ入力
マルチモーダル学習の問題点⚫例えばリアルタイムで実況を生成するタスクの場合⚫モーダル間の関連性をどう定義するか⚫変換結果をどう評価するか⚫複数のモダリティの情報を組み合わせて予測できないか⚫モダリティ間の知識の転移を行えないか
マルチモーダル学習の今後の展開⚫Vision-and-Language Navigationといった、ロボットを自然言語で目的地に誘導するといったようなタスクなどで期待されている。⚫音声の特徴などを用いた生体認識などのタスクでも期待されている。
参考資料⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss-62920389⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Modelshttps://arxiv.org/pdf/1411.2539.pdf⚫Show and Tell: A Neural Image Caption Generatohttps://arxiv.org/pdf/1411.4555.pdf⚫Deep Visual-Semantic Alignments for Generating Image Descriptionshttps://cs.stanford.edu/people/karpathy/deepimagesent/⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networkshttps://junyanz.github.io/CycleGAN/