$30 off During Our Annual Pro Sale. View Details »

B3ゼミ_03_28_マルチモーダル学習_.pdf

Ayumu
March 28, 2019

 B3ゼミ_03_28_マルチモーダル学習_.pdf

2019/03/28
長岡技術科学大学 自然言語処理研究室
学部4年 守谷 歩

Ayumu

March 28, 2019
Tweet

More Decks by Ayumu

Other Decks in Technology

Transcript

  1. マルチモーダル学習
    2019/03/28
    長岡技術科学大学 自然言語処理研究室
    学部4年 守谷 歩
    概要、タスク、問題点

    View Slide

  2. 言語処理におけるマルチモーダル学習
    ⚫複数のモダリティを含む処理を行いモデル構築
    ⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画
    像の情報なども用いたい。
    ⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の
    精度を上げるといった面で使われている。

    View Slide

  3. マルチモーダル学習のタスク
    ⚫唇の画像から何を話しているか推定する(Lip Reading)
    ⚫手話を言語情報に置き換える
    ⚫テキストの情報からどんな画像かを推定する
    ⚫人の画像情報と話している内容から感情推定する
    ⚫映像からリアルタイムで実況を生成する。

    View Slide

  4. 画像説明生成
    ⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、
    RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる

    View Slide

  5. 動画像キャプショニング
    ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系
    列データとしてRNNへ入力

    View Slide

  6. 画像スタイル変換
    ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系
    列データとしてRNNへ入力

    View Slide

  7. マルチモーダル学習の問題点
    ⚫例えばリアルタイムで実況を生成するタスクの場合
    ⚫モーダル間の関連性をどう定義するか
    ⚫変換結果をどう評価するか
    ⚫複数のモダリティの情報を組み合わせて予測できないか
    ⚫モダリティ間の知識の転移を行えないか

    View Slide

  8. マルチモーダル学習の今後の展開
    ⚫Vision-and-Language Navigationといった、ロボットを自然言語で目
    的地に誘導するといったようなタスクなどで期待されている。
    ⚫音声の特徴などを用いた生体認識などのタスクでも期待されてい
    る。

    View Slide

  9. 参考資料
    ⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」
    http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf
    ⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799
    ⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss-
    62920389
    ⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models
    https://arxiv.org/pdf/1411.2539.pdf
    ⚫Show and Tell: A Neural Image Caption Generato
    https://arxiv.org/pdf/1411.4555.pdf
    ⚫Deep Visual-Semantic Alignments for Generating Image Descriptions
    https://cs.stanford.edu/people/karpathy/deepimagesent/
    ⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
    https://junyanz.github.io/CycleGAN/

    View Slide