Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダル学習
Search
Ayumu
March 28, 2019
Technology
0
120
マルチモーダル学習
2019/03/28
長岡技術科学大学 自然言語処理研究室
学部4年 守谷 歩
Ayumu
March 28, 2019
Tweet
Share
More Decks by Ayumu
See All by Ayumu
B3ゼミ_03_28_マルチモーダル学習_.pdf
ayumum
0
140
B3ゼミ 自然言語処理におけるCNN
ayumum
0
84
言語処理年次大会報告
ayumum
0
72
ニューラルネット4
ayumum
0
95
文献紹介「二値符号予測と誤り訂正を用いたニューラル翻訳モデル」
ayumum
0
130
ニューラルネット3 誤差伝搬法,CNN,word2vec
ayumum
0
160
ニューラルネット実践
ayumum
0
97
文献紹介[Zero-Shot Dialog Generation with Cross-Domain Latent Action]
ayumum
0
150
パーセプトロンとニューラルネット1
ayumum
0
100
Other Decks in Technology
See All in Technology
コードを書く隙間を見つけて生きていく技術/Findy 思考の現在地
fujiwara3
27
5.8k
20分で完全に理解するGrafanaダッシュボード
hamadakoji
1
250
私が trocco を推す理由
__allllllllez__
1
200
コンパウンドスタートアップのためのスケーラブルでセキュアなInfrastructure as Codeパイプラインを考える / Scalable and Secure Infrastructure as Code Pipeline for a Compound Startup
yuyatakeyama
4
4.7k
複雑な構成要素を持つUIとの向き合い方 〜新・支出グラフでの実例〜 / B43 TECH TALK
nakamuuu
0
140
ゼロから始めるVue.jsコミュニティ貢献 / first-vuejs-community-contribution-link-and-motivation
lmi
1
110
コンテナセキュリティの基本と脅威への対策
kyohmizu
3
750
最近たまに見かけるTiDBってなんだ? - Findy
pingcap0315
2
760
Janus
bkuhlmann
1
490
ServiceNow Knowledge 24の歩き方 EYストラテジー・アンド・コンサルティング
manarobot
0
190
AOAI をきっかけに 社内の Azure 管理を見直した話
recruitengineers
PRO
1
260
Google Cloud の AI を支える裏側のインフラを垣間見る!
maroon1st
0
340
Featured
See All Featured
A better future with KSS
kneath
231
16k
個人開発の失敗を避けるイケてる考え方 / tips for indie hackers
panda_program
60
14k
How to name files
jennybc
65
93k
StorybookのUI Testing Handbookを読んだ
zakiyama
13
4.6k
Documentation Writing (for coders)
carmenintech
60
3.9k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
40
4.4k
From Idea to $5000 a Month in 5 Months
shpigford
377
45k
How GitHub (no longer) Works
holman
304
140k
Code Review Best Practice
trishagee
55
15k
Designing Experiences People Love
moore
136
23k
The Cost Of JavaScript in 2023
addyosmani
16
3.8k
Java REST API Framework Comparison - PWX 2021
mraible
PRO
18
6.9k
Transcript
マルチモーダル学習 2019/03/28 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩 概要、タスク、問題点
言語処理におけるマルチモーダル学習 ⚫複数のモダリティを含む処理を行いモデル構築 ⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画 像の情報なども用いたい。 ⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の 精度を上げるといった面で使われている。
マルチモーダル学習のタスク ⚫唇の画像から何を話しているか推定する(Lip Reading) ⚫手話を言語情報に置き換える ⚫テキストの情報からどんな画像かを推定する ⚫人の画像情報と話している内容から感情推定する ⚫映像からリアルタイムで実況を生成する。
画像説明生成 ⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、 RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる
動画像キャプショニング ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
画像スタイル変換 ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
マルチモーダル学習の問題点 ⚫例えばリアルタイムで実況を生成するタスクの場合 ⚫モーダル間の関連性をどう定義するか ⚫変換結果をどう評価するか ⚫複数のモダリティの情報を組み合わせて予測できないか ⚫モダリティ間の知識の転移を行えないか
マルチモーダル学習の今後の展開 ⚫Vision-and-Language Navigationといった、ロボットを自然言語で目 的地に誘導するといったようなタスクなどで期待されている。 ⚫音声の特徴などを用いた生体認識などのタスクでも期待されてい る。
参考資料 ⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」 http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf ⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799 ⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss- 62920389
⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models https://arxiv.org/pdf/1411.2539.pdf ⚫Show and Tell: A Neural Image Caption Generato https://arxiv.org/pdf/1411.4555.pdf ⚫Deep Visual-Semantic Alignments for Generating Image Descriptions https://cs.stanford.edu/people/karpathy/deepimagesent/ ⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks https://junyanz.github.io/CycleGAN/