Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3ゼミ_03_28_マルチモーダル学習_.pdf
Search
Ayumu
March 28, 2019
Technology
0
190
B3ゼミ_03_28_マルチモーダル学習_.pdf
2019/03/28
長岡技術科学大学 自然言語処理研究室
学部4年 守谷 歩
Ayumu
March 28, 2019
Tweet
Share
More Decks by Ayumu
See All by Ayumu
マルチモーダル学習
ayumum
0
180
B3ゼミ 自然言語処理におけるCNN
ayumum
0
120
言語処理年次大会報告
ayumum
0
110
ニューラルネット4
ayumum
0
130
文献紹介「二値符号予測と誤り訂正を用いたニューラル翻訳モデル」
ayumum
0
190
ニューラルネット3 誤差伝搬法,CNN,word2vec
ayumum
0
180
ニューラルネット実践
ayumum
0
140
文献紹介[Zero-Shot Dialog Generation with Cross-Domain Latent Action]
ayumum
0
210
パーセプトロンとニューラルネット1
ayumum
0
120
Other Decks in Technology
See All in Technology
1万人を変え日本を変える!!多層構造型ふりかえりの大規模組織変革 / 20260108 Kazuki Mori
shift_evolve
PRO
6
1k
RALGO : AIを組織に組み込む方法 -アルゴリズム中心組織設計- #RSGT2026 / RALGO: How to Integrate AI into an Organization – Algorithm-Centric Organizational Design
kyonmm
PRO
3
890
松尾研LLM講座2025 応用編Day3「軽量化」 講義資料
aratako
15
4.9k
AWS re:Invent2025最新動向まとめ(NRIグループre:Cap 2025)
gamogamo
0
160
業務の煩悩を祓うAI活用術108選 / AI 108 Usages
smartbank
9
20k
Digitization部 紹介資料
sansan33
PRO
1
6.4k
2025年 山梨の技術コミュニティを振り返る
yuukis
0
150
BidiAgent と Nova 2 Sonic から考える音声 AI について
yama3133
2
150
re:Invent2025 セッションレポ ~Spec-driven development with Kiro~
nrinetcom
PRO
2
170
コールドスタンバイ構成でCDは可能か
hiramax
0
130
人工知能のための哲学塾 ニューロフィロソフィ篇 第零夜 「ニューロフィロソフィとは何か?」
miyayou
0
390
田舎で20年スクラム(後編):一個人が企業で長期戦アジャイルに挑む意味
chinmo
1
1.2k
Featured
See All Featured
Embracing the Ebb and Flow
colly
88
4.9k
The Language of Interfaces
destraynor
162
26k
WENDY [Excerpt]
tessaabrams
9
35k
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
870
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.2k
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
61
48k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
Why Our Code Smells
bkeepers
PRO
340
58k
How to Talk to Developers About Accessibility
jct
1
94
Breaking role norms: Why Content Design is so much more than writing copy - Taylor Woolridge
uxyall
0
130
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
47
7.9k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Transcript
マルチモーダル学習 2019/03/28 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩 概要、タスク、問題点
言語処理におけるマルチモーダル学習 ⚫複数のモダリティを含む処理を行いモデル構築 ⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画 像の情報なども用いたい。 ⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の 精度を上げるといった面で使われている。
マルチモーダル学習のタスク ⚫唇の画像から何を話しているか推定する(Lip Reading) ⚫手話を言語情報に置き換える ⚫テキストの情報からどんな画像かを推定する ⚫人の画像情報と話している内容から感情推定する ⚫映像からリアルタイムで実況を生成する。
画像説明生成 ⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、 RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる
動画像キャプショニング ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
画像スタイル変換 ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
マルチモーダル学習の問題点 ⚫例えばリアルタイムで実況を生成するタスクの場合 ⚫モーダル間の関連性をどう定義するか ⚫変換結果をどう評価するか ⚫複数のモダリティの情報を組み合わせて予測できないか ⚫モダリティ間の知識の転移を行えないか
マルチモーダル学習の今後の展開 ⚫Vision-and-Language Navigationといった、ロボットを自然言語で目 的地に誘導するといったようなタスクなどで期待されている。 ⚫音声の特徴などを用いた生体認識などのタスクでも期待されてい る。
参考資料 ⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」 http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf ⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799 ⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss- 62920389
⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models https://arxiv.org/pdf/1411.2539.pdf ⚫Show and Tell: A Neural Image Caption Generato https://arxiv.org/pdf/1411.4555.pdf ⚫Deep Visual-Semantic Alignments for Generating Image Descriptions https://cs.stanford.edu/people/karpathy/deepimagesent/ ⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks https://junyanz.github.io/CycleGAN/