Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B3ゼミ_03_28_マルチモーダル学習_.pdf
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
Ayumu
March 28, 2019
Technology
190
0
Share
B3ゼミ_03_28_マルチモーダル学習_.pdf
2019/03/28
長岡技術科学大学 自然言語処理研究室
学部4年 守谷 歩
Ayumu
March 28, 2019
More Decks by Ayumu
See All by Ayumu
マルチモーダル学習
ayumum
0
180
B3ゼミ 自然言語処理におけるCNN
ayumum
0
140
言語処理年次大会報告
ayumum
0
120
ニューラルネット4
ayumum
0
140
文献紹介「二値符号予測と誤り訂正を用いたニューラル翻訳モデル」
ayumum
0
200
ニューラルネット3 誤差伝搬法,CNN,word2vec
ayumum
0
190
ニューラルネット実践
ayumum
0
140
文献紹介[Zero-Shot Dialog Generation with Cross-Domain Latent Action]
ayumum
0
220
パーセプトロンとニューラルネット1
ayumum
0
120
Other Decks in Technology
See All in Technology
Oracle AI Database@Azure:サービス概要のご紹介
oracle4engineer
PRO
6
1.4k
🀄️ on swiftc
giginet
PRO
0
300
Proxmox超入門
devops_vtj
0
160
Kubernetes基盤における開発者体験 とセキュリティの両⽴ / Balancing developer experience and security in a Kubernetes-based environment
chmikata
0
230
AIを活用したアクセシビリティ改善フロー
degudegu2510
1
170
Zero Data Loss Autonomous Recovery Service サービス概要
oracle4engineer
PRO
4
14k
新規サービス開発におけるReact Nativeのリアル〜技術選定の裏側と実践的OSS活用〜
grandbig
2
180
Azure Lifecycle with Copilot CLI
torumakabe
0
130
システムは「動く」だけでは 足りない - 非機能要件・分散システム・トレードオフの基礎
nwiizo
25
8k
TanStack Start エコシステムの現在地 / TanStack Start Ecosystem 2026
iktakahiro
1
360
申請待ちゼロへ!AWS × Entra IDで実現した「権限付与」のセルフサービス化
mhrtech
1
280
解剖"React Native"
hacusk
0
120
Featured
See All Featured
Templates, Plugins, & Blocks: Oh My! Creating the theme that thinks of everything
marktimemedia
31
2.7k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
How People are Using Generative and Agentic AI to Supercharge Their Products, Projects, Services and Value Streams Today
helenjbeal
1
150
Money Talks: Using Revenue to Get Sh*t Done
nikkihalliwell
0
200
ラッコキーワード サービス紹介資料
rakko
1
2.9M
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
27k
The Web Performance Landscape in 2024 [PerfNow 2024]
tammyeverts
12
1.1k
Game over? The fight for quality and originality in the time of robots
wayneb77
1
160
Winning Ecommerce Organic Search in an AI Era - #searchnstuff2025
aleyda
1
2k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
25
1.8k
The agentic SEO stack - context over prompts
schlessera
0
740
The Director’s Chair: Orchestrating AI for Truly Effective Learning
tmiket
1
150
Transcript
マルチモーダル学習 2019/03/28 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩 概要、タスク、問題点
言語処理におけるマルチモーダル学習 ⚫複数のモダリティを含む処理を行いモデル構築 ⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画 像の情報なども用いたい。 ⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の 精度を上げるといった面で使われている。
マルチモーダル学習のタスク ⚫唇の画像から何を話しているか推定する(Lip Reading) ⚫手話を言語情報に置き換える ⚫テキストの情報からどんな画像かを推定する ⚫人の画像情報と話している内容から感情推定する ⚫映像からリアルタイムで実況を生成する。
画像説明生成 ⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、 RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる
動画像キャプショニング ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
画像スタイル変換 ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
マルチモーダル学習の問題点 ⚫例えばリアルタイムで実況を生成するタスクの場合 ⚫モーダル間の関連性をどう定義するか ⚫変換結果をどう評価するか ⚫複数のモダリティの情報を組み合わせて予測できないか ⚫モダリティ間の知識の転移を行えないか
マルチモーダル学習の今後の展開 ⚫Vision-and-Language Navigationといった、ロボットを自然言語で目 的地に誘導するといったようなタスクなどで期待されている。 ⚫音声の特徴などを用いた生体認識などのタスクでも期待されてい る。
参考資料 ⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」 http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf ⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799 ⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss- 62920389
⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models https://arxiv.org/pdf/1411.2539.pdf ⚫Show and Tell: A Neural Image Caption Generato https://arxiv.org/pdf/1411.4555.pdf ⚫Deep Visual-Semantic Alignments for Generating Image Descriptions https://cs.stanford.edu/people/karpathy/deepimagesent/ ⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks https://junyanz.github.io/CycleGAN/