Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダル学習
Search
Ayumu
March 28, 2019
Technology
0
160
マルチモーダル学習
2019/03/28
長岡技術科学大学 自然言語処理研究室
学部4年 守谷 歩
Ayumu
March 28, 2019
Tweet
Share
More Decks by Ayumu
See All by Ayumu
B3ゼミ_03_28_マルチモーダル学習_.pdf
ayumum
0
170
B3ゼミ 自然言語処理におけるCNN
ayumum
0
110
言語処理年次大会報告
ayumum
0
100
ニューラルネット4
ayumum
0
120
文献紹介「二値符号予測と誤り訂正を用いたニューラル翻訳モデル」
ayumum
0
170
ニューラルネット3 誤差伝搬法,CNN,word2vec
ayumum
0
170
ニューラルネット実践
ayumum
0
130
文献紹介[Zero-Shot Dialog Generation with Cross-Domain Latent Action]
ayumum
0
190
パーセプトロンとニューラルネット1
ayumum
0
110
Other Decks in Technology
See All in Technology
Agile PBL at New Grads Trainings
kawaguti
PRO
1
450
AI時代を生き抜くエンジニアキャリアの築き方 (AI-Native 時代、エンジニアという道は 「最大の挑戦の場」となる) / Building an Engineering Career to Thrive in the Age of AI (In the AI-Native Era, the Path of Engineering Becomes the Ultimate Arena of Challenge)
jeongjaesoon
0
230
なぜスクラムはこうなったのか?歴史が教えてくれたこと/Shall we explore the roots of Scrum
sanogemaru
5
1.7k
プラットフォーム転換期におけるGitHub Copilot活用〜Coding agentがそれを加速するか〜 / Leveraging GitHub Copilot During Platform Transition Periods
aeonpeople
1
220
スクラムガイドに載っていないスクラムのはじめかた - チームでスクラムをはじめるときに知っておきたい勘所を集めてみました! - / How to start Scrum that is not written in the Scrum Guide 2nd
takaking22
1
140
複数サービスを支えるマルチテナント型Batch MLプラットフォーム
lycorptech_jp
PRO
1
860
slog.Handlerのよくある実装ミス
sakiengineer
4
440
今日から始めるAWSセキュリティ対策 3ステップでわかる実践ガイド
yoshidatakeshi1994
0
110
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
460
AWSで始める実践Dagster入門
kitagawaz
1
720
株式会社ログラス - 会社説明資料【エンジニア】/ Loglass Engineer
loglass2019
4
65k
なぜテストマネージャの視点が 必要なのか? 〜 一歩先へ進むために 〜
moritamasami
0
240
Featured
See All Featured
Reflections from 52 weeks, 52 projects
jeffersonlam
352
21k
Bash Introduction
62gerente
615
210k
Rebuilding a faster, lazier Slack
samanthasiow
83
9.2k
Designing Experiences People Love
moore
142
24k
Scaling GitHub
holman
463
140k
Connecting the Dots Between Site Speed, User Experience & Your Business [WebExpo 2025]
tammyeverts
8
530
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
For a Future-Friendly Web
brad_frost
180
9.9k
Why Our Code Smells
bkeepers
PRO
339
57k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.1k
Mobile First: as difficult as doing things right
swwweet
224
9.9k
Statistics for Hackers
jakevdp
799
220k
Transcript
マルチモーダル学習 2019/03/28 長岡技術科学大学 自然言語処理研究室 学部4年 守谷 歩 概要、タスク、問題点
言語処理におけるマルチモーダル学習 ⚫複数のモダリティを含む処理を行いモデル構築 ⚫人工知能を使って言語処理をするなら今かなりの精度が出てる画 像の情報なども用いたい。 ⚫最近の研究では、対訳コーパスに画像情報を付加し機械翻訳の 精度を上げるといった面で使われている。
マルチモーダル学習のタスク ⚫唇の画像から何を話しているか推定する(Lip Reading) ⚫手話を言語情報に置き換える ⚫テキストの情報からどんな画像かを推定する ⚫人の画像情報と話している内容から感情推定する ⚫映像からリアルタイムで実況を生成する。
画像説明生成 ⚫CNNの画像のエンコーダをRNNのテキストのデコーダと接続し、 RNNの誤差を誤差伝搬法を用いてCNNまでフィードバックさせる
動画像キャプショニング ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
画像スタイル変換 ⚫CNNで動画のフレームごとに特徴量抽出し、取った特徴量を時系 列データとしてRNNへ入力
マルチモーダル学習の問題点 ⚫例えばリアルタイムで実況を生成するタスクの場合 ⚫モーダル間の関連性をどう定義するか ⚫変換結果をどう評価するか ⚫複数のモダリティの情報を組み合わせて予測できないか ⚫モダリティ間の知識の転移を行えないか
マルチモーダル学習の今後の展開 ⚫Vision-and-Language Navigationといった、ロボットを自然言語で目 的地に誘導するといったようなタスクなどで期待されている。 ⚫音声の特徴などを用いた生体認識などのタスクでも期待されてい る。
参考資料 ⚫東京大学、中山 英樹 「マルチモーダル深層学習の発展」 http://must.c.u-tokyo.ac.jp/sigam/sigam20/sigam20sp01.pdf ⚫DeNA、森紘一郎「マルチモーダル深層学習の研究動向」 https://www.slideshare.net/f2forest/ss-108087799 ⚫東京大学、鈴木雅大「深層生成モデルを用いたマルチモーダル学習」 https://www.slideshare.net/masa_s/ss- 62920389
⚫Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models https://arxiv.org/pdf/1411.2539.pdf ⚫Show and Tell: A Neural Image Caption Generato https://arxiv.org/pdf/1411.4555.pdf ⚫Deep Visual-Semantic Alignments for Generating Image Descriptions https://cs.stanford.edu/people/karpathy/deepimagesent/ ⚫Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks https://junyanz.github.io/CycleGAN/