Slide 45
Slide 45 text
45
©BrainPad Inc. Strictly Confidential
マルチモーダルモデルとは
マルチモーダルモデル
● 複数のモダリティ(テキスト、画像、音声など)を同時に入力・処理ができるモデル
● モダリティ間の相互作用を学習し、それらの情報を用いて推論や生成を行う
マルチモーダルモデルの発展
● 大規模言語モデルおよび拡散モデルの発展とともにマルチモーダルモデルも進展
● 各モダリティ(画像,テキスト,音声など)ごとで使われている技術は異なることが多いが、ベースにLLMを使うものが現状だと多い
様々なモダリティをまとめて扱うようなモデルの総称
引用元:https://storage.googleapis.com/videopoet/paper.pdf
テキスト、画像、音声、動画を扱えるマルチモーダルモデル