Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
マルチモーダルデータ基盤の課題と観点
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
neonankiti
November 07, 2024
Technology
1
520
マルチモーダルデータ基盤の課題と観点
アジェンダ
・マルチモーダル AIについて
・マルチモーダルデータ基盤の課題と観点
・マルチモーダル AIの未来
neonankiti
November 07, 2024
Tweet
Share
More Decks by neonankiti
See All by neonankiti
GPTsによるアシスタント業務の改善
neonankiti
3
2.5k
LLM_robustness_and_ops_in_production.pdf
neonankiti
5
2.8k
レストランにおける分散システムの構築と改善.pdf
neonankiti
0
220
外食DXにおけるエンジニアリングデザイン
neonankiti
0
480
分散処理システム(IoT)によるトレーサビリティの向上
neonankiti
0
260
Androidにおけるパフォーマンスチューニング実践
neonankiti
8
13k
クライアントサイドから考えるマイクロサービス
neonankiti
0
3.1k
Elastic Team Building
neonankiti
4
9.1k
Other Decks in Technology
See All in Technology
Azure Durable Functions で作った NL2SQL Agent の精度向上に取り組んだ話/jat08
thara0402
0
140
Meshy Proプラン課金した
henjin0
0
240
学生・新卒・ジュニアから目指すSRE
hiroyaonoe
2
530
2026年、サーバーレスの現在地 -「制約と戦う技術」から「当たり前の実行基盤」へ- /serverless2026
slsops
2
200
GCASアップデート(202510-202601)
techniczna
0
250
2人で作ったAIダッシュボードが、開発組織の次の一手を照らした話― Cursor × SpecKit × 可視化の実践 ― Qiita AI Summit
noalisaai
1
370
Amazon Bedrock AgentCore 認証・認可入門
hironobuiga
2
500
顧客の言葉を、そのまま信じない勇気
yamatai1212
1
320
顧客との商談議事録をみんなで読んで顧客解像度を上げよう
shibayu36
0
140
OCI Database Management サービス詳細
oracle4engineer
PRO
1
7.3k
データの整合性を保ちたいだけなんだ
shoheimitani
7
2.8k
茨城の思い出を振り返る ~CDKのセキュリティを添えて~ / 20260201 Mitsutoshi Matsuo
shift_evolve
PRO
1
170
Featured
See All Featured
Technical Leadership for Architectural Decision Making
baasie
1
240
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
180
The Organizational Zoo: Understanding Human Behavior Agility Through Metaphoric Constructive Conversations (based on the works of Arthur Shelley, Ph.D)
kimpetersen
PRO
0
230
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
38
2.7k
Self-Hosted WebAssembly Runtime for Runtime-Neutral Checkpoint/Restore in Edge–Cloud Continuum
chikuwait
0
320
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
196
71k
How to Ace a Technical Interview
jacobian
281
24k
Evolving SEO for Evolving Search Engines
ryanjones
0
120
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
770
The Illustrated Children's Guide to Kubernetes
chrisshort
51
51k
Transcript
Copyright © Algomatic Inc. Algomatic CTO 南里勇気 マルチモーダルデータ基盤の課題と観点
自己紹介 取締役CTO/AXのカンパニーCTOを兼務 南⾥ 勇気/ Yuki Nanri @neonankiti 複数社のスタートアップ経営(事業会社/受 託会社) ヘルスケアスタートアップの創業期ソフト ウェアエンジニアとして参画
Algomaticの特徴「生成AI×事業開発」
マルチモーダル AIについて
マルチモーダルAIとは何か? モーダルとは、情報の表現形式。モーダルには、⾔語的(⾃然⾔語)、⾮⾔語的(⾳声、画像など) な種類がある。マルチモーダルAIとは、⾔語と⾮⾔語の情報を統合的に処理すること。 モダリティの種類 https://journal.ntt.co.jp/wp-content/uploads/2024/03/nttjnl2001_20240401.pdf 統合的な処理 https://www.youtube.com/watch?v=1ADuAOkQ1sQ&list=PLQcPcYQkptd XXAjUuwlvc3PudConuZHU4 ・自然言語(音声言語、文章)
・視覚情報(画像、映像) ・聴覚情報(音声、音、音楽) ・触覚 ・匂い、味 ・生理指標(心拍、発汗) ・その他(脳波、fMRI) 非 言 語
言語と非言語データの関連付けによる意味理解 異なる種類(⾔語/⾮⾔語)はデータ形式を統⼀(ベクトル化)し、計算処理ができる状態に。 Transformerベースでは、⼤きく4つのアーキテクチャに分類できる。 https://arxiv.org/html/2405.17927v1 4つのアーキテクチャパターン Standard Cross-Attention based Deep
Fusion (SCDF)
マルチモーダル処理の事例。video2txt、img2imgで、抽象的なコンテキスト理解やセグメン テーションを実現。 弊社事例 https://note.com/algomatic_oa/n/n6b48170c547a https://note.com/algomatic_oa/n/nfd078f15000d 空席情報(飲⾷店)のリアルタイム連携 インスタンスセグメンテーションによる⼈物抽出
Multi-Head Attentionの多様性の向上 マルチモーダルの課題に応じたアーキテクチャ選択を⾏う必要がある。例) マルチモーダルにお けるSelf-Attentionは計算量が多くなる。 課題に応じたマルチモーダルAIアーキテクチャ 階層的な特徴マップによる計算量削減 と多様な物体スケールへの対応 https://arxiv.org/pdf/2103.14030
https://arxiv.org/pdf/1910.00058
マルチモーダルデータ基盤の課題と観点
テキストのみのデータと⽐較し、データ量が莫⼤。また、アノテーション、学習コストが⾼い。 例)ノイズ除去、クロスモーダル検証、ロバストネス評価。 データの量/質的に課題が顕著に 複雑なアノテーション http://lrec-conf.org/proceedings/lrec2004/pdf/480.pdf
マルチモーダルデータ基盤もLLMOpsに類似する https://www.databricks.com/jp/glossary/llmops 項⽬ LLMOps MLOps 計算リソー ス 高負荷の計算が必要、 GPUや圧
縮技術が重要 一般的なリソースで実行可能、場合により GPU使用 転移学習 基礎モデルを微調整し特定ドメイ ンへ適用 ゼロからの学習が多く、必要に応じ転移学 習を利用 RLHF RLHFでユーザーフィードバックを 反映 フィードバック活用は一般的だが、 LLMほ ど頻繁ではない HPO コスト削減重視、バッチサイズ等で 効率性を調整 精度重視でチューニング 評価 BLEUやROUGEなど主観的指標 が多い 精度、AUC、F1スコアなど明確で計算が 容易な指標 Prompting プロンプト設計が重要で、ハッキン グ対策が必要 通常プロンプト設計は不要 LLMパイプ ライン LangChainなどを使用し LLMと外 部システムを連携 データ処理ワークフローを構築してモデル をデプロイ LLMOps vs MLOps
マルチモーダルAIシステムの評価 https://arxiv.org/pdf/2408.15769 マルチモーダル評価のベンチマークは汎⽤/特化型タスクで既に多く存在する。
MEGA-Bench マルチモーダルモデルを評価するために、500以上の実世界タスクに対応した評価ベンチマーク https://arxiv.org/html/2410.10563v1
マルチモーダル AIの未来
マルチモーダルAIによる自律型ロボットの進化 Tesla Bot (2023) https://x.com/CernBasher/status/1758550609840517484/photo/1 Tesla Bot RAISE-A1 Atlas
各国で⾃律型AIロボットの開発が激化。
ロボティクス×深層学習で、環境変化に強く、⾼度なタスクが実⾏できる⾃律型AIロボットが開 発され始めている。⾃然⾔語による指⽰で、特定の下流タスクをゼロショットで実現できる汎化 性能を獲得。 ロボティクス×Transformer https://robotics-transformer1.github.io/
少⼦⾼齢化の労働⼒不⾜でロボティクス需要が⾼まる中、基盤モデルの適⽤が開始されている。 しかし、技術的な課題は多く、まだ勝者がいない状況である。 早過ぎず、遅過ぎないタイミング 出典:内閣府(2022)「令和4年版⾼齢社会⽩書」 出典:⼈⼝動態統計(概数) 労働⼈⼝減少に伴う深刻な⼈⼿不⾜ LLMなどの基盤モデルの進歩 ⽇本では2024年通年で70万⼈を切る⾒込みに ⾃然⾔語のみならず、複数のモダリティで⾶躍的な成果が
https://arxiv.org/pdf/2306.13549
まとめ
• マルチモーダルAIのアーキテクチャは課題に合わせて⾏う。 • 特に、Transformerの特徴である並列性、Multi-Head Attentionによるコン テキスト理解を最適化する。 • ソフトウェア×ハードウェアの未解決領域は市場ポテンシャルが⼤きい。 まとめ
Algomaticに興味ある方、お待ちしております!