マルチモーダルデータ基盤の課題と観点

Slide 1

Slide 1 text

Slide 2

Slide 2 text

自己紹介  取締役CTO/AXのカンパニーCTOを兼務南⾥勇気/ Yuki Nanri @neonankiti 複数社のスタートアップ経営(事業会社/受託会社) ヘルスケアスタートアップの創業期ソフトウェアエンジニアとして参画

Slide 3

Slide 3 text

Algomaticの特徴「生成AI×事業開発」  

Slide 4

Slide 4 text

マルチモーダル AIについて

Slide 5

Slide 5 text

マルチモーダルAIとは何か？   モーダルとは、情報の表現形式。モーダルには、⾔語的(⾃然⾔語)、⾮⾔語的(⾳声、画像など) な種類がある。マルチモーダルAIとは、⾔語と⾮⾔語の情報を統合的に処理すること。モダリティの種類 https://journal.ntt.co.jp/wp-content/uploads/2024/03/nttjnl2001_20240401.pdf 統合的な処理 https://www.youtube.com/watch?v=1ADuAOkQ1sQ&list=PLQcPcYQkptd XXAjUuwlvc3PudConuZHU4 ・自然言語（音声言語、文章）・視覚情報（画像、映像）・聴覚情報（音声、音、音楽）・触覚・匂い、味・生理指標（心拍、発汗）・その他（脳波、fMRI）非言語

Slide 6

Slide 6 text

言語と非言語データの関連付けによる意味理解   異なる種類(⾔語/⾮⾔語)はデータ形式を統⼀(ベクトル化)し、計算処理ができる状態に。 Transformerベースでは、⼤きく4つのアーキテクチャに分類できる。 https://arxiv.org/html/2405.17927v1 4つのアーキテクチャパターン Standard Cross-Attention based Deep Fusion (SCDF)

Slide 7

Slide 7 text

マルチモーダル処理の事例。video2txt、img2imgで、抽象的なコンテキスト理解やセグメンテーションを実現。弊社事例  https://note.com/algomatic_oa/n/n6b48170c547a https://note.com/algomatic_oa/n/nfd078f15000d 空席情報(飲⾷店)のリアルタイム連携インスタンスセグメンテーションによる⼈物抽出

Slide 8

Slide 8 text

Multi-Head Attentionの多様性の向上マルチモーダルの課題に応じたアーキテクチャ選択を⾏う必要がある。例) マルチモーダルにおけるSelf-Attentionは計算量が多くなる。課題に応じたマルチモーダルAIアーキテクチャ   階層的な特徴マップによる計算量削減と多様な物体スケールへの対応 https://arxiv.org/pdf/2103.14030 https://arxiv.org/pdf/1910.00058

Slide 9

Slide 9 text

マルチモーダルデータ基盤の課題と観点

Slide 10

Slide 10 text

テキストのみのデータと⽐較し、データ量が莫⼤。また、アノテーション、学習コストが⾼い。例)ノイズ除去、クロスモーダル検証、ロバストネス評価。データの量/質的に課題が顕著に   複雑なアノテーション http://lrec-conf.org/proceedings/lrec2004/pdf/480.pdf

Slide 11

Slide 11 text

マルチモーダルデータ基盤もLLMOpsに類似する   https://www.databricks.com/jp/glossary/llmops 項⽬ LLMOps MLOps 計算リソース高負荷の計算が必要、 GPUや圧縮技術が重要一般的なリソースで実行可能、場合により GPU使用転移学習基礎モデルを微調整し特定ドメインへ適用ゼロからの学習が多く、必要に応じ転移学習を利用 RLHF RLHFでユーザーフィードバックを反映フィードバック活用は一般的だが、 LLMほど頻繁ではない HPO コスト削減重視、バッチサイズ等で効率性を調整精度重視でチューニング評価 BLEUやROUGEなど主観的指標が多い精度、AUC、F1スコアなど明確で計算が容易な指標 Prompting プロンプト設計が重要で、ハッキング対策が必要通常プロンプト設計は不要 LLMパイプライン LangChainなどを使用し LLMと外部システムを連携データ処理ワークフローを構築してモデルをデプロイ LLMOps vs MLOps

Slide 12

Slide 12 text

マルチモーダルAIシステムの評価   https://arxiv.org/pdf/2408.15769 マルチモーダル評価のベンチマークは汎⽤/特化型タスクで既に多く存在する。

Slide 13

Slide 13 text

MEGA-Bench   マルチモーダルモデルを評価するために、500以上の実世界タスクに対応した評価ベンチマーク https://arxiv.org/html/2410.10563v1

Slide 14

Slide 14 text

マルチモーダル AIの未来

Slide 15

Slide 15 text

マルチモーダルAIによる自律型ロボットの進化   Tesla Bot (2023) https://x.com/CernBasher/status/1758550609840517484/photo/1 Tesla Bot RAISE-A1 Atlas 各国で⾃律型AIロボットの開発が激化。

Slide 16

Slide 16 text

ロボティクス×深層学習で、環境変化に強く、⾼度なタスクが実⾏できる⾃律型AIロボットが開発され始めている。⾃然⾔語による指⽰で、特定の下流タスクをゼロショットで実現できる汎化性能を獲得。ロボティクス×Transformer   https://robotics-transformer1.github.io/

Slide 17

Slide 17 text

少⼦⾼齢化の労働⼒不⾜でロボティクス需要が⾼まる中、基盤モデルの適⽤が開始されている。しかし、技術的な課題は多く、まだ勝者がいない状況である。早過ぎず、遅過ぎないタイミング   出典:内閣府（2022）「令和4年版⾼齢社会⽩書」出典:⼈⼝動態統計（概数）労働⼈⼝減少に伴う深刻な⼈⼿不⾜ LLMなどの基盤モデルの進歩⽇本では2024年通年で70万⼈を切る⾒込みに⾃然⾔語のみならず、複数のモダリティで⾶躍的な成果が https://arxiv.org/pdf/2306.13549

Slide 18

Slide 18 text

まとめ

Slide 19

Slide 19 text

● マルチモーダルAIのアーキテクチャは課題に合わせて⾏う。 ● 特に、Transformerの特徴である並列性、Multi-Head Attentionによるコンテキスト理解を最適化する。 ● ソフトウェア×ハードウェアの未解決領域は市場ポテンシャルが⼤きい。まとめ 

Slide 20

Slide 20 text

Algomaticに興味ある方、お待ちしております！