Vision and LanguageからのEmbodied AIとAI for Science

Vision and Language からの Embodied AIとAI for Science 牛久祥孝
losnuevetoros 株式会社NexaScience/オムロンサイニックエックス株式会社

自己紹介 2013.6～2013.8 Microsoft Research Intern 2014.3 博士(情報理工学)、東京大学 2014.4～2016.3 NTT CS研
研究員 2016.4～2018.9 東京大学講師 (原田牛久研究室) 2018.10～2024.3 オムロンサイニックエックス株式会社 Principal Investigator 2019.1～株式会社 Ridge-i Chief Research Officer 2022.1～合同会社ナインブルズ代表 2023.10～国立研究開発法人産業技術総合研究所覚醒プロジェクトプロジェクトマネージャー 2023.12～理化学研究所客員主管研究員 2024.4～オムロンサイニックエックス株式会社 Vice President for Research 2024.10～株式会社NexaScience 代表取締役 [Ushiku+, ACMMM 2012] [Ushiku+, ICCV 2015] 画像キャプション生成動画の特定区間とキャプションの相互検索 [Yamaguchi+, ICCV 2017] A guy is skiing with no shirt on and yellow snow pants. A yellow train on the tracks near a train station.

2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に
[Krizhevsky+, NIPS 2012] シンプルな翻訳手法の精度が複雑なシステムと同等に [Sutskever+, NIPS 2014]

2011 2012 2014 電話音声認識のエラー率が 30%程度→20%以下に [Seide+, InterSpeech 2011] 大規模画像分類のエラー率が 25%程度→15%程度に
[Krizhevsky+, NIPS 2012] LSTMで英仏翻訳の精度が複雑なシステムと同等に [Sutskever+, NIPS 2014]

Transformer 任意の個数のベクトルを形式で変形する技術 Encoder-Decoder [Vaswani+, NIPS 2017]

2013 VAE [Kingma+Welling, ICLR’14] 2014 GAN [Goodfellow+, NIPS’14] 2015 DCGAN
[Radford+, ICLR’16] 2016 文章＋GAN [Reed+, ICML’16] 2017 pix2pix [Isola+, CVPR’17] [Zhu+, ICCV’17] 2020 NeRF [Mildenhall+, ECCV’20] 2021 DALL·E [Ramesh+, 2021] 2022 拡散モデル [Ramesh+, 2022] [Rombach+, CVPR’22] 2018 多段GAN [Karras+, ICLR’18] [Zhang+, TPAMI’18] 2019 StyleGAN [Karras+, CVPR’19] 2023 3DGS [Kerbl+, SIGGRAPH’23] 2024 長尺動画 [Brooks, Peebles+, 2024]

基盤モデルある目的関数のもと自己教師あり学習された巨大なモデルメリット：種々のタスクに容易に転用できる [Bommasani+, 2021]

基盤モデルある目的関数のもと自己教師あり学習された巨大なモデルメリット：種々のタスクに容易に転用できる [Bommasani+, 2021] Vision and Language
からのマルチモーダルAI時代

マルチモーダルAI老人会

いにしえのVision and Language • 参照表現理解＝”ウォーリーを探せ” • 歴史はとても長い – SHRDLU [Winograd,
1972] の一機能として積み木の世界での参照表現理解を実現 [Yu+, CVPR 2017

Every picture tells a story データセット：画像＋<object, action, scene>+キャプション 1.
画像の<object, action, scene>をMRFで推定 2. <object, action, scene>が同じキャプションを検索して利用 <Horse, Ride, Field> [Farhadi+, ECCV 2010]

Every picture tells a story <pet, sleep, ground> See something
unexpected. <transportation, move, track> A man stands next to a train on a cloudy day. [Farhadi+, ECCV 2010]

マルチキーフレーズ推定アプローチ当時の問題＝使用候補であるフレーズの精度が悪いキーフレーズを独立なラベルとして扱うと… マルチキーフレーズの推定＝一般画像認識文生成は[Ushiku+, ACM MM 2011]と同じ [Ushiku+, ACM
MM 2012]

Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]
AMTで人力解決 • 初の自動化（ディープラーニング不使用） [Malinowski+Fritz, NIPS 2014] • 類似用語：Visual Turing Test [Malinowski+Fritz, 2014]

Visual Question Answering (VQA) 最初はユーザインタフェース分野で注目 • VizWiz [Bigham+, UIST 2010]
AMTで人力解決 • 初の自動化（ディープラーニング不使用） [Malinowski+Fritz, NIPS 2014] • 類似用語：Visual Turing Test [Malinowski+Fritz, 2014] このような経緯から… つぎのような様々な取り組みが！

ビジュアル質問応答 [Fukui+, EMNLP 2016]

ビジュアル質問応答 [Fukui+, EMNLP 2016] ①マルチモーダル理解入力：ビジュアルデータ＋テキストデータ → 出力：認識結果

画像キャプション生成 Group of people sitting at a table with a
dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015]

画像キャプション生成 Group of people sitting at a table with a
dinner. Tourists are standing on the middle of a flat desert. [Ushiku+, ICCV 2015] ②Image2Text 入力：ビジュアルデータ → 出力：テキストデータ

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in
a wizard hat riding a car A photo of the food of japan

キャプションからの画像生成 [Ramesh+, 2021] An illustration of a baby hedgehog in
a wizard hat riding a car A photo of the food of japan ③Text2Image 入力：テキストデータ → 出力：ビジュアルデータ

テキストによる画像編集 [Dong+, ICCV 2017]

テキストによる画像編集 [Dong+, ICCV 2017] ④Image+Text2Image 入力：ビジュアルデータ＋テキストデータ → 出力：テキストデータ

ビジュアル対話 Questioner Answerer A couple of people in the snow
on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017]

ビジュアル対話 Questioner Answerer A couple of people in the snow
on skis. What are their genders? Are they both adults? Do they wear goggles? Do they have hats on? Are there any other people? What color is man’s hat? Is it snowing now? What is woman wearing? Are they smiling? Do you see trees? 1 man 1 woman Yes Looks like sunglasses Man does No Black No Blue jacket and black pants Yes Yes [Das+, CVPR 2017] ⑤Image+Text2Text 入力：ビジュアルデータ＋テキストデータ → 出力：テキストデータ

ICRA 2024 CHI 2024 ICLR 2024 ECCV 2024 近未来を作る会社オムロン
サイニックエックス株式会社近未来の社会から必要とされる革新的技術を手繰り寄せ、社会実装を実現するための具体的なアーキテクチャを創出するミッションを背負い、2018年、東京本郷の地で立ち上がりました。 Robotics, CV, NLP, ML, HCIといった広い分野における研究を通して、近未来デザインの創出を目指しています。

手前味噌タイム：作業記録動画像からマニュアル自動生成 [Nishimura+, MTA 2023] (a) Cut the pork in half
and remove the pork 豚肉を半分に切り、豚肉を取り出す (b) Season the pork with salt and pepper 豚肉に塩・胡椒をする (c) Season the pork with salt and pepper 豚肉に塩・胡椒をする (d) Heat some butter in a pan フライパンでバターを熱する (e) Coat the pork in the break crumbs 豚肉にパン粉をまぶします (f) Fry the pork in a pan フライパンで豚肉を炒めます [日経新聞2022年10月18日朝刊 https://www.nikkei.com/article/DGXZQOUC297B00Z20C22A9000000/]

Egocentric Biochemical Video-and-Language Dataset (BioVL) • 調理以外の作業を理解する→生化学実験 • 4種類の実験をそれぞれ4回撮影したデータセット –
PCR, ミニプレップ, DNA抽出, アガノースゲル作成 – DNA抽出は, フェノールクロロホルム抽出2回, エタノール抽出2回 – 撮影後, 手順とvideoのイベントをアノテーション [Nishimura+, ICCV WS 2021]

AI for Science

20世紀：AIで科学研究を駆動する先駆者 • DENDRAL[Feigenbaum+, 1971] – 質量スペクトルから化学構造を推定するシステム – 第2次AIブームにおけるエキスパートシステムのさきがけ • PROSPECTOR[Hart+,
1978] – 鉱床を発見するためのシステム • 共通課題：AIがあっても物理世界で実験できない？

2000年代：実世界でのデータ取得 Adam=酵母遺伝学実験の自動化 →新規遺伝子の同定 [King+, Science 2009] 力学的カオス系の実験データを取得 →既知の法則（保存則）を再発見 [Schmidtz+Lipson, Science
2009]

2010年代：深層学習の進化と普及 • 深層学習の進化 – CNN/RNN→Transformer • 深層学習を活用した各科学プロセスの駆動 – AlphaFold＝タンパク質の3次元構造推定 [Jumper+,
Nature 2021]

2020年代：サイバーフィジカルでのエージェントの進化 Mobile robot chemistが光触媒の活性を自律的に改善 [Burger+, Nature 2020] LabDroid「まほろ」が再生医療用の細胞レシピを自律的に改善
[Kanda+, eLife 2022]

手前味噌：新たな材料を発見したい非常に硬く、高い熱伝導性と透明性を持つ材料を考えて

新材料発見＝検索/生成新規結晶の生成 [Chiba+, Comm. Mat. 2023] 検索による再発見 [Suzuki+, MLST 2022]

新材料の物性を予測するにはここでは材料＝結晶構造例：転移学習による超高格子熱伝導材料の熱伝導率推定[Ju+, Phys. Rev. Materials’21] • 手動特徴量設計＋機械学習
• 深層学習による同時最適化 • 従来の深層学習：グラフベース – 計算量が大きい – エッジをどう張る？特徴量に求められる性質順列不変並進回転(SE(3))不変周期境界のずれ不変構造の繰り返し [Xie+Grossman, Phys. Rev. Lett. 20 [Taniai+, ICLR 2024] [Ito+, ICLR 2025]

特徴量に求められる性質をTransformerで満たすには • 順列不変：Transformerはもともと順列不変 • 並列回転不変＋周期境界のずれ不変： Transformerに原子の絶対位置ではなく相対位置を与える • 繰り返し構造への対応：膨大に続く繰り返し構造=無限トークン？
Attentionに統合して有限トークンで計算可能 • 並進回転不変： Transformer自体が動的にローカル座標系を更新 [Ito+, ICLR 2015]

手前味噌：データから科学法則を発見したい

関数同定問題 Symbolic Regression 観測された実験結果を数式として理解する • データセット：表 – 時刻 – リンゴのY座標
• 目的 – 変数間の関係を示す式の発見＝テーブルデータから数式への変換 [Lalande+, NeurIPS 2023 WS]

手前味噌：サイバー空間の研究をAIにやらせたい

自律駆動研究OSS AIRAS AIRASとは： • OSSとして公開した自律駆動研究ソフトウェア (https://github.com/autores/researchgraph) • 論文検索→融合的アイディア生成→実験計
画・実行→論文執筆を自動で実行可能 • “卒論レベル”の論文は既に生成可能熊谷亘氏が主導するプロジェクトAutoResで開発

手前味噌：実験作業をロボットにやらせたい

[Kadokawa+, IROS 2023]

44 [Nakajima+, IROS 2023]

[Yotsumoto+, Digital Discovery 2024][Nakajima+, Digital Discovery 2024]

Embodied AI

Physical Intelligence/Embodied AIの時代 [Black+, 2024]

Vision-and-Language Navigation (VNL) 対話行為が移動とナビゲーション [Anderson+, ICCV 2017]

EmbodiedQA 質問応答のために探索が必要な問題著者自らがその後、階層的な方策を獲得するA3Cベースの強化学習を提案 [Das+, CoRL 2018] [Das+, CVPR 2018]

基盤モデルとの接続（SayCan） [Ahn+, 2022]

データセットのコモディティ化 [Open X-Embodiment Collaboration, 2023]

国内でもAIロボット基盤モデルを作ろう！ • AIロボット協会(AIRoA) – 2024年12月に設立され、理事長は早稲田大学の尾形哲也教授 – 2025年3月27日に早稲田大学で記者会見を開き、活動を本格化すると発表 • 目的はAIとロボットを融合した「ロボットデータエコシステム」の構築 –
大規模なロボット稼働データの収集・統合・学習による「ロボット基盤モデル」 – 2025年内に実施する初期開発では汎用スキルデータセットと基盤モデルを公開 • 会員企業 – 正会員14社（トヨタ、日産、KDDI、富士通など） – 育成会員8社で構成

[Shirai+, ICRA 2024]

まとめ • Vision and Language – 老人しぐさを無事に発露した • AI for
Science – 過去の流れと手前味噌のAI Robot for Materialsの研究を紹介した – Vision and Language の考え方は随所で活かされている • Embodied AI – AI for Scienceでもロボット化の流れが来ている – Vision and Languageの流れからもEmbodied AIが注目されている

Vision and LanguageからのEmbodied AIとAI for Science

Vision and LanguageからのEmbodied AIとAI for Science

More Decks by Yoshitaka Ushiku

Other Decks in Research

Featured

Transcript