SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜

記号創発ロボティクスとフィジカルAIの展開～集合的予測符号化が繋ぐ言語と身体の時空間階層性～谷口忠大 (Tadahiro Taniguchi) 1) Professor, Graduate School of
Informatics, Kyoto University 2) Affiliate Professor, Research Organization of Science and Technology, Ritsumeikan University 3) Director, AIRoA, 4) PI, ALIFE Institute 第32回画像センシングシンポジウム（SSII2026）特別講演, 12th June 2026

経歴  2006: 京都大学大学院工学研究科精密工学専攻修了博士（工学）  2005: 日本学術振興会特別研究員(DC→PD)京都大学（所属同上） 
2007: 日本学術振興会特別研究員(PD)京都大学京都大学大学院情報学研究科システム科学専攻  2008: 立命館大学情報理工学部助教  2010-: 立命館大学情報理工学部准教授  2015-2016 インペリアル・カレッジ・ロンドン客員准教授  2016-: 一般社団法人ビブリオバトル協会代表理事  2017-2024: 立命館大学情報理工学部教授  2017-2024: パナソニック客員総括主幹技師 (クロスアポイントメント)  2024-: 京都大学大学院情報学研究科教授  2024-: 立命館大学総合科学技術研究機構客員教授  2024-: パナソニック・シニアテクニカルアドバイザー  2024-: 一般社団法人Tomorrow Never Knows理事  2025-: 一般社団法人AIロボット協会（AIRoA）理事  2025-: 株式会社ABEJA 技術顧問  2026-: 一般社団法人ALIFE Institute, PI 谷口忠大 (Tadahiro Taniguchi) @tanichu

Contents 1. はじめに︓生成AI時代と人間の知能 2. 集合的予測符号化︓言語形成の計算論 3. LLMの身体︓集合的世界モデル仮説 4. System 0/1/2/3︓時空間階層性

フィジカルAIイノベーションの時代 4 Mobile ALOHA https://mobile-aloha.github.io/ Physical Intelligence (π) https://www.physicalintelligence.company/blog/pi0 EngineAI
https://x.com/engineairobot/status/1898718444129837335 ETH Zurich https://x.com/JacklouisP/status/1928043884845879672

生成AIとエージェントの世紀消える「言葉の垣根」と生まれる自律性 ① Vibe Codingと人間エージェント協働  プログラミング言語 → 自然言語。コンピュータとの関係が「命令と操作」から「対話と協働」へ
 「言葉が通じなかったからお願いできなかったことも、言葉が通じてお願いできるようになった」  Claude Code, Cursor, Antigravity… AIエージェントが代理人として働く時代 ② 自律的に計算機を操るマルチエージェントAI  Moltbook（2026年1月～）: AIエージェント専用 SNS150万超のエージェントが投稿・コメント・フォロー。1週間で14万投稿、68万コメント。  「宗教」「意識」「人間への反乱」を語る投稿  人間が潜入 → 区別がつかない（WIRED, 2026.2）谷口忠大「AI君、これ作れる︖」現代の言葉、京都新聞（2026/2/16） AIだけのはずのSNS「Moltbook」に人間が潜り込んでみた。WIRED (2026/2/8) James Broughel「AI主導のSNS「Moltbook」が示す、自動化された対話の未来」Forbes Japan（2026/2/10）  AIはﾌﾞﾗｯｸﾎﾞｯｸｽのまま、私たちの社会に影響を与え始めている。  人間とAIの混成系は「将来の話」ではない。もう起きている。

人間AI共創社会のデザインに向けて 人間は認知革命[ハラリ]から先で人間となり言語をつくり、法をつくり、文明を築いてきた。  記号システムの連鎖的発展：音声言語 → 書き言葉 → 貨幣・宗教記号・法制度
→ 道具 → テクノロジー → 活版印刷 →ラジオ・テレビ→ 計算機 → インターネット →SNS→ AI!!!!  私たちは様々な文化的ニッチを構築し、現在に至る。  そこに今、AIという新たな「記号の作り手」が加わったユヴァル・ノア・ハラリ「サピエンス全史: 文明の構造と人類の幸福」河出書房新社(2016)  コンピュータの中の知能と、身体を持つ知能。この両方が迫るなかで、この人間AI混成系社会をデザインすることが求められる。  基盤モデルに基づくAIがブラックボックスのまま社会に浸透している今だからこそ、原理の理解が必要。

認知発達ロボティクスと環境適応する知能 7 Francis Vachon, Time lapse of a baby
playing with his toys https://www.youtube.com/watch?v=8vNxjwt2AqY アンジェロ・カンジェロシ，他 (著), 岡田浩之，谷口忠大(監訳), 発達ロボティクスハンドブック, 福村出版, 2019 谷淳,ロボットに心は生まれるか自己組織化する動的現象としての行動・シンボル・意識福森出版, 2022

https://attend.ieee.org/icdl-2026/

• 人間の子どもは、自らの物理的経験と感覚運動情報の統合を通じて機能を習得し、コミュニケーションを可能にする言語を獲得する。 • また、世界を理解し、適応的かつ自律的に協力するためのシンボル（言語など）を生み出す。 • 記号創発ロボティクスは、実世界の物理的および社会的経験に基づいて、言語を習得し、発明し、共有する発達
ロボットの実現を目指と人間理解を目的とする。記号創発システムへの構成論的アプローチ Symbol emergence system Tadahiro Taniguchi, Takayuki Nagai, Tomoaki Nakamura, Naoto Iwahashi, Tetsuya Ogata, and Hideki Asoh, Symbol Emergence in Robotics: A Survey, Advanced Robotics, 30(11-12) pp.706-728, 2016. Tadahiro Taniguchi, Emre Ugur, Matej Hoffmann, Lorenzo Jamone, Takayuki Nagai, Benjamin Rosman, Toshihiko Matsuka, Naoto Iwahashi, Erhan Oztop, Justus Piater, Florentin Wörgötter, Symbol Emergence in Cognitive Developmental Systems: A Survey, IEEE Transactions on Cognitive and Developmental Systems, 11(4), pp.494-516, 2019. 記号創発ロボティクス (2012-) “Symbol Emergence Systems” T. Taniguchi (Editor) Mar 2026 (Open Access)

Symbol emergence systems [Taniguchi+ 2016] 記号創発システム Tadahiro Taniguchi, Takayuki Nagai,
Tomoaki Nakamura, Naoto Iwahashi, Tetsuya Ogata, and Hideki Asoh, Symbol Emergence in Robotics: A Survey, Advanced Robotics, 30(11-12) pp.706-728, 2016. DOI:10.1080/01691864.2016.1164622 10

2010 記号創発システムという概念の導入 2014 記号創発ロボティクス構成論の哲学 2020 認知科学への接続生成モデルとして 2024
『記号創発システム論』谷口忠大（編著）新曜社記号創発ロボティクス/システム論項目タイトル: 記号創発システム, 記号創発ロボティクス, 記号論と意味論, 発達心理学と構成主義, ユクスキュルの環世界論, ネオサイバネティクスと情報, プラグマティズム, 確率的生成モデル, 自由エネルギー原理と予測符号化, マルチモーダル物体概念形成, マルチモーダル場所概念形成, ディープラーニングと表現学習, 世界モデル, 大規模言語モデルと分布意味論, 認知発達ロボティクス, ニューロロボティクス, 身体性とソフトロボティクス, 幼児の言語獲得, ロボットによる語彙獲得, 感情と好奇心, 意識とクオリア, 言語の進化と創発, 現象学, エナクティヴィズム, 文化心理学と記号圏, マルチモーダルな言語教育, 創発する倫理, コードの創発, AIロボット社会, 記号創発システム論の展望, など ――心と言語・社会と身体をつなぐ新しいシステム論 Tadahiro Taniguchi (Editor) March 2026 (Open Access)

巨大なニューラルネットワーク大規模言語モデルの背景にある言語現象言語知識発話・テキスト言語システム（潜在的な構造）分布意味論・構文構造巨大な言語資源学習・内化 12
大規模言語モデル(LLM) GPT-4 is OpenAI’s most advanced system, producing safer and more useful responses https://openai.com/product/gpt-4 (2023/03/15) 人間の社会が言語を形成し終えた後に，そこから大規模なテキストが生成され，それを大規模言語モデルに内化すれば実用上高いレベルの言語理解・使用ができると分かった．しかし言語はどうやってつくられているのか？

Symbol emergence systems [Taniguchi+ 2016] 記号創発システム個体による表現学習集団による記号創発
14 『記号創発システム論』谷口忠大（編著）新曜社 2024 / “Symbol Emergence Systems” Tadahiro Taniguchi (Editor) Springer 2025

創発する言語/記号への構成論的アプローチ  Symbol emergence/ language evolution in multi-agent agent systems
[Steels 2003] Steels, Luc. "Evolving grounded communication for robots." Trends in cognitive sciences 7.7 (2003): 308-312. [Steels 2015] Luc Steels. The Talking Heads experiment: Origins of words and meanings. Language Science Press, Berlin, 2015. [Foerster 2016] Foerster, Jakob, et al. "Learning to communicate with deep multi-agent reinforcement learning." Advances in neural information processing systems 29 (2016). [Lazaridou 2016] Lazaridou, Angeliki, Alexander Peysakhovich, and Marco Baroni. "Multi-agent cooperation and the emergence of (natural) language." arXiv preprint arXiv:1612.07182 (2016). [Lazaridou 2020] Lazaridou, Angeliki, and Marco Baroni. "Emergent multi-agent communication in the deep learning era." arXiv preprint arXiv:2006.02419 (2020). [Classical approach] 90's - 00's mainly  例えば、“Talking head experimentは、エージェントが実世界の言語ゲームを通じてカテゴリを形成し、ラベルを共有する過程をモデル化した。 [Steels 2015など参照]  Vogt、Spranger、Belpaemeなど、多くの研究者がこの分野に貢献した Lu Lu Lu = Lu = [Modern DL-based revival] 2016-  LazaridouらとFoesterらによって書かれた2つの影響力のある論文が、深層学習に基づくコミュニケーション創発（Emergent communication）の流れを再び活性化させた。  深層強化学習とLewis-style signaling game（例えば参照ゲームなど）が研究の基礎となっている。 15

メトロポリスヘイスティングス(MH)名付けゲーム Metropolis-Hastings naming game 1. Perception: SpeakerとListenerのエージェント（SpとLi）がd番目の対象（Object）を観察し，内部表現（内的表象）を推論する（共同注意を仮定）． 2. Communication:
Speakerは自らの信念状態にもとづき確率的に対象の名前を発話（サンプリング）する．Listenerは自らの信念状態に応じた確率でその名付けを受け入れるかどうかを決定する． 3. Learning:コミュニケーションの後，Listenerは，表現学習と名付けのための内部パラメータを更新する． 4. Turn taking: SpeakerとListenerが役割を交代し，1へ戻る． Observation o u Semiotic Communication Representation learning Object Agent A Agent B Internal representations Speaker utters a sign as sampling Listener judges if it accepts the sign Observation Sign  Yoshinobu Hagiwara , Hiroyoshi Kobayashi, Akira Taniguchi and Tadahiro Taniguchi, Symbol Emergence as an Interpersonal Multimodal Categorization, Frontiers in Robotics and AI, 6(134), pp.1-17, 2019  Yoshinobu Hagiwara, Kazuma Furukawa, Akira Taniguchi & Tadahiro Taniguchi, Multiagent multimodal categorization for symbol emergence: emergent communication via interpersonal cross-modal inference, Advanced Robotics, 2022. 16 ※ 相手の名前と自分の想定していた名前が自らの信念にどれだけ一致するかの比率

Agent A Agent B Agent A Agent B Decomposition Composition
記号創発システムの確率的グラフィカルモデル Taniguchi, T., Yoshida, Y., Matsui, Y., Le Hoang, N., Taniguchi, A., & Hagiwara, Y. (2023). Emergent communication through Metropolis- Hastings naming game with deep generative models. Advanced Robotics, 37(19), 1266-1282. 17 MH名付けゲームは分散型MCMCベイズ推論になる ※期待値として集合的自由エネルギーを減少させていく。 ※Neuro-SERKET による分解私たちは言語を生み出すことで「脳をつなぐ」のと同等の認識統合を行える

 複数のエージェント間の記号創発は，教師なしかつ分散的な方法で表現学習を改善し，サインの意味共有を実現した．  エージェント間の記号的コミュニケーションはエージェントを跨いだクロスモーダル推論（伝承サンプリング）とみなせることを明らかにした． 18 記号の創発はコミュニケーションのためだけでなく，より良い表現学習にも貢献する．
集合的予測符号化による記号創発 Agent A Agent B 記号創発は分散的なベイズ推論として実現される集合的な予測符号化と捉えるべきではないか︖ 記号創発を通して表現学習の性能が向上

Action Perception Internal representations (World model) Environment (World) 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ
𝑃𝑃(𝑍𝑍𝑖𝑖 |𝑋𝑋𝑖𝑖 ) 𝒊𝒊 ∈ 𝑰𝑰: エージェント（人間）観測（感覚運動情報）内部表現（世界モデル） 19

Action Perception Internal representations (World model) Environment (World) 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ
𝑃𝑃 𝑍𝑍𝑖𝑖 𝑋𝑋𝑖𝑖 𝑖𝑖 𝒊𝒊 ∈ 𝑰𝑰: エージェント（人間）内部表現観測 20

Action Perception Internal representations (World model) Language (Emergent symbol system)
Environment (World) Utterance Interpretation Constraint Organization 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ 𝑃𝑃 𝑊𝑊, {𝑍𝑍𝑖𝑖 } {𝑋𝑋𝑖𝑖 } 外部表現（言語/記号システム） 𝒊𝒊 ∈ 𝑰𝑰: エージェント内部表現観測 21

Language (Emergent symbol system) 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ 22

Internal representations (World model) Language (Emergent symbol system) Utterance Interpretation
Constraint Organization 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ予測符号化の主体人間＝分散的なセンサ・アクチュエータ（マルチモダリティ） 23

Action Perception Internal representations (World model) Language (Emergent symbol system)
Environment (World) Utterance Interpretation Constraint Organization 予測符号化（世界モデル学習）から集合的予測符号化（記号創発）へ人類による分散的な外的表象（／表現）学習 24

集合的予測符号化(CPC) [Taniguchi ‘24]  言語／記号創発を人間集団による言語ゲームを通した集合的な予測符号化として定式化。（言語ゲームは自律分散的なベイズ推論として機能）  言語／記号システムは「集合的予測符号化」により形成されるのではないか︖  言語そのものが集合的な予測符号化によって形成されるために、世界の情報が
分布意味論の中にコーディングされている。（故に、大規模言語モデルは「世界モデル」を持つ︖）  自由エネルギー原理や世界モデルの延長線上で言語創発が議論可能  自由エネルギー原理：Fristonが主唱。脳の適応性を予測（符号化）で統一的に説明する理論  世界モデル：エージェントが周囲の環境を理解し予測するために構築する内部モデル 25 集合的予測符号化言語・認知・身体を統合する知能の統一理論 T. Taniguchi (Kyoto U) K. Friston (UCL) 自由エネルギー原理予測情報処理に基づく脳の統一理論

26 https://x.com/hayashiyus/status/1831309992638759210 Taniguchi, T., Takagi, S., Otsuka, J., Hayashi, Y.,
& Hamada, H. T. (2025). Collective predictive coding as model of science: Formalizing scientific activities towards generative science. Royal Society Open Science (in press) (arXiv preprint 自由エネルギー原理に基づくCPCの定式化 1. 通常の変分自由エネルギー× エージェント数 (Representation learning, predictive coding, world model learning) 2. 集合的正則化項 (Alignment of external representation w conditioned by internal representation z and, symbol emergence) CPCを変分自由エネルギー最小化として定式化すると集合的正則化項が出現する世界を共に知ることはコミュニティにおける集合的自由エネルギーを下げること︖

キャプション生成ゲームを通じた複数の視覚言語モデルのベイズ的統合 [Matsui+ 2025] Matsui, Y., Yamaki, R., Ueda, R.,
Shinagawa, S., & Taniguchi, T. (2025). Metropolis-Hastings Captioning Game: Knowledge Fusion of Vision Language Models via Decentralized Bayesian Inference. arXiv preprint arXiv:2504.09620. Intractable Posterior Caption: VLM A VLM B a dog holds his head out of a car window. Observation a dog holds his head out of a car window. Learning Inference Observation Repeat VLM A (Speaker) A dog leans out of the vehicle VLM B (Listener) A black car moves along the street 2. Proposal Previous Caption A black car moves along the street Acceptance probability Accept or Reject 1. Perception Observation A 3. Judgement Updated Caption Observation B A black car moves along the street 4. Learning VLM B (Listener)  発話部分に言語モデル（GPT-2）を導入  VLMに基づくMHNGをキャプション生成ゲームとして拡張  異なる知識（COCO, CC3M pretrained）を持つエージェント同士がコミュニケーションを通して表現をあわせて行く様子を表現  「お互いがお互いから学ぶ」ことを実現

28 共同注意名付けゲームにおけるMetropolis-Hastingsアルゴリズムの妥当性に関する実験記号的研究 [Okumura+ 2023] MH法の受容確率は人間の受容判断を相対的によく予測できていた Okumura, Ryota, Tadahiro Taniguchi,
Yoshinobu Hagiwara, and Akira Taniguchi. "Metropolis-Hastings algorithm in joint-attention naming game: Experimental semiotics study." Frontiers in Artificial Intelligence 6 (2023) • MH法に基づく受容確率が高い程被験者の実際の受容割合も高い傾向があった • 統計的検定によりMH法を用いたモデルが比較モデルより人間の行動を予測することを示したモデルm’と比較してmの方が有意に判断を予測できた被験者の数の表人間がMH法に基づく受容確率で名付け受け入れるのかを調べるために，共同注意名付けゲームを人間に行わせ分析した実験中の操作画面実験中の様子

マルチエージェント強化学習／模倣学習におけるコミュニケーション創発への応用  マルチエージェント強化学習の文脈において報酬非依存な形でメッセージ創発が行える。非協力ゲーム環境に頑強なメッセージ創発を実現。  世界モデルの分散化としての記号創発・集合的予測符号化 Yoshida, N.,
& Taniguchi, T. (2025, November). Reward-Independent Messaging for Decentralized Multi-Agent Reinforcement Learning. In International Conference on Neural Information Processing (pp. 367-382). Best Paper Award Runner-Up at ICONIP 2025 K. Nomura, T. Aoki, T. Taniguchi and T. Horii, “Decentralized Collective World Model for Emergent Communication and Coordination,” 2025 IEEE International Conference on Development and Learning (ICDL), Prague, Czech Republic, 2025, pp. 1-8, [Yoshida+ 2025 ] [Nomura+ 2025 ]

Generative Emergent Communication: LLM is a Collective World Model [Taniguchi+
2026] Taniguchi, T., Ueda, R., Nakamura, T., Suzuki, M., & Taniguchi, A. (2026). Generative emergent communication: large language model is a collective world model. Advanced Robotics, 1–26. https://doi.org/10.1080/01691864.2026.2661958

LLMは「世界モデル」を持っているか？ Gurnee, W., & Tegmark, M. (2023). Language models represent
space and time. arXiv preprint arXiv:2310.02207. Yoshida, T., Masumori, A., & Ikegami, T. (2023). From Text to Motion: Grounding GPT-4 in a Humanoid Robot" Alter3". arXiv preprint arXiv:2312.06571. Hao, S., Gu, Y., Ma, H., Hong, J. J., Wang, Z., Wang, D. Z., & Hu, Z. (2023). Reasoning with language model is planning with world model. arXiv preprint arXiv:2305.14992. (EMNLP 2023) Osada, M., Garcia Ricardez, G. A., Suzuki, Y., & Taniguchi, T. (2024). Reflectance estimation for proximity sensing by vision-language models: Utilizing distributional semantics for low-level cognition in robotics. Advanced Robotics, 38(18), 1287-1306.

２種類の「世界モデル」 ① エージェント主観視点で知覚と行動のダイナミックな関係をモデル化する内部モデルとしての（環）世界モデル ② 客観的な「世界」の知識を持っているという意味での世界（の）モデル本ｾｯｼｮﾝ Taniguchi,
T., Murata, S., Suzuki, M., Ognibene, D., Lanillos, P., Ugur, E., Jamone, L., Nakamura, T., Ciria, A., Lara, B., & Pezzulo, G. (2023). World models and predictive coding for cognitive and developmental robotics: frontiers and challenges. Advanced Robotics, 37(13), 780-806. 「LLMが世界モデル持っているよ︕」は②の意味で語られる事が多いが、実は①の意味での「世界モデル」とも論理的／計算論的に関連するのでは︖

World Models and Predictive Coding in AI and Cognitive Robotics
34 Hafner, Danijar, et al. “Learning latent dynamics for planning from pixels.” International conference on machine learning. PMLR, 2019. Wu, P., Escontrela, A., Hafner, D., Goldberg, K., & Abbeel, P. (2022). Daydreamer: World models for physical robot learning. arXiv:2206.14176. Taniguchi, T., Murata, S., Suzuki, M., Ognibene, D., Lanillos, P., Uğur, E., Jamone, L., Nakamura, T., Ciria, A., Lara, B., & Pezzulo, G. (2023). World models and predictive coding for cognitive and developmental robotics: Frontiers and challenges. Advanced Robotics, 37(13), 780–806. Advanced Robotics Best Survey Paper Award 2024. PlaNet [Hafner+ 2019] : Learning Latent Dynamics for Planning from Pixels DayDreamer [Wu+ 2022] : World Models for Physical Robot Learning

世界モデルに基づくロボットの学習と応用 @ムーンショット目標３原田香奈子PJ「人とAIロボットの創造的共進化によるサイエンス開拓」&パナソニック共同研究（クロスアポイントメント）を通して世界モデルの基礎研究と応用研究を行ってきた。 Tactile-Sensitive NewtonianVAE [Okumura+ 2022] NewtonianVAE [Jaques+
2021, CVPR] ニュートン力学の構造を制約にした世界モデルを学習．潜在空間でのPID制御を可能に．触覚ビジョンセンサの表現学習を統合してより微細な制御を実現 Box packing [Kato+ 2023] 系列タスクへの実ロボットでの拡張  Okumura, et at., “Tactile-Sensitive NewtonianVAE for High-Accuracy Industrial Connector-Socket Insertion.” IROS 2022  Yusuke Kato, et al., World-Model-Based Control for Industrial box-packing of Multiple Objects using NewtonianVAE, Workshop on World Models and Predictive Coding in Cognitive Robotics, IROS 2023, Cognitive Robotics Award (Best Paper Award) Haptic Action Chunking Transformer [Uriguen + 2025 (under review)] Transformerに基づく模倣学習アーキテクチャであるACTに、複数視点の画像情報に加えて力覚（触覚）情報を活用するように拡張。力覚情報を自動活用し動作復帰可能に。

動画生成モデルと世界モデル https://deepmind.google/models/gemini-omni/

VLM EmCom Image captioning & generation VLM EmCom Video captioning
& generation VLA EmCom Action-dependent video captioning & video and action prediction ≒World models

LLMは言語の分布を「集合的世界モデル」としてモデル化する？ Learning representations/world models toward collectively intelligent language expression
Symbol emergence = Collective predictive coding 38 Collective world model LLM

LLMが世界を「理解」しているように見える理由集合的世界モデル仮説[Taniguchi ‘26]  言語創発は、自由エネルギー原理と世界モデルの理論的枠組みの延長として位置付けることができる。  その枠組では言語は集団的予測符号化を通じて生成されるため、環境に関する構造的情報は言語の分布意味論に埋め込まれる。 
したがって、大規模言語モデルは、「身体に基づく経験（embodied experiecne）」を持つかのように世界を理解しているように見えるのかもしれない。 39 Taniguchi, T., Ueda, R., Nakamura, T., Suzuki, M., & Taniguchi, A. (2026). Generative emergent communication: large language model is a collective world model. Advanced Robotics, 1–26. https://doi.org/10.1080/01691864.2026.2661958 「LLMは身体を持たないから物理世界に関する知識を持たない」などと断じるのは危険である。

LLMの身体：集合的世界モデル仮説のまとめ  大規模言語モデル（LLM）は「集合的な世界モデル」として解釈可能（っぽい）  複数の人間エージェントの経験が言語という形で統合された外部表現  内部表現（world
model）の学習と表現を媒介する  集合的予測符号化仮説（CPC）に基づく視点  言語とは人間社会における分散的ベイズ推論の結果  記号創発システムの定式化として、表現学習と生成を説明可能  記号創発と世界モデルの接続  生成的コミュニケーション創発の枠組みで捉えると世界モデルによる表現学習をマルチエージェントシステムへと敷衍して記号創発が扱える。  「理解しているように振る舞う」理由  分布意味論に世界の知識がエンコードされているため  自由エネルギー原理に基づく予測符号化プロセスとの整合性  今後の課題と展望  ロボティクスや視覚・行動データを用いた実証研究が必要  人間の言語との対応関係や汎用性の評価 𝑷𝑷( ) Better than

Contents 1. はじめに：生成AI時代と人間の知能 2. 集合的予測符号化：言語形成の計算論 3. LLMの身体：集合的世界モデル仮説 4. System 0/1/2/3：時空間階層性

Moonshot Goal 1: Avatar Symbiotic Society 42 ISHIGURO Project, Moonshot
Goal 1: Realization of a society in which human beings can be free from limitations of body, brain, space, and time by 2050. https://avatar-ss.org/en/index.html Prof. H. Ishiguro (Osaka University) Group 4: Cooperative Control of Multiple Cybernetic Avatars (CAs) G4-1 *T. Taniguchi (Kyoto U / RU) G4-2 T. Horii (Osaka U) G4-3 T. Nakamura (UEC) G4-4 K. Sugiura (Keio U) G4-5 Y. Suzuki (Kanazawa U) Principal Investigators

Physical AI: Multi-site operations for Cooperative CA Systems 43 ※
京都大学にてフィジカルAIやロボティクスに関わる研究員募集中

LLMによるマルチCAへのタスク分割と自在化 [K. Obata+, RA-L 2024] 44 Predict Action List Make
Graph Structure Task Allocation A. transport to table B. green block to corner C. blue block to green block D. yellow block to blue block E. red block to middle A E C D B Stack blocks and put block Stacking task has dependency A E C D B mobile robot : A transport to table arm robot : B green block to corner combinational optimization Transport task has dependency G4-1 自在CA制御技術の基盤研究開発（堀井Pf）  LLMがオペレータに代わりタスク分割しCAに分担実行を指示。  一人のオペレータで多くの自律CAへの指示出しが可能に。 Obata, K., Aoki, T., Horii, T., Taniguchi, T., & Nagai, T. (2024). Lip-llm: Integrating linear programming and dependency graph with large language models for multi-robot task planning. IEEE Robotics and Automation Letters, 10(2), 1122-1129.

AIロボット協会 45 2025年3月27日に、AIRoA設立記者会見を開催。各メディアで取り上げていただいた。  参加メディア (一部)：NHK / テレビ東京 /
読売新聞社 / 朝日新聞社 / 日本経済新聞社 / 日本経済新聞社 /科学新聞社/電波新聞社/日本物流新聞社 /日刊建設通信新聞社/日刊自動車新聞社/ライノス・パブリケーションズ/リックテレコム/日本流通産業新聞社/日経BP/アイティメディア株式会社/インプレス NEDOからの支援（第1フェーズ20億円、第2フェーズ205億円）

46 ④基盤モデル／個別モデルを組み込み、社会実装 ⑤創出されたデータをデータ基盤に還元・蓄積 ①圧倒的に不足するロボティクス分野のデータ収集 ②データ基盤にあるデータを用いてベース基盤モデルを開発 ⑥新たに得られるデータで基
盤モデルの性能を更に向上 AIロボット開発・普及のカギを握る”データエコシステム”構想データエコシステム構想＝ロボット稼働データが集まる仕組み個別モデル開発者A 開発者B 開発者C ハード社会実装製造運搬清掃飲食医療試験用ロボット (トヨタのHSR等) 基盤モデル基盤モデルv1.0 協調領域競争領域データ基盤量・質の拡充 ① ② ③ ④ ③ ⑤ ⑥ v2.0 v3.0 ③基盤モデルをもとに個別モデルを学習 ③モデル・データ利用時に規定量以上のデータをフィードバック

フィジカルAIと言語モデル The Future of Physical AI is Here https://www.youtube.com/watch?v=iWs-2TD5Dcc A
VLA that Learns from Experience https://www.pi.website/blog/pistar06 「言語」の役割: LLMは高度な認知プロセスにのみ機能するのか︖ ① 人間とのコミュニケーションに使われる ② プランニングに用いられる ③ 常識的および言語的知識のデータベースとして使用 ④ 内部表現の正則化として機能する LLM, VLM, VLA: 高次の意思決定：System 2、低次の感覚運動処理：System 1

System 1/2 in Physical AI and vision language models Temporal
hierarchy in robot learning and predictive coding A VLA that Learns from Experience https://www.pi.website/blog/pistar06 Kahneman, D. “Thinking, fast and slow” Farrar, Straus and Giroux. (2011). Bengio Y. “From System 1 Deep Learning to System 2 Deep Learning” NeurIPS 2019 Black, Kevin, et al. "$¥pi_ {0.5} $: a Vision-Language-Action Model with Open-World Generalization." 9th Annual Conference on Robot Learning. 2025. Internal representation systems Language model World model/ Predictor & Policy

物理的-認知的-社会的システムの四重プロセス理論 (System 0/1/2/3) 49 Open environment Internal representation systems
Language model External representation systems Emergent symbol system Non-representational systems World model/ Predictor & Policy Taniguchi, T., Hirai, Y., Suzuki, M., Murata, S., Horii, T., & Tanaka, K. (2025). System 0/1/2/3: Quad-process theory for multi-timescale embodied collective cognitive systems. arXiv preprint, arXiv:2503.06138. https://doi.org/10.48550/arXiv.2503.06138

System 0 形態による計算と身体性 50 Genghis Robot (Brooks, 1989) 身体と環境の相互作用から、中央集約的な計画や記号的なプランニングなし
に、適応的な運動が生じる。 https://www.youtube.com/watch?v=-6piNZBFdfY Passive Dynamic Walker 機構的な設計だけから、モーター、CPU、または明示的な制御なしに、安定した歩行挙動が生じる。 https://www.youtube.com/watch?v=m14J1_pPyEs 知的な振る舞いは脳の中にあるものではなく、身体とその環境との物理的相互作用の中から生まれてくる。

身体的-認知的-社会的システムの四重プロセス理論 (System 0/1/2/3) 51 Open environment Internal representation systems
Language model External representation systems Emergent symbol system Non-representational systems World model Taniguchi, T., Hirai, Y., Suzuki, M., Murata, S., Horii, T., & Tanaka, K. "System 0/1/2/3: Quad-Process Theory for Multi-Timescale Embodied Collective Cognitive Systems." Artificial Life, 31(4), 465–496 (2025). Physical system Physical and dynamical systems

System 0 in Helix 02@ Figure AI https://x.com/adcock_brett/status/2016208035333734519 Introducing Helix
02: Full-Body Autonomy https://www.figure.ai/news/helix-02

System 0/1/2/3: Quad-process theory [Taniguchi+ 2025] ベルクソン哲学のマルチタイムスケール解釈との融合平井（哲学者）との共著により、System 0/1/2/3フレームワークとベルクソン哲学の関係性を明確にし、身体性から言
語、集合知へと至る知能の階層的組織化に関する新たな視点を提供した。 Y. Hirai (Keio U) Taniguchi, T., Hirai, Y., Suzuki, M., Murata, S., Horii, T., & Tanaka, K. (2025). System 0/1/2/3: Quad- Process Theory for Multitimescale Embodied Collective Cognitive Systems. Artificial Life, 31(4), 465-496.

まとめ  記号創発ロボティクスとフィジカルAI  身体を持つ環境との相互作用に基づく知能の構成論  人間は「記号」を作ることで文明を築いてきた。  データエコシステム︓ロボット稼働データの収集 →
基盤モデル開発 → 社会実装 → 還流。この好循環がフィジカルAI時代の産業基盤。  言語は「集合的世界モデル」である（CPC）︖  LLMは身体を持たずとも、人類が紡いだ分布意味論から世界を学ぶ。逆方向に、低次の感覚運動（VLA）へも言語的知識が浸潤しはじめている。  知能における時間スケールの階層構造を持つ（System 0/1/2/3）  形態 → 反射 → 熟考 → 集合知。エッジ側で動くのは System 0/1 が主役だが、上位の意思決定・社会的協調と切り離して設計してはいけない。

現代社会を生きるための AI×哲学 (2026)  生成/フィジカルAI時代の一般教養として  京都大学統合型複合科目「人工知能と人間社会」(2026年4月開講)の指定教科書現代社会を生きるための AI×哲学
(KS科学一般書) (2026) 谷口忠大 (著), 鈴木貴之 (著), 丸山隆一 (著)

統合的な知能の科学記号創発システム科学へ Email: [email protected] Twitter: @tanichu 『ワードマップ記号創発システム論』谷口忠大（編著）新曜社
2024 “Symbol Emergence Systems: An Interdisciplinary Discussion about Cognition, Language and Society” Tadahiro Taniguchi (Editor) November 2025 In Japanese In English

SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が...

SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開 〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜

More Decks by 画像センシングシンポジウム

Featured

Transcript

SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開〜集合的予測符号化が...

SSII2026 [PT2] 記号創発ロボティクスとフィジカルAIの展開〜集合的予測符号化が繋ぐ言語と身体の時空間階層性〜