• 「様々な環境下での報酬獲得能力」を,環境系の単純さで割引しつつ合計した知能指数 普遍的な知性の尺度? AIXI : Legg-Hutter 知能指数を最大化するAIエージェント • 普遍的帰納 ξ (Solomonoff universal prior, すべての計算可能な環境系に対して で重み付けする確率分布) つまり最適な事前分布(信念)を持ったBayesian強化学習エージェント 概要 • 世界をどう信じるか(ベイズ推論) • あり得るすべてのプログラム(=環境モデル)を並べ,プログラム長 K に応じた重み を掛ける。 • どう行動を選ぶか(逐次意思決定理論) • 各行動の先に待っている報酬をすべての仮説環境で評価し,重み付き平均が最大になる行動を選ぶ。 • これを毎ステップ繰り返し,割引率なしで生涯報酬を最大化する。 普遍的帰納 ξ は計算不可能!! 知性の尺度は様々: IQ, EQ, Gardner MI, …