Slide 1

Slide 1 text

技術面から見る AI セーフティ

Slide 2

Slide 2 text

01 02 03 機械学習とは 汎用人工知能(AGI) について Contents 04 AI リスクの詳細 AI セーフティのための方法

Slide 3

Slide 3 text

まずは、近年のAI の基礎となっている機械学習、特に 深層学習(deep learning) について紹介します。 機械学習とは、人間が問題の解法を考える代わりに、 コンピュータに解法を考えてもらう手法です。 問題と正解を与えることで、コンピュータが 解法を学習することが基本になります。 機械学習には、教師あり学習、教師なし学習、強化学 習の大きく3 つの手法があります。 機械学習とは 01

Slide 4

Slide 4 text

Machine Learning for Humans, Part 2.1: Supervised Learning | by Vishal Maini | Machine Learning for Humans | Medium 問題 正解 予測 機械学習とは 問題と正解を与えることで、コン ピュータが解法を学習する 教師あり学習の例

Slide 5

Slide 5 text

教師あり学習 教師なし学習 強化学習 統計モデル グラフモデル 深層学習

Slide 6

Slide 6 text

強化学習とは 動く場所が与えられ、AI が行動する 行動結果に応じて報酬が与えられ AI は報酬を最大化する動き方を 学んでいく Multi-Agent Hide and Seek - YouTube

Slide 7

Slide 7 text

ニューラルネットワークの仕組み | Chapter 1, 深層学習(ディープラーニング) 深層学習とは 問題と回答の間に、中間層を設ける ことでより複雑な問題に対応できる ように 例) 手書き文字

Slide 8

Slide 8 text

深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習(ディープラーニング)

Slide 9

Slide 9 text

現代の機械学習は、汎用人工知能の開発に向かって いることが予測されています。 さて、汎用人工知能の開発には どのような進歩が必要でしょうか。 また、汎用人工知能が開発されるのは 何年ごろでしょうか。 汎用人工知能(AGI) について 02

Slide 10

Slide 10 text

汎用人工知能(AGI) とは 幅広いタスクで人間レベルのパフ ォーマンスを生み出すのに十分な 程一般化できる人工知能のこと。 ・例) 会社のCEO として経営する ー手書き数字の認識のように、狭い知識では実現できない ・多くの研究者が今世紀中に汎用人工知能の開発を予測して いるが、具体的な年については議論が分かれている AGI Safety From First Principles

Slide 11

Slide 11 text

初の汎用人工知能が考案され、テストされ、 公に発表されるのはいつになるのか? 2023 年9 月23 日現在の予測:2030 年9 月11 日

Slide 12

Slide 12 text

Visualizing the deep learning revolution | by Richard Ngo | Medium

Slide 13

Slide 13 text

Scaling Laws for Neural Language Models

Slide 14

Slide 14 text

On the Opportunities and Risks of Foundation Models

Slide 15

Slide 15 text

汎用人工知能の開発は、私たちの生活を豊かにする 可能性を持っています。一方で、汎用人工知能には リスクも伴います。ここでは、 報酬の定義ミス(Reward misspecification) 機械的収束(Instrumental Convergence) 目標の誤った一般化(Goal misgeneralization) という3 つのリスクについて紹介します。 AI リスクの詳細 03

Slide 16

Slide 16 text

報酬の定義ミス(Reward misspecification) 強化学習において報酬をうまく定 義できないと、望まない行動に対 して高い報酬を与えてしまうこと がある ・人間のフィードバックによる強化学習(RLHF) や、逆強化学 習(IRL) によって課題の克服が試みられている ーしかし、AI によって” 騙されて” 良いフィードバックを与えて しまうかもしれない

Slide 17

Slide 17 text

Source: Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et al, 2017)

Slide 18

Slide 18 text

Deep Reinforcement Learning From Human Preferences (Christiano et al, 2017)

Slide 19

Slide 19 text

機械的収束(Instrumental Convergence) 様々な報酬や目標を追求するAI は、 一連の戦略に収束する傾向がある ・世界中で権力を獲得する戦略に収束する ・多くの目標は、AI に対して資源を獲得することや生き延び ることを助長する ー例) がんを治すという目標を与えられたAI →研究のためには 資源が必要。また、活動を止められてしまえばがんを治すと いう目標の達成度を上げられなくなる ーほとんどの目標が、資源獲得と生存戦略に収束

Slide 20

Slide 20 text

誤った報酬を定義してしまう 誤った戦略に収束する 権力を求めるAI により権力を 奪われる可能性

Slide 21

Slide 21 text

目標の誤った一般化(Goal misgeneralization) 学習環境で、報酬が正しかったと しても達成のための能力の伸ばし 方を謝ることで本番環境で意図し ない結果をもたらす ・報酬の正しい定義ができたとしても不十分 ・学習環境と本番環境が異なるとき、誤った能力の一般化に よって意図しない結果をもたらすことがある ・汎用人工知能が、学習途上では人と調和するように見せ て、学習が完了してきたら自身の目標を追求するようになる 「裏切り者」現象が懸念されている ・敵対的トレーニングによって軽減することができる

Slide 22

Slide 22 text

Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals | by DeepMind Safety Research | Medium

Slide 23

Slide 23 text

汎用人工知能開発に伴うリスクに対処するにはどの ような方法を取れば良いでしょうか… ? 今回は代表的な例として 反復増幅(Iterated Amplification) を 紹介します。 AI セーフティのための方法 04

Slide 24

Slide 24 text

反復増幅(Iterated Amplification) 複雑なタスクを人間が把握できる タスクに分解した上で学習を行う ・多くのAI タスクは、人間が判断したり実行するには複雑す ぎる( 例:気候変動についての長期予測、交通システムの整備) ・これらを人間が把握できるタスクに分解し、学習の方法を 構築する際に活用する

Slide 25

Slide 25 text

https://course.aisafetyfundamentals.com/alignment

Slide 26

Slide 26 text

参考文献 ・AGI Safety From First Principles https://drive.google.com/file/d/1uK7NhdSKprQKZnRjU58X7NLA1auXlWHt/view ・AI Alignment Course | AI Safety Fundamentals https://course.aisafetyfundamentals.com/alignment? ・Date of Artificial General Intelligence | Metaculus https://www.metaculus.com/questions/5121/date-of-artificial-general-intelligence/ ・Deep Reinforcement Learning From Human Preferences (Christiano et al, 2017) ・Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et al, 2017) ・Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals | by DeepMind Safety Research | Medium https://deepmindsafetyresearch.medium.com/goal-misgeneralisation-why-correct-specifications-arent-enough-for-correct-goals- cf96ebc60924 ・Machine Learning for Humans, Part 2.1: Supervised Learning | by Vishal Maini | Machine Learning for Humans | Medium https://medium.com/machine-learning-for-humans/supervised-learning-740383a2feab ・On the Opportunities and Risks of Foundation Models https://arxiv.org/pdf/2108.07258.pdf ・Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf ・Visualizing the deep learning revolution | by Richard Ngo | Medium https://medium.com/@richardcngo/visualizing-the-deep-learning-revolution-722098eb9c5

Slide 27

Slide 27 text

参考文献 ・深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習(ディープラーニング) https://www.youtube.com/watch?v=0AX3KSKjyog ・ニューラルネットワークの仕組み | Chapter 1, 深層学習(ディープラーニング) https://www.youtube.com/watch?v=tc8RTtwvd5U