技術面から見るAIセーフティ(AI Safety Fundamentals Alignment Course)

技術面から見る AI セーフティ

01 02 03 機械学習とは汎用人工知能(AGI) について Contents 04 AI リスクの詳細
AI セーフティのための方法

まずは、近年のAI の基礎となっている機械学習、特に深層学習(deep learning) について紹介します。機械学習とは、人間が問題の解法を考える代わりに、コンピュータに解法を考えてもらう手法です。問題と正解を与えることで、コンピュータが解法を学習することが基本になります。機械学習には、教師あり学習、教師なし学習、強化学
習の大きく3 つの手法があります。機械学習とは 01

Machine Learning for Humans, Part 2.1: Supervised Learning | by
Vishal Maini | Machine Learning for Humans | Medium 問題正解予測機械学習とは問題と正解を与えることで、コンピュータが解法を学習する教師あり学習の例

教師あり学習教師なし学習強化学習統計モデルグラフモデル深層学習

強化学習とは動く場所が与えられ、AI が行動する行動結果に応じて報酬が与えられ AI は報酬を最大化する動き方を学んでいく Multi-Agent Hide and
Seek - YouTube

ニューラルネットワークの仕組み | Chapter 1, 深層学習（ディープラーニング）深層学習とは問題と回答の間に、中間層を設けることでより複雑な問題に対応できるように例)
手書き文字

深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習（ディープラーニング）

現代の機械学習は、汎用人工知能の開発に向かっていることが予測されています。さて、汎用人工知能の開発にはどのような進歩が必要でしょうか。また、汎用人工知能が開発されるのは何年ごろでしょうか。汎用人工知能(AGI) について 02

汎用人工知能(AGI) とは幅広いタスクで人間レベルのパフォーマンスを生み出すのに十分な程一般化できる人工知能のこと。・例) 会社のCEO として経営するー手書き数字の認識のように、狭い知識では実現できない・多くの研究者が今世紀中に汎用人工知能の開発を予測して
いるが、具体的な年については議論が分かれている AGI Safety From First Principles

初の汎用人工知能が考案され、テストされ、公に発表されるのはいつになるのか？ 2023 年9 月23 日現在の予測：2030 年9 月11 日

Visualizing the deep learning revolution | by Richard Ngo |
Medium

Scaling Laws for Neural Language Models

On the Opportunities and Risks of Foundation Models

汎用人工知能の開発は、私たちの生活を豊かにする可能性を持っています。一方で、汎用人工知能にはリスクも伴います。ここでは、報酬の定義ミス(Reward misspecification) 機械的収束(Instrumental Convergence) 目標の誤った一般化(Goal misgeneralization) という3
つのリスクについて紹介します。 AI リスクの詳細 03

報酬の定義ミス(Reward misspecification) 強化学習において報酬をうまく定義できないと、望まない行動に対して高い報酬を与えてしまうことがある・人間のフィードバックによる強化学習(RLHF) や、逆強化学習(IRL) によって課題の克服が試みられている
ーしかし、AI によって” 騙されて” 良いフィードバックを与えてしまうかもしれない

Source: Data-Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et
al, 2017)

Deep Reinforcement Learning From Human Preferences (Christiano et al, 2017)

機械的収束(Instrumental Convergence) 様々な報酬や目標を追求するAI は、一連の戦略に収束する傾向がある・世界中で権力を獲得する戦略に収束する・多くの目標は、AI に対して資源を獲得することや生き延びることを助長するー例)
がんを治すという目標を与えられたAI →研究のためには資源が必要。また、活動を止められてしまえばがんを治すという目標の達成度を上げられなくなるーほとんどの目標が、資源獲得と生存戦略に収束

誤った報酬を定義してしまう誤った戦略に収束する権力を求めるAI により権力を奪われる可能性

目標の誤った一般化(Goal misgeneralization) 学習環境で、報酬が正しかったとしても達成のための能力の伸ばし方を謝ることで本番環境で意図しない結果をもたらす・報酬の正しい定義ができたとしても不十分・学習環境と本番環境が異なるとき、誤った能力の一般化によって意図しない結果をもたらすことがある・汎用人工知能が、学習途上では人と調和するように見せ
て、学習が完了してきたら自身の目標を追求するようになる「裏切り者」現象が懸念されている・敵対的トレーニングによって軽減することができる

Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals
| by DeepMind Safety Research | Medium

汎用人工知能開発に伴うリスクに対処するにはどのような方法を取れば良いでしょうか… ？今回は代表的な例として反復増幅(Iterated Amplification) を紹介します。 AI セーフティのための方法
04

反復増幅(Iterated Amplification) 複雑なタスクを人間が把握できるタスクに分解した上で学習を行う・多くのAI タスクは、人間が判断したり実行するには複雑すぎる( 例：気候変動についての長期予測、交通システムの整備) ・これらを人間が把握できるタスクに分解し、学習の方法を構築する際に活用する

https://course.aisafetyfundamentals.com/alignment

参考文献・AGI Safety From First Principles https://drive.google.com/file/d/1uK7NhdSKprQKZnRjU58X7NLA1auXlWHt/view ・AI Alignment Course
| AI Safety Fundamentals https://course.aisafetyfundamentals.com/alignment? ・Date of Artificial General Intelligence | Metaculus https://www.metaculus.com/questions/5121/date-of-artificial-general-intelligence/ ・Deep Reinforcement Learning From Human Preferences (Christiano et al, 2017) ・Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et al, 2017) ・Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals | by DeepMind Safety Research | Medium https://deepmindsafetyresearch.medium.com/goal-misgeneralisation-why-correct-specifications-arent-enough-for-correct-goals- cf96ebc60924 ・Machine Learning for Humans, Part 2.1: Supervised Learning | by Vishal Maini | Machine Learning for Humans | Medium https://medium.com/machine-learning-for-humans/supervised-learning-740383a2feab ・On the Opportunities and Risks of Foundation Models https://arxiv.org/pdf/2108.07258.pdf ・Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf ・Visualizing the deep learning revolution | by Richard Ngo | Medium https://medium.com/@richardcngo/visualizing-the-deep-learning-revolution-722098eb9c5

参考文献・深層学習の仕組み, 勾配降下 | Chapter 2, 深層学習（ディープラーニング） https://www.youtube.com/watch?v=0AX3KSKjyog ・ニューラルネットワークの仕組み |
Chapter 1, 深層学習（ディープラーニング） https://www.youtube.com/watch?v=tc8RTtwvd5U

技術面から見るAIセーフティ(AI Safety Fundamentals Alignment...

技術面から見るAIセーフティ(AI Safety Fundamentals Alignment Course)

yutaro_hori

Other Decks in Research

Featured

Transcript