Upgrade to Pro — share decks privately, control downloads, hide ads and more …

技術面から見るAIセーフティ(AI Safety Fundamentals Alignment Course)

yutaro_hori
December 23, 2023

技術面から見るAIセーフティ(AI Safety Fundamentals Alignment Course)

AI Safety Fundamentals Alignment Course(https://course.aisafetyfundamentals.com/alignment) のSESSION 0〜4を参照し作成したスライドです。情報の誤り等ございましたら教えていただけますと幸いです。

yutaro_hori

December 23, 2023
Tweet

Other Decks in Research

Transcript

  1. Machine Learning for Humans, Part 2.1: Supervised Learning | by

    Vishal Maini | Machine Learning for Humans | Medium 問題 正解 予測 機械学習とは 問題と正解を与えることで、コン ピュータが解法を学習する 教師あり学習の例
  2. 機械的収束(Instrumental Convergence) 様々な報酬や目標を追求するAI は、 一連の戦略に収束する傾向がある ・世界中で権力を獲得する戦略に収束する ・多くの目標は、AI に対して資源を獲得することや生き延び ることを助長する ー例)

    がんを治すという目標を与えられたAI →研究のためには 資源が必要。また、活動を止められてしまえばがんを治すと いう目標の達成度を上げられなくなる ーほとんどの目標が、資源獲得と生存戦略に収束
  3. 参考文献 ・AGI Safety From First Principles https://drive.google.com/file/d/1uK7NhdSKprQKZnRjU58X7NLA1auXlWHt/view ・AI Alignment Course

    | AI Safety Fundamentals https://course.aisafetyfundamentals.com/alignment? ・Date of Artificial General Intelligence | Metaculus https://www.metaculus.com/questions/5121/date-of-artificial-general-intelligence/ ・Deep Reinforcement Learning From Human Preferences (Christiano et al, 2017) ・Efficient Deep Reinforcement Learning for Dexterous Manipulation (Popov et al, 2017) ・Goal Misgeneralisation: Why Correct Specifications Aren’t Enough For Correct Goals | by DeepMind Safety Research | Medium https://deepmindsafetyresearch.medium.com/goal-misgeneralisation-why-correct-specifications-arent-enough-for-correct-goals- cf96ebc60924 ・Machine Learning for Humans, Part 2.1: Supervised Learning | by Vishal Maini | Machine Learning for Humans | Medium https://medium.com/machine-learning-for-humans/supervised-learning-740383a2feab ・On the Opportunities and Risks of Foundation Models https://arxiv.org/pdf/2108.07258.pdf ・Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf ・Visualizing the deep learning revolution | by Richard Ngo | Medium https://medium.com/@richardcngo/visualizing-the-deep-learning-revolution-722098eb9c5