Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grand Challenges of Machine Intelligence 2023
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
320
Grand Challenges of Machine Intelligence 2023
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
0
590
[Journal club] V-DPO: Mitigating Hallucination in Large Vision Language Models via Vision-Guided Direct Preference Optimization
keio_smilab
PRO
0
140
[Journal club] Model Alignment as Prospect Theoretic Optimization
keio_smilab
PRO
0
160
[Journal club] DoLa: Decoding by Contrasting Layers Improves Factuality in Large Language Models
keio_smilab
PRO
0
80
[Journal club] LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders
keio_smilab
PRO
2
110
Will multimodal language processing change the world?
keio_smilab
PRO
4
630
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
200
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
180
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
190
Other Decks in Technology
See All in Technology
GitHub Copilot の概要
tomokusaba
1
130
PostgreSQL 18 cancel request key長の変更とRailsへの関連
yahonda
0
120
TechLION vol.41~MySQLユーザ会のほうから来ました / techlion41_mysql
sakaik
0
180
フィンテック養成勉強会#54
finengine
0
180
2年でここまで成長!AWSで育てたAI Slack botの軌跡
iwamot
PRO
4
700
Agentic Workflowという選択肢を考える
tkikuchi1002
1
500
rubygem開発で鍛える設計力
joker1007
2
200
生成AI時代 文字コードを学ぶ意義を見出せるか?
hrsued
1
300
Wasm元年
askua
0
140
Github Copilot エージェントモードで試してみた
ochtum
0
100
【5分でわかる】セーフィー エンジニア向け会社紹介
safie_recruit
0
26k
急成長を支える基盤作り〜地道な改善からコツコツと〜 #cre_meetup
stefafafan
0
120
Featured
See All Featured
Speed Design
sergeychernyshev
32
1k
What's in a price? How to price your products and services
michaelherold
246
12k
Practical Orchestrator
shlominoach
188
11k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
124
52k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
790
The Straight Up "How To Draw Better" Workshop
denniskardys
234
140k
Writing Fast Ruby
sferik
628
61k
Measuring & Analyzing Core Web Vitals
bluesmoon
7
490
The World Runs on Bad Software
bkeepers
PRO
69
11k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Navigating Team Friction
lara
187
15k
Balancing Empowerment & Direction
lara
1
370
Transcript
情報工学科 教授 杉浦孔明
[email protected]
慶應義塾大学理工学部 情報工学概論 機械知能のグランドチャレンジ
広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数 合成画像 実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2
2022年のAIに関する2大ニュース 「生成型AI(Generative AI)」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成
Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲碁 (2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)
その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html
専門家のスキル向上にAIが利用された例: 囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china
機械学習とは - - 6
アンケート: 以下の例は何ですか? - - 7 知的処理 知的処理ではない
機械学習とは ニューラルネットワーク等の数理モデルを用いてデータに潜む パターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の 数理モデル データ 予測/
分類 「犬」
人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能(AI) 機械学習
ニューラルネットワーク それ以外のアプローチ(ルールベース等) ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論
2年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています(要keio.jp認証) ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing
「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 1 イントロダクション 8 (GRU) 2
機械学習の基礎 9 注意機構とトランスフォーマー 3 順伝播型ニューラルネット 10 深層生成モデル 4 最適化 11 応用と評価 5 誤差逆伝播法 12 補遺 6 畳み込みニューラルネット 13 深層強化学習 7 再帰型ニューラルネット 14 まとめ • 近年の主流手法。例:GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的 なカリキュラム
慶應義塾大学 ジュニア研究プログラム(JREP) 「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を 分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp
機械知能の グランドチャレンジ - - 13
自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE
自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝(賞金200万ドル) ▪ メンバーがWaymoを創業 実況者の予想 ▪ 「数年後には自動運転車に乗っ て高速道路を走るようになるで しょう」 ▪ 「(自動運転でなければ運転者 が電話をかけたら違法)自動運 転なら電話もかけられます」 達成済み
物体認識のベンチマークテストの例: ImageNet Large Scale Visual Recognition Challenge(ILSVRC) ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]
その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド (車の運転、ドア開け、瓦礫/階段昇降等) MBZIRC(2017-) 複数ドローン(Unmanned Aerial Vehecle)の自動操縦 Quince
何をどこまで達成すればよいのか? ▪ 「Superhuman」が1つのマイルストーン ▪ 人(平均的な人 or 専門家 or チャンピオン)が同じタスクを解いたと きの性能を機械が超える
▪ 達成するとどうなる? ▪ (私の経験)機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、 ベンチマークテスト結果を継続的に改良してたどり着いたもの
応用例: コンピュータビジョン - - 19
Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20
光学文字認識(OCR; Optical character recognition) - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
敵対的生成ネットワーク(GAN)の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]
応用例: 音声言語処理・自然言語処理 - - 23
音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine
translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示(NEC, 1983) ▪ ATR自動翻訳電話研究所設立 (1986、後にNICTに合流)
▪ 音声翻訳スマホアプリ ▪ Jibbigo(Waibelら, 2009) ▪ VoiceTra(NICT, 2010) ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本 (2020/2/3) 参考文献:中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11
音声合成の例 - - 26 Sonantic (2022)
応用例: マルチモーダル学習 - - 27
マルチモーダル学習(multimodal learning)の歴史 - - 28 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M
2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]
大規模言語モデルの インパクト - - 31
大規模言語モデル(Large language models; LLMs)で 現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 % Among Test takers 90%
ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の2大ニュース (StableDiffusion &
ChatGPT)のうちの1つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度 も盛り上がるもののキラーアプリに欠ける ため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は 非公開(2023.5時点) https://openai.com/blog/chatgpt/
言語モデルとは - - 34 ▪ 次の単語(トークン)を予測する確率モデル ▪ 例:「むかしむかしあるところに」→「おじいさんが…」「3匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれ ることは多くの専門家にとって意外だった
大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf
プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デ バッグ等に利用されている ▪ 一方、「発明」レベルのプログ ラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、 「シューティングゲームなの か、2次元なのか、ボス敵は どんな形か、…(仕様)」が 明確でなければ、良いゲーム は作れない ▪ OpenAI CodeX (https://www.youtube.com/wa tch?v=Zm9B-DvwOgw)
大規模言語モデルによるコード生成で起こった問題の例 (2022/10 GitHub Copilot) - - 37 ▪ Texas A&M
Univ.のTim Davis 教授:「自分が著作権を有する コードを、attributionやLGPL 表示なしでCopilotが生成し た」 ▪ プロンプト:「sparse matrix transpose, cs_」 ▪ 感想:確かに多くは類似 ▪ コメントまでコピペされて いる点は類似とみなされて もやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1
教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で 電子辞書が使える訳ではない ▪ 例:宿題の英文和訳問題をDeepL等で解いたとしても、自分の力が つかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、 当該試験問題は「AIで解ける」といえる ▪ 感想:「AIで解ける問題」のレポートのみで成績評価を行うことは、 世界レベルで社会から受容されなくなっていくのではないか
LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか?」→ 「51は素数です」(2022/12月) ▪
(CNNを出力させたうえで)「そのモデルのパラメータ数はいくつで すか?」→「18762です」(実際には約9000) ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである(鉛筆や辞書同様、使い方を学べばよい)
アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK? Q2. LLMが生成したテキストの著作権はLLM作者にある? Q3. 有名なアニメに似た画像を生成した。公開してOK?
Q4. ChatGPTがあればプログラマは不要?
アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK? 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある? Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK? 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要? プログラマの生産性が上がった(「助手」がいるようなもの)
おわりに - - 42
まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した 考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る