Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grand Challenges of Machine Intelligence 2023
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
300
Grand Challenges of Machine Intelligence 2023
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] MOKA: Open-Vocabulary Robotic Manipulation through Mark-Based Visual Prompting
keio_smilab
PRO
0
27
[Journal club] Seeing the Unseen: Visual Common Sense for Semantic Placement
keio_smilab
PRO
0
26
[Journal club] Language-Embedded Gaussian Splats (LEGS): Incrementally Building Room-Scale Representations with a Mobile Robot
keio_smilab
PRO
0
7
[Journal club] RAM: Retrieval-Based Affordance Transfer for Generalizable Zero-Shot Robotic Manipulation
keio_smilab
PRO
1
11
[Journal club] Simplified State Space Layers for Sequence Modeling
keio_smilab
PRO
0
26
[Journal club] Detecting and Preventing Hallucinations in Large Vision Language Models
keio_smilab
PRO
1
72
[IROS24] Object Segmentation from Open-Vocabulary Manipulation Instructions Based on Optimal Transport Polygon Matching with Multimodal Foundation Models
keio_smilab
PRO
0
46
[IROS24] Learning-To-Rank Approach for Identifying Everyday Objects Using a Physical-World Search Engine
keio_smilab
PRO
0
77
[RSJ24] オフライン軌道生成による軌道に基づくOpen-Vocabulary物体操作タスクにおける将来成否予測
keio_smilab
PRO
1
120
Other Decks in Technology
See All in Technology
New Relicを活用したSREの最初のステップ / NRUG OKINAWA VOL.3
isaoshimizu
3
640
100 名超が参加した日経グループ横断の競技型 AWS 学習イベント「Nikkei Group AWS GameDay」の紹介/mediajaws202411
nikkei_engineer_recruiting
1
170
あなたの知らない Function.prototype.toString() の世界
mizdra
PRO
2
410
iOS/Androidで同じUI体験をネ イティブで作成する際に気をつ けたい落とし穴
fumiyasac0921
1
110
安心してください、日本語使えますよ―Ubuntu日本語Remix提供休止に寄せて― 2024-11-17
nobutomurata
1
1k
誰も全体を知らない ~ ロールの垣根を超えて引き上げる開発生産性 / Boosting Development Productivity Across Roles
kakehashi
2
230
Flutterによる 効率的なAndroid・iOS・Webアプリケーション開発の事例
recruitengineers
PRO
0
120
TypeScriptの次なる大進化なるか!? 条件型を返り値とする関数の型推論
uhyo
2
1.7k
Terraform Stacks入門 #HashiTalks
msato
0
360
Making your applications cross-environment - OSCG 2024 NA
salaboy
0
200
BLADE: An Attempt to Automate Penetration Testing Using Autonomous AI Agents
bbrbbq
0
330
AWS Lambda のトラブルシュートをしていて思うこと
kazzpapa3
2
200
Featured
See All Featured
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
169
50k
Imperfection Machines: The Place of Print at Facebook
scottboms
265
13k
What's new in Ruby 2.0
geeforr
343
31k
Agile that works and the tools we love
rasmusluckow
327
21k
Let's Do A Bunch of Simple Stuff to Make Websites Faster
chriscoyier
506
140k
Creating an realtime collaboration tool: Agile Flush - .NET Oxford
marcduiker
25
1.8k
[RailsConf 2023] Rails as a piece of cake
palkan
52
4.9k
Happy Clients
brianwarren
98
6.7k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
8
900
For a Future-Friendly Web
brad_frost
175
9.4k
Unsuck your backbone
ammeep
668
57k
Building Your Own Lightsaber
phodgson
103
6.1k
Transcript
情報工学科 教授 杉浦孔明
[email protected]
慶應義塾大学理工学部 情報工学概論 機械知能のグランドチャレンジ
広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数 合成画像 実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2
2022年のAIに関する2大ニュース 「生成型AI(Generative AI)」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成
Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲碁 (2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)
その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html
専門家のスキル向上にAIが利用された例: 囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china
機械学習とは - - 6
アンケート: 以下の例は何ですか? - - 7 知的処理 知的処理ではない
機械学習とは ニューラルネットワーク等の数理モデルを用いてデータに潜む パターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の 数理モデル データ 予測/
分類 「犬」
人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能(AI) 機械学習
ニューラルネットワーク それ以外のアプローチ(ルールベース等) ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論
2年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています(要keio.jp認証) ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing
「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 1 イントロダクション 8 (GRU) 2
機械学習の基礎 9 注意機構とトランスフォーマー 3 順伝播型ニューラルネット 10 深層生成モデル 4 最適化 11 応用と評価 5 誤差逆伝播法 12 補遺 6 畳み込みニューラルネット 13 深層強化学習 7 再帰型ニューラルネット 14 まとめ • 近年の主流手法。例:GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的 なカリキュラム
慶應義塾大学 ジュニア研究プログラム(JREP) 「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を 分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp
機械知能の グランドチャレンジ - - 13
自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE
自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝(賞金200万ドル) ▪ メンバーがWaymoを創業 実況者の予想 ▪ 「数年後には自動運転車に乗っ て高速道路を走るようになるで しょう」 ▪ 「(自動運転でなければ運転者 が電話をかけたら違法)自動運 転なら電話もかけられます」 達成済み
物体認識のベンチマークテストの例: ImageNet Large Scale Visual Recognition Challenge(ILSVRC) ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]
その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド (車の運転、ドア開け、瓦礫/階段昇降等) MBZIRC(2017-) 複数ドローン(Unmanned Aerial Vehecle)の自動操縦 Quince
何をどこまで達成すればよいのか? ▪ 「Superhuman」が1つのマイルストーン ▪ 人(平均的な人 or 専門家 or チャンピオン)が同じタスクを解いたと きの性能を機械が超える
▪ 達成するとどうなる? ▪ (私の経験)機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、 ベンチマークテスト結果を継続的に改良してたどり着いたもの
応用例: コンピュータビジョン - - 19
Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20
光学文字認識(OCR; Optical character recognition) - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
敵対的生成ネットワーク(GAN)の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]
応用例: 音声言語処理・自然言語処理 - - 23
音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine
translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示(NEC, 1983) ▪ ATR自動翻訳電話研究所設立 (1986、後にNICTに合流)
▪ 音声翻訳スマホアプリ ▪ Jibbigo(Waibelら, 2009) ▪ VoiceTra(NICT, 2010) ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本 (2020/2/3) 参考文献:中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11
音声合成の例 - - 26 Sonantic (2022)
応用例: マルチモーダル学習 - - 27
マルチモーダル学習(multimodal learning)の歴史 - - 28 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M
2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]
大規模言語モデルの インパクト - - 31
大規模言語モデル(Large language models; LLMs)で 現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 % Among Test takers 90%
ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の2大ニュース (StableDiffusion &
ChatGPT)のうちの1つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度 も盛り上がるもののキラーアプリに欠ける ため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は 非公開(2023.5時点) https://openai.com/blog/chatgpt/
言語モデルとは - - 34 ▪ 次の単語(トークン)を予測する確率モデル ▪ 例:「むかしむかしあるところに」→「おじいさんが…」「3匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれ ることは多くの専門家にとって意外だった
大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf
プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デ バッグ等に利用されている ▪ 一方、「発明」レベルのプログ ラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、 「シューティングゲームなの か、2次元なのか、ボス敵は どんな形か、…(仕様)」が 明確でなければ、良いゲーム は作れない ▪ OpenAI CodeX (https://www.youtube.com/wa tch?v=Zm9B-DvwOgw)
大規模言語モデルによるコード生成で起こった問題の例 (2022/10 GitHub Copilot) - - 37 ▪ Texas A&M
Univ.のTim Davis 教授:「自分が著作権を有する コードを、attributionやLGPL 表示なしでCopilotが生成し た」 ▪ プロンプト:「sparse matrix transpose, cs_」 ▪ 感想:確かに多くは類似 ▪ コメントまでコピペされて いる点は類似とみなされて もやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1
教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で 電子辞書が使える訳ではない ▪ 例:宿題の英文和訳問題をDeepL等で解いたとしても、自分の力が つかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、 当該試験問題は「AIで解ける」といえる ▪ 感想:「AIで解ける問題」のレポートのみで成績評価を行うことは、 世界レベルで社会から受容されなくなっていくのではないか
LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか?」→ 「51は素数です」(2022/12月) ▪
(CNNを出力させたうえで)「そのモデルのパラメータ数はいくつで すか?」→「18762です」(実際には約9000) ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである(鉛筆や辞書同様、使い方を学べばよい)
アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK? Q2. LLMが生成したテキストの著作権はLLM作者にある? Q3. 有名なアニメに似た画像を生成した。公開してOK?
Q4. ChatGPTがあればプログラマは不要?
アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK? 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある? Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK? 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要? プログラマの生産性が上がった(「助手」がいるようなもの)
おわりに - - 42
まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した 考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る