Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grand Challenges of Machine Intelligence 2023
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
260
Grand Challenges of Machine Intelligence 2023
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Parallel Vertex Diffusion for Unified Visual Grounding
keio_smilab
PRO
0
120
[NLP24] Polos: Multimodal Metric Learning from Human Feedback for Image Captioning
keio_smilab
PRO
1
210
[Journal club] Accelerating Toeplitz Neural Network with Constant-time Inference Complexity
keio_smilab
PRO
0
44
[Journal club] TIES-Merging: Resolving Interference When Merging Models
keio_smilab
PRO
0
150
[Journal Club]Interfacing Foundation Models’ Embeddings
keio_smilab
PRO
1
130
[Journal club] Toeplitz Neural Network for Sequence Modeling
keio_smilab
PRO
2
400
Visual Explanation Generation for Road Damage Classification by Using Layer-wise Relevance Propagation for Branch Networks
keio_smilab
PRO
0
140
Supervised Automatic Evaluation for Image Captioning Based on Multimodality
keio_smilab
PRO
0
170
[Journal Club] Hyperbolic Image-Text Representations
keio_smilab
PRO
0
310
Other Decks in Technology
See All in Technology
Gradle Build Scanを使ってビルドのことを知ろう potatotips #87
tomorrowkey
2
160
BPStudyの200回を中心にIT業界を振り返る。そしてこれから
haru860
3
420
【基本】データベース設計
oracle4engineer
PRO
2
230
Tellus の衛星データを見てみよう #mf_fukuoka
kongmingstrap
0
290
止まらないLinuxシステムを構築する_高信頼性クラスタ入門
koedoyoshida
3
1.8k
require(ESM)とECMAScript仕様
uhyo
4
1k
令和最新版 Ruby プロファイラ "Pf2" のご紹介
osyoyu
0
140
How to Lead? Testimonial of a Lead Android Engineer
oleur
1
120
2024春 注目のWeb系 OSS & SaaS 3選
makies
0
190
uvを使ってストレスフリーな Python開発をしよう!
r74tech
0
220
地理空間データ可視化・解析・活用ソリューション Pacific Spatial Solutions (PSS)
pacificspatialsolutions
0
340
開発パフォーマンスを最大化するための開発体制
ham0215
7
1.2k
Featured
See All Featured
Atom: Resistance is Futile
akmur
260
25k
In The Pink: A Labor of Love
frogandcode
138
21k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
123
39k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
41
4.4k
Rails Girls Zürich Keynote
gr2m
91
13k
WebSockets: Embracing the real-time Web
robhawkes
59
7k
How GitHub Uses GitHub to Build GitHub
holman
468
290k
The Pragmatic Product Professional
lauravandoore
26
5.8k
Optimising Largest Contentful Paint
csswizardry
13
2.4k
It's Worth the Effort
3n
180
27k
Web development in the modern age
philhawksworth
203
10k
The Invisible Side of Design
smashingmag
294
49k
Transcript
情報工学科 教授 杉浦孔明
[email protected]
慶應義塾大学理工学部 情報工学概論 機械知能のグランドチャレンジ
広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数 合成画像 実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2
2022年のAIに関する2大ニュース 「生成型AI(Generative AI)」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成
Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲碁 (2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)
その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html
専門家のスキル向上にAIが利用された例: 囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china
機械学習とは - - 6
アンケート: 以下の例は何ですか? - - 7 知的処理 知的処理ではない
機械学習とは ニューラルネットワーク等の数理モデルを用いてデータに潜む パターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の 数理モデル データ 予測/
分類 「犬」
人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能(AI) 機械学習
ニューラルネットワーク それ以外のアプローチ(ルールベース等) ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論
2年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています(要keio.jp認証) ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing
「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 1 イントロダクション 8 (GRU) 2
機械学習の基礎 9 注意機構とトランスフォーマー 3 順伝播型ニューラルネット 10 深層生成モデル 4 最適化 11 応用と評価 5 誤差逆伝播法 12 補遺 6 畳み込みニューラルネット 13 深層強化学習 7 再帰型ニューラルネット 14 まとめ • 近年の主流手法。例:GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的 なカリキュラム
慶應義塾大学 ジュニア研究プログラム(JREP) 「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を 分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp
機械知能の グランドチャレンジ - - 13
自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE
自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝(賞金200万ドル) ▪ メンバーがWaymoを創業 実況者の予想 ▪ 「数年後には自動運転車に乗っ て高速道路を走るようになるで しょう」 ▪ 「(自動運転でなければ運転者 が電話をかけたら違法)自動運 転なら電話もかけられます」 達成済み
物体認識のベンチマークテストの例: ImageNet Large Scale Visual Recognition Challenge(ILSVRC) ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]
その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド (車の運転、ドア開け、瓦礫/階段昇降等) MBZIRC(2017-) 複数ドローン(Unmanned Aerial Vehecle)の自動操縦 Quince
何をどこまで達成すればよいのか? ▪ 「Superhuman」が1つのマイルストーン ▪ 人(平均的な人 or 専門家 or チャンピオン)が同じタスクを解いたと きの性能を機械が超える
▪ 達成するとどうなる? ▪ (私の経験)機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、 ベンチマークテスト結果を継続的に改良してたどり着いたもの
応用例: コンピュータビジョン - - 19
Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20
光学文字認識(OCR; Optical character recognition) - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
敵対的生成ネットワーク(GAN)の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]
応用例: 音声言語処理・自然言語処理 - - 23
音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine
translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示(NEC, 1983) ▪ ATR自動翻訳電話研究所設立 (1986、後にNICTに合流)
▪ 音声翻訳スマホアプリ ▪ Jibbigo(Waibelら, 2009) ▪ VoiceTra(NICT, 2010) ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本 (2020/2/3) 参考文献:中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11
音声合成の例 - - 26 Sonantic (2022)
応用例: マルチモーダル学習 - - 27
マルチモーダル学習(multimodal learning)の歴史 - - 28 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M
2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]
大規模言語モデルの インパクト - - 31
大規模言語モデル(Large language models; LLMs)で 現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 % Among Test takers 90%
ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の2大ニュース (StableDiffusion &
ChatGPT)のうちの1つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度 も盛り上がるもののキラーアプリに欠ける ため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は 非公開(2023.5時点) https://openai.com/blog/chatgpt/
言語モデルとは - - 34 ▪ 次の単語(トークン)を予測する確率モデル ▪ 例:「むかしむかしあるところに」→「おじいさんが…」「3匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれ ることは多くの専門家にとって意外だった
大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf
プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デ バッグ等に利用されている ▪ 一方、「発明」レベルのプログ ラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、 「シューティングゲームなの か、2次元なのか、ボス敵は どんな形か、…(仕様)」が 明確でなければ、良いゲーム は作れない ▪ OpenAI CodeX (https://www.youtube.com/wa tch?v=Zm9B-DvwOgw)
大規模言語モデルによるコード生成で起こった問題の例 (2022/10 GitHub Copilot) - - 37 ▪ Texas A&M
Univ.のTim Davis 教授:「自分が著作権を有する コードを、attributionやLGPL 表示なしでCopilotが生成し た」 ▪ プロンプト:「sparse matrix transpose, cs_」 ▪ 感想:確かに多くは類似 ▪ コメントまでコピペされて いる点は類似とみなされて もやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1
教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で 電子辞書が使える訳ではない ▪ 例:宿題の英文和訳問題をDeepL等で解いたとしても、自分の力が つかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、 当該試験問題は「AIで解ける」といえる ▪ 感想:「AIで解ける問題」のレポートのみで成績評価を行うことは、 世界レベルで社会から受容されなくなっていくのではないか
LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか?」→ 「51は素数です」(2022/12月) ▪
(CNNを出力させたうえで)「そのモデルのパラメータ数はいくつで すか?」→「18762です」(実際には約9000) ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである(鉛筆や辞書同様、使い方を学べばよい)
アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK? Q2. LLMが生成したテキストの著作権はLLM作者にある? Q3. 有名なアニメに似た画像を生成した。公開してOK?
Q4. ChatGPTがあればプログラマは不要?
アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK? 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある? Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK? 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要? プログラマの生産性が上がった(「助手」がいるようなもの)
おわりに - - 42
まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した 考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る