Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grand Challenges of Machine Intelligence 2023
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
320
Grand Challenges of Machine Intelligence 2023
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
47
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
49
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
13
[Journal club] Learning to Rematch Mismatched Pairs for Robust Cross-Modal Retrieval
keio_smilab
PRO
0
30
[Journal club] AuroraCap: Efficient, Performant Video Detailed Captioning and a New Benchmark
keio_smilab
PRO
0
42
[MIRU25] NaiLIA: Multimodal Retrieval of Nail Designs Based on Dense Intent Descriptions
keio_smilab
PRO
1
210
[MIRU25] An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions
keio_smilab
PRO
1
210
[MIRU2025]Preference Optimization for Multimodal Large Language Models for Image Captioning Tasks
keio_smilab
PRO
0
180
Semantic Machine Intelligence for Vision, Language, and Actions
keio_smilab
PRO
3
470
Other Decks in Technology
See All in Technology
Gaze-LLE: Gaze Target Estimation via Large-Scale Learned Encoders
kzykmyzw
0
300
ドキュメントはAIの味方!スタートアップのアジャイルを加速するADR
kawauso
3
190
OpenAPIから画面生成に挑戦した話
koinunopochi
0
140
kintone開発チームの紹介
cybozuinsideout
PRO
0
73k
アジャイルテストで高品質のスプリントレビューを
takesection
0
110
Android Studio の 新しいAI機能を試してみよう / Try out the new AI features in Android Studio
yanzm
0
250
マイクロモビリティシェアサービスを支える プラットフォームアーキテクチャ
grimoh
1
180
OCI Bastionサービス
oracle4engineer
PRO
1
130
モダンな現場と従来型の組織——そこに生じる "不整合" を解消してこそチームがパフォーマンスを発揮できる / Team-oriented Organization Design 20250825
mtx2s
4
490
歴代のWeb Speed Hackathonの出題から考えるデグレしないパフォーマンス改善
shuta13
6
590
新卒(ほぼ)専業Kagglerという選択肢
nocchi1
1
1.9k
R-SCoRe: Revisiting Scene Coordinate Regression for Robust Large-Scale Visual Localization
takmin
0
400
Featured
See All Featured
The Cult of Friendly URLs
andyhume
79
6.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
251
13k
Measuring & Analyzing Core Web Vitals
bluesmoon
9
560
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
251
21k
Speed Design
sergeychernyshev
32
1.1k
How STYLIGHT went responsive
nonsquared
100
5.7k
Git: the NoSQL Database
bkeepers
PRO
431
65k
Evolution of real-time – Irina Nazarova, EuRuKo, 2024
irinanazarova
8
890
Fireside Chat
paigeccino
39
3.6k
Done Done
chrislema
185
16k
A Modern Web Designer's Workflow
chriscoyier
695
190k
Documentation Writing (for coders)
carmenintech
73
5k
Transcript
情報工学科 教授 杉浦孔明
[email protected]
慶應義塾大学理工学部 情報工学概論 機械知能のグランドチャレンジ
広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数 合成画像 実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2
2022年のAIに関する2大ニュース 「生成型AI(Generative AI)」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成
Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲碁 (2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)
その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html
専門家のスキル向上にAIが利用された例: 囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china
機械学習とは - - 6
アンケート: 以下の例は何ですか? - - 7 知的処理 知的処理ではない
機械学習とは ニューラルネットワーク等の数理モデルを用いてデータに潜む パターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の 数理モデル データ 予測/
分類 「犬」
人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能(AI) 機械学習
ニューラルネットワーク それ以外のアプローチ(ルールベース等) ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論
2年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています(要keio.jp認証) ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing
「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 1 イントロダクション 8 (GRU) 2
機械学習の基礎 9 注意機構とトランスフォーマー 3 順伝播型ニューラルネット 10 深層生成モデル 4 最適化 11 応用と評価 5 誤差逆伝播法 12 補遺 6 畳み込みニューラルネット 13 深層強化学習 7 再帰型ニューラルネット 14 まとめ • 近年の主流手法。例:GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的 なカリキュラム
慶應義塾大学 ジュニア研究プログラム(JREP) 「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を 分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp
機械知能の グランドチャレンジ - - 13
自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE
自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝(賞金200万ドル) ▪ メンバーがWaymoを創業 実況者の予想 ▪ 「数年後には自動運転車に乗っ て高速道路を走るようになるで しょう」 ▪ 「(自動運転でなければ運転者 が電話をかけたら違法)自動運 転なら電話もかけられます」 達成済み
物体認識のベンチマークテストの例: ImageNet Large Scale Visual Recognition Challenge(ILSVRC) ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]
その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド (車の運転、ドア開け、瓦礫/階段昇降等) MBZIRC(2017-) 複数ドローン(Unmanned Aerial Vehecle)の自動操縦 Quince
何をどこまで達成すればよいのか? ▪ 「Superhuman」が1つのマイルストーン ▪ 人(平均的な人 or 専門家 or チャンピオン)が同じタスクを解いたと きの性能を機械が超える
▪ 達成するとどうなる? ▪ (私の経験)機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、 ベンチマークテスト結果を継続的に改良してたどり着いたもの
応用例: コンピュータビジョン - - 19
Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20
光学文字認識(OCR; Optical character recognition) - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
敵対的生成ネットワーク(GAN)の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]
応用例: 音声言語処理・自然言語処理 - - 23
音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine
translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示(NEC, 1983) ▪ ATR自動翻訳電話研究所設立 (1986、後にNICTに合流)
▪ 音声翻訳スマホアプリ ▪ Jibbigo(Waibelら, 2009) ▪ VoiceTra(NICT, 2010) ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本 (2020/2/3) 参考文献:中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11
音声合成の例 - - 26 Sonantic (2022)
応用例: マルチモーダル学習 - - 27
マルチモーダル学習(multimodal learning)の歴史 - - 28 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M
2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]
大規模言語モデルの インパクト - - 31
大規模言語モデル(Large language models; LLMs)で 現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 % Among Test takers 90%
ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の2大ニュース (StableDiffusion &
ChatGPT)のうちの1つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度 も盛り上がるもののキラーアプリに欠ける ため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は 非公開(2023.5時点) https://openai.com/blog/chatgpt/
言語モデルとは - - 34 ▪ 次の単語(トークン)を予測する確率モデル ▪ 例:「むかしむかしあるところに」→「おじいさんが…」「3匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれ ることは多くの専門家にとって意外だった
大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf
プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デ バッグ等に利用されている ▪ 一方、「発明」レベルのプログ ラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、 「シューティングゲームなの か、2次元なのか、ボス敵は どんな形か、…(仕様)」が 明確でなければ、良いゲーム は作れない ▪ OpenAI CodeX (https://www.youtube.com/wa tch?v=Zm9B-DvwOgw)
大規模言語モデルによるコード生成で起こった問題の例 (2022/10 GitHub Copilot) - - 37 ▪ Texas A&M
Univ.のTim Davis 教授:「自分が著作権を有する コードを、attributionやLGPL 表示なしでCopilotが生成し た」 ▪ プロンプト:「sparse matrix transpose, cs_」 ▪ 感想:確かに多くは類似 ▪ コメントまでコピペされて いる点は類似とみなされて もやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1
教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で 電子辞書が使える訳ではない ▪ 例:宿題の英文和訳問題をDeepL等で解いたとしても、自分の力が つかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、 当該試験問題は「AIで解ける」といえる ▪ 感想:「AIで解ける問題」のレポートのみで成績評価を行うことは、 世界レベルで社会から受容されなくなっていくのではないか
LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか?」→ 「51は素数です」(2022/12月) ▪
(CNNを出力させたうえで)「そのモデルのパラメータ数はいくつで すか?」→「18762です」(実際には約9000) ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである(鉛筆や辞書同様、使い方を学べばよい)
アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK? Q2. LLMが生成したテキストの著作権はLLM作者にある? Q3. 有名なアニメに似た画像を生成した。公開してOK?
Q4. ChatGPTがあればプログラマは不要?
アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK? 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある? Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK? 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要? プログラマの生産性が上がった(「助手」がいるようなもの)
おわりに - - 42
まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した 考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る