Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Grand Challenges of Machine Intelligence 2023
Search
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Technology
0
320
Grand Challenges of Machine Intelligence 2023
Semantic Machine Intelligence Lab., Keio Univ.
PRO
May 12, 2023
Tweet
Share
More Decks by Semantic Machine Intelligence Lab., Keio Univ.
See All by Semantic Machine Intelligence Lab., Keio Univ.
[Journal club] GraphEQA: Using 3D Semantic Scene Graphs for Real-time Embodied Question Answering
keio_smilab
PRO
0
48
[RSJ25] Feasible RAG: Hierarchical Multimodal Retrieval with Feasibility-Aware Embodied Memory for Mobile Manipulation
keio_smilab
PRO
0
150
[RSJ25] LILAC: Language‑Conditioned Object‑Centric Optical Flow for Open‑Loop Trajectory Generation
keio_smilab
PRO
0
92
[RSJ25] Multilingual Scene Text-Aware Multimodal Retrieval for Everyday Objects Based on Deep State Space Models
keio_smilab
PRO
0
95
[RSJ25] Everyday Object Manipulation Based on Scene Text-Aware Multimodal Retrieval
keio_smilab
PRO
1
77
[RSJ25] Enhancing VLA Performance in Understanding and Executing Free-form Instructions via Visual Prompt-based Paraphrasing
keio_smilab
PRO
0
140
[Journal club] Generalized Contrastive Learning for Multi-Modal Retrieval and Ranking
keio_smilab
PRO
0
65
[Journal club] Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
keio_smilab
PRO
0
60
[Journal club] Influence-Balanced Loss for Imbalanced Visual Classification
keio_smilab
PRO
0
29
Other Decks in Technology
See All in Technology
Codexとも仲良く。CodeRabbit CLIの紹介
moongift
PRO
0
200
AIツールでどこまでデザインを忠実に実装できるのか
oikon48
6
3.4k
E2Eテスト設計_自動化のリアル___Playwrightでの実践とMCPの試み__AIによるテスト観点作成_.pdf
findy_eventslides
2
620
AWS Control Tower に学ぶ! IAM Identity Center 権限設計の第一歩 / IAM Identity Center with Control Tower
y___u
0
170
大規模サーバーレスAPIの堅牢性・信頼性設計 〜AWSのベストプラクティスから始まる現実的制約との向き合い方〜
maimyyym
9
4.6k
AWS IoT 超入門 2025
hattori
0
330
ガバメントクラウド(AWS)へのデータ移行戦略の立て方【虎の巻】 / 20251011 Mitsutosi Matsuo
shift_evolve
PRO
2
190
GoでもGUIアプリを作りたい!
kworkdev
PRO
0
140
Node.js 2025: What's new and what's next
ruyadorno
0
230
今この時代に技術とどう向き合うべきか
gree_tech
PRO
0
640
エンタメとAIのための3Dパラレルワールド構築(GPU UNITE 2025 特別講演)
pfn
PRO
0
300
プロダクトのコードから見るGoによるデザインパターンの実践 #go_night_talk
bengo4com
1
2.5k
Featured
See All Featured
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
16k
How to train your dragon (web standard)
notwaldorf
97
6.3k
Java REST API Framework Comparison - PWX 2021
mraible
34
8.9k
実際に使うSQLの書き方 徹底解説 / pgcon21j-tutorial
soudai
PRO
189
55k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.1k
Distributed Sagas: A Protocol for Coordinating Microservices
caitiem20
333
22k
How to Think Like a Performance Engineer
csswizardry
27
2k
The Language of Interfaces
destraynor
162
25k
Site-Speed That Sticks
csswizardry
12
900
Being A Developer After 40
akosma
91
590k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
55
3k
YesSQL, Process and Tooling at Scale
rocio
173
14k
Transcript
情報工学科 教授 杉浦孔明
[email protected]
慶應義塾大学理工学部 情報工学概論 機械知能のグランドチャレンジ
広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数 合成画像 実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2
2022年のAIに関する2大ニュース 「生成型AI(Generative AI)」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成
Superhuman: 人間を凌駕するAI チャンピオンを超えた例 チェス(1997)、Jeopardy!(クイズ, 2011)、囲碁 (2017)、グランツーリスモ(ゲーム, 2022) 平均的な人と同等以上の例 機械翻訳、音声合成、ImageNet(1000カテゴリの物 体認識)
その先を目指すグランドチャレンジ 「ノーベルチューリングチャレンジ(北野、2016)」 2050年までに、ノーベル賞級かそれ以上の科学的発見 を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html
専門家のスキル向上にAIが利用された例: 囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china
機械学習とは - - 6
アンケート: 以下の例は何ですか? - - 7 知的処理 知的処理ではない
機械学習とは ニューラルネットワーク等の数理モデルを用いてデータに潜む パターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の 数理モデル データ 予測/
分類 「犬」
人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能(AI) 機械学習
ニューラルネットワーク それ以外のアプローチ(ルールベース等) ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論
2年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています(要keio.jp認証) ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing
「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 1 イントロダクション 8 (GRU) 2
機械学習の基礎 9 注意機構とトランスフォーマー 3 順伝播型ニューラルネット 10 深層生成モデル 4 最適化 11 応用と評価 5 誤差逆伝播法 12 補遺 6 畳み込みニューラルネット 13 深層強化学習 7 再帰型ニューラルネット 14 まとめ • 近年の主流手法。例:GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的 なカリキュラム
慶應義塾大学 ジュニア研究プログラム(JREP) 「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を 分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp
機械知能の グランドチャレンジ - - 13
自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE
自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝(賞金200万ドル) ▪ メンバーがWaymoを創業 実況者の予想 ▪ 「数年後には自動運転車に乗っ て高速道路を走るようになるで しょう」 ▪ 「(自動運転でなければ運転者 が電話をかけたら違法)自動運 転なら電話もかけられます」 達成済み
物体認識のベンチマークテストの例: ImageNet Large Scale Visual Recognition Challenge(ILSVRC) ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]
その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド (車の運転、ドア開け、瓦礫/階段昇降等) MBZIRC(2017-) 複数ドローン(Unmanned Aerial Vehecle)の自動操縦 Quince
何をどこまで達成すればよいのか? ▪ 「Superhuman」が1つのマイルストーン ▪ 人(平均的な人 or 専門家 or チャンピオン)が同じタスクを解いたと きの性能を機械が超える
▪ 達成するとどうなる? ▪ (私の経験)機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、 ベンチマークテスト結果を継続的に改良してたどり着いたもの
応用例: コンピュータビジョン - - 19
Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20
光学文字認識(OCR; Optical character recognition) - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
敵対的生成ネットワーク(GAN)の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]
応用例: 音声言語処理・自然言語処理 - - 23
音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine
translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示(NEC, 1983) ▪ ATR自動翻訳電話研究所設立 (1986、後にNICTに合流)
▪ 音声翻訳スマホアプリ ▪ Jibbigo(Waibelら, 2009) ▪ VoiceTra(NICT, 2010) ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本 (2020/2/3) 参考文献:中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11
音声合成の例 - - 26 Sonantic (2022)
応用例: マルチモーダル学習 - - 27
マルチモーダル学習(multimodal learning)の歴史 - - 28 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M
2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]
大規模言語モデルの インパクト - - 31
大規模言語モデル(Large language models; LLMs)で 現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、 上位10%と同等のスコアを獲 得 % Among Test takers 90%
ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の2大ニュース (StableDiffusion &
ChatGPT)のうちの1つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度 も盛り上がるもののキラーアプリに欠ける ため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は 非公開(2023.5時点) https://openai.com/blog/chatgpt/
言語モデルとは - - 34 ▪ 次の単語(トークン)を予測する確率モデル ▪ 例:「むかしむかしあるところに」→「おじいさんが…」「3匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれ ることは多くの専門家にとって意外だった
大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf
プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デ バッグ等に利用されている ▪ 一方、「発明」レベルのプログ ラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、 「シューティングゲームなの か、2次元なのか、ボス敵は どんな形か、…(仕様)」が 明確でなければ、良いゲーム は作れない ▪ OpenAI CodeX (https://www.youtube.com/wa tch?v=Zm9B-DvwOgw)
大規模言語モデルによるコード生成で起こった問題の例 (2022/10 GitHub Copilot) - - 37 ▪ Texas A&M
Univ.のTim Davis 教授:「自分が著作権を有する コードを、attributionやLGPL 表示なしでCopilotが生成し た」 ▪ プロンプト:「sparse matrix transpose, cs_」 ▪ 感想:確かに多くは類似 ▪ コメントまでコピペされて いる点は類似とみなされて もやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1
教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で 電子辞書が使える訳ではない ▪ 例:宿題の英文和訳問題をDeepL等で解いたとしても、自分の力が つかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、 当該試験問題は「AIで解ける」といえる ▪ 感想:「AIで解ける問題」のレポートのみで成績評価を行うことは、 世界レベルで社会から受容されなくなっていくのではないか
LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか?」→ 「51は素数です」(2022/12月) ▪
(CNNを出力させたうえで)「そのモデルのパラメータ数はいくつで すか?」→「18762です」(実際には約9000) ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである(鉛筆や辞書同様、使い方を学べばよい)
アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK? Q2. LLMが生成したテキストの著作権はLLM作者にある? Q3. 有名なアニメに似た画像を生成した。公開してOK?
Q4. ChatGPTがあればプログラマは不要?
アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK? 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある? Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK? 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要? プログラマの生産性が上がった(「助手」がいるようなもの)
おわりに - - 42
まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した 考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る