Grand Challenges of Machine Intelligence 2023

情報工学科教授杉浦孔明 [email protected] 慶應義塾大学理工学部情報工学概論機械知能のグランドチャレンジ

広がるAIの応用 - - 2 ▪ 検索、音声認識・合成、機械翻訳、対話 ▪ 一般物体認識、姿勢推定、画像生成 ▪ ロボット工学、創薬、マテリアルズ・インフォマティクス、天文学
▪ 他多数合成画像実在の人物 https://www.whichfaceisreal.com/ VoiceTra Tacotron 2 https://github.com/facebookresearch/detectron2

2022年のAIに関する２大ニュース「生成型AI（Generative AI）」 - - 3 ▪ Stable Diffusion (2022/6)
▪ ChatGPT [OpenAI, 2022/11/30] 上図は学生が「ペリー来航」をお題に作成

Superhuman：人間を凌駕するAI チャンピオンを超えた例チェス（1997）、Jeopardy!（クイズ, 2011）、囲碁（2017）、グランツーリスモ（ゲーム, 2022）平均的な人と同等以上の例機械翻訳、音声合成、ImageNet（1000カテゴリの物体認識）
その先を目指すグランドチャレンジ「ノーベルチューリングチャレンジ（北野、2016）」 2050年までに、ノーベル賞級かそれ以上の科学的発見を行う人工知能を開発する [Park+ 2017] https://www.itmedia.co.jp/news/articles/1705/25/news103. html

専門家のスキル向上にAIが利用された例：囲碁 - - 5 ▪ 2017年、AlphaGoが人間のチャンピオンを破る ▪ 2017年以降、「人間を凌駕するAI」を棋士が練習に使用開始 棋士のスコアが急激に向上
[Shin+ PNAS2023] https://deepmind.com/alphago-china

機械学習とは - - 6

アンケート：以下の例は何ですか？ - - 7 知的処理知的処理ではない

機械学習とはニューラルネットワーク等の数理モデルを用いてデータに潜むパターンを発見、予測・分類する技術 - - 8 ニューラルネットワーク等の数理モデルデータ予測/
分類「犬」

人工知能分野におけるニューラルネットワークの位置付け - - 9 深層ニューラルネットワーク (Deep Neural Network) 人工知能（AI）機械学習
ニューラルネットワークそれ以外のアプローチ（ルールベース等） ▪ 線形代数 ▪ 微分積分学 ▪ 確率論 ▪ その他の理論

２年秋学期「機械学習基礎」の資料公開中 - - 10 ▪ 昨年のスライド・講義録画・実習を公開しています（要keio.jp認証） ▪ https://docs.google.com/document/d/1z8Ksx0OuZ3BJLSIx3Ow8F BwEdW-cJqexm6u8FARS31k/edit?usp=sharing

「機械学習基礎」の講義内容 ※2年春にPythonオブジェクト指向プログラミングを習得しておいてください - - 11 １イントロダクション８（GRU）２
機械学習の基礎９注意機構とトランスフォーマー３順伝播型ニューラルネット１０深層生成モデル４最適化１１応用と評価５誤差逆伝播法１２補遺６畳み込みニューラルネット１３深層強化学習７再帰型ニューラルネット１４まとめ • 近年の主流手法。例：GPT (Generative Pre- trained Transformer) • トランスフォーマーをB2で習得する野心的なカリキュラム

慶應義塾大学ジュニア研究プログラム（JREP）「AI・データサイエンス研究入門」新規開講 - - 12 ▪ 実際に最新手法を試して結果を分析しプレゼンする ▪
抽選への応募方法 ▪ https://jrep.st.keio.ac.jp

機械知能のグランドチャレンジ - - 13

自動運転タクシー - - 14 Waymo Cruise https://www.youtube.com/watch?v=G_If80OpuqE

自動運転のグランドチャレンジ DARPA Grand Challenge (2004-05) - - 15 ▪ スタンフォード大学のチームが
優勝（賞金200万ドル） ▪ メンバーがWaymoを創業実況者の予想 ▪ 「数年後には自動運転車に乗って高速道路を走るようになるでしょう」 ▪ 「（自動運転でなければ運転者が電話をかけたら違法）自動運転なら電話もかけられます」 達成済み

物体認識のベンチマークテストの例： ImageNet Large Scale Visual Recognition Challenge（ILSVRC） ▪ 1000カテゴリの物体認識 ▪
人間による誤り率=0.051 ▪ 2012年にDeep Neural Network (DNN)が圧倒的に勝利したことで DNNの認知度が高まった [Park+ 2017]

その他の代表的なコンペティション・ベンチマークテスト Loebner Prize (1990-) テキスト対話システムによるチューリングテスト RoboCup (1997-) サッカー、レスキュー、家庭用ロボット等 Kaggle (2010-)
機械学習コンペのプラットフォーム DARPA Robotics Challenge (2013-15) 災害対応ヒューマノイド（車の運転、ドア開け、瓦礫/階段昇降等） MBZIRC（2017-）複数ドローン（Unmanned Aerial Vehecle）の自動操縦 Quince

何をどこまで達成すればよいのか？ ▪ 「Superhuman」が１つのマイルストーン ▪ 人（平均的な人 or 専門家 or チャンピオン）が同じタスクを解いたときの性能を機械が超える
▪ 達成するとどうなる？ ▪ （私の経験）機械知能の利用に批判的な人が劇的に減る ▪ ChatGPTやStable Diffusionは、いきなり発明されたのではなく、ベンチマークテスト結果を継続的に改良してたどり着いたもの

応用例：コンピュータビジョン - - 19

Segment Anything [Kirillov+(Meta) 2023/4/5] - - 20

光学文字認識（OCR; Optical character recognition） - - 21 ▪ 1933年にPaul Handelが米国で
特許を取得 ▪ 現代ではスマートフォン上でも可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja

敵対的生成ネットワーク（GAN）の応用例 - - 22 https://www.whichfaceisreal.com/ StyleGAN-Human [Fu+ 2022]

応用例：音声言語処理・自然言語処理 - - 23

音声翻訳のしくみ - - 24 音声認識 (speech recognition) 音声→テキスト機械翻訳 (machine
translation) テキスト→テキスト音声合成 (speech synthesis) テキスト→音声日本語テキスト駅はどこですか日本語音声英語テキスト Where is the station? 英語音声学習済モデル日本語音声・言語コーパス日英対訳コーパス英語音声・言語コーパス学習済モデル学習済モデル事前に学習事前に学習事前に学習 VoiceTra 言語に関するデータセット

音声翻訳システムの歴史 - - 25 ▪ 自動通訳電話を展示（NEC, 1983） ▪ ATR自動翻訳電話研究所設立（1986、後にNICTに合流）
▪ 音声翻訳スマホアプリ ▪ Jibbigo（Waibelら, 2009） ▪ VoiceTra（NICT, 2010） ▪ GAFAによるアプリリリースは 2011年以降 1993年 NHK おはよう日本（2020/2/3）参考文献：中村哲 "音声翻訳技術の動向." 電気学会誌 130.1 (2010): 8-11

音声合成の例 - - 26 Sonantic (2022)

応用例：マルチモーダル学習 - - 27

マルチモーダル学習（multimodal learning）の歴史 - - 28 ▪ 複数のモダリティ（modality）を扱う ▪ 例：画像、音声、テキスト、センサ ▪
古典的機械学習手法では小規模問題しか扱えなかった⇔2015年以降近年成長が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題（省略、意図等） SHRDLU [Winograd 1970s] Microsoft

CLIP [Radford+ 2021] - - 29 ▪ ウェブから収集された4億組の画像・テキストを使用 ▪ 正しい画像とテキストの組を予測できるように学習
▪ 他のモデルに組み込まれていることが多い N=e.g. 400M N=e.g. 400M

2022年、マルチモーダル言語処理が爆発的に拡大 Text-to-image ▪ DALL·E 2 [Aditya (OpenAI) + 2022/4] ▪
Imagen [Chitwan (Google)+ 2022/05]

大規模言語モデルのインパクト - - 31

大規模言語モデル（Large language models; LLMs）で現在何ができるのか - - 32 ▪ ChatGPT
[OpenAI, 2022/11/30] ▪ GPT-4 [OpenAI, 2023/3/14] ▪ 米国統一司法試験において、上位10%と同等のスコアを獲得 % Among Test takers 90%

ChatGPT [OpenAI, 2022/11] - - 33 ▪ 2022年の機械学習関連の２大ニュース（StableDiffusion &
ChatGPT）のうちの１つ ▪ これまでとの違い ▪ 既存のチャットボットは数十年前から何度も盛り上がるもののキラーアプリに欠けるため必需品とならず ▪ GPT-3.5・InstructGPTと関連するが、詳細は非公開（2023.5時点） https://openai.com/blog/chatgpt/

言語モデルとは - - 34 ▪ 次の単語（トークン）を予測する確率モデル ▪ 例：「むかしむかしあるところに」→「おじいさんが…」「３匹の …」はありそう。「おとうさんが…」には違和感 ▪
生成する際にランダム要素を入れることで、異なる文を生成可能 よって、常に同じ文が生成される訳ではない ▪ 音声認識、機械翻訳等で数十年前から使われていた ▪ 言語モデルと大量の学習データで、ChatGPTレベルのものが生まれることは多くの専門家にとって意外だった

大規模言語モデルの流れ - - 35 https://arxiv.org/pdf/2303.18223.pdf

プログラムの生成例 - - 36 ▪ コード片の生成・テスト・デバッグ等に利用されている ▪ 一方、「発明」レベルのプログラムを簡単に作ることはできな
い ▪ 例えばゲームを作るとして、「シューティングゲームなのか、２次元なのか、ボス敵はどんな形か、…（仕様）」が明確でなければ、良いゲームは作れない ▪ OpenAI CodeX （https://www.youtube.com/wa tch?v=Zm9B-DvwOgw）

大規模言語モデルによるコード生成で起こった問題の例（2022/10 GitHub Copilot） - - 37 ▪ Texas A&M
Univ.のTim Davis 教授：「自分が著作権を有するコードを、attributionやLGPL 表示なしでCopilotが生成した」 ▪ プロンプト：「sparse matrix transpose, cs_」 ▪ 感想：確かに多くは類似 ▪ コメントまでコピペされている点は類似とみなされてもやむを得ない https://twitter.com/DocSparse/status/1581632706693079042/photo/1

教育とLLM - - 38 ▪ 電子辞書を使って宿題をすることは禁じられていないが、試験本番で電子辞書が使える訳ではない ▪ 例：宿題の英文和訳問題をDeepL等で解いたとしても、自分の力がつかないので本番で困るのは自分
▪ 試験本番は公正性が担保されている ▪ いくつかの米国資格試験でAIが合格圏内のスコアを出せるのであれば、当該試験問題は「AIで解ける」といえる ▪ 感想：「AIで解ける問題」のレポートのみで成績評価を行うことは、世界レベルで社会から受容されなくなっていくのではないか

LLMの長所・短所を理解し学びに活用することが重要 - - 39 誤りの例 ▪ 「51は何で割り切れますか？」→  「51は素数です」(2022/12月) ▪
（CNNを出力させたうえで）「そのモデルのパラメータ数はいくつですか？」→「18762です」（実際には約9000）ポイント ▪ 初級知識を質問することにとどめ、検証を忘れないように ▪ ChatGPTは英訳サービス・予測変換・文法校正ツールと本質的に同じ ▪ LLMはツールである（鉛筆や辞書同様、使い方を学べばよい）

アンケート - - 40 Q1. 日本のサーバ上で、他人の著作物を学習データとして利用してOK？ Q2. LLMが生成したテキストの著作権はLLM作者にある？ Q3. 有名なアニメに似た画像を生成した。公開してOK？
Q4. ChatGPTがあればプログラマは不要？

アンケート - - 41 Q1.日本のサーバ上で、他人の著作物を学習データとして利用してOK？ 著作権法第三十条の四 Q2. LLMが生成したテキストの著作権はLLM作者にある？ Wordで書いた文章の著作権がWord作者にないのと同様 Q3.
有名なアニメに似た画像を生成した。公開してOK？ 他者の著作権を侵害してはならない Q4. ChatGPTがあればプログラマは不要？ プログラマの生産性が上がった（「助手」がいるようなもの）

おわりに - - 42

まとめ - - 43 本講義ではAIのグランドチャレンジ、応用例とインパクトを概観した考えてほしいこと ▪ 自分が取り組むべきグランドチャレンジは何か ▪ N年後の社会にインパクトを与える技術を作る

Grand Challenges of Machine Intelligence 2023

Grand Challenges of Machine Intelligence 2023

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Featured

Transcript