Upgrade to Pro — share decks privately, control downloads, hide ads and more …

東京大学大学院経済学研究科 「ICTと産業」基盤モデルと産業

Recruit
PRO
April 27, 2023

東京大学大学院経済学研究科 「ICTと産業」基盤モデルと産業

2023/04/25に、東京大学本郷キャンパスで発表した、荒居秀尚と本田志温
の資料になります。

Recruit
PRO

April 27, 2023
Tweet

More Decks by Recruit

Other Decks in Business

Transcript

  1. © Recruit Co., Ltd. All Rights Reserved
    2023/04/25
    東京大学大学院経済学研究科 「ICTと産業」
    基盤モデルと産業
    株式会社リクルート データ推進室

    機械学習エンジニア 荒居秀尚

    機械学習エンジニア 本田志温

    View Slide

  2. © Recruit Co., Ltd. All Rights Reserved
    2022年末頃から、AIの話題が尽きない
    https://news.google.com/home?hl=ja&gl=
    JP&ceid=JP:ja
    https://www.economist.com/leaders/2023
    /04/20/how-to-worry-wisely-about-artifici
    al-intelligence
    https://futureoflife.org/open-letter/pause
    -giant-ai-experiments/

    View Slide

  3. © Recruit Co., Ltd. All Rights Reserved
    最近の”すごいAI”、いわゆる「基盤モデル※」を見ていると湧いてくる疑問の例
    ※正確な定義は後ほど
    ● そもそも、どういう経緯で今のブームが起きたのか?
    ● 本当に生産性を向上させるのか?
    ● 企業が導入する際の障壁は何か?
    ● 制約やリスクは何か?
    ● 賃金を押し上げるのか、労働者を代替するのか?
    ● 人類の幸福につなげるにはどうすればよいか?
    ● 若い世代はこれからどう生きるべきか?
    こういった問いに答えるための材料を、
    現場の目線を交えながら提供します

    View Slide

  4. © Recruit Co., Ltd. All Rights Reserved
    お話しすること
    1. リクルートの紹介
    2. 基盤モデルの技術概要
    3. 基盤モデルの利用可能性・社会への影響
    4. 産業界における基盤モデルの活用事例
    5. リクルートにおける基盤モデル
    6. まとめ
    4

    View Slide

  5. © Recruit Co., Ltd. All Rights Reserved
    リクルートの紹介
    なぜリクルートが基盤モデル?

    View Slide

  6. © Recruit Co., Ltd. All Rights Reserved
    自己紹介
    本田 志温
    2020年 - 現在:リクルート
    ● 基盤モデルに関するR&Dを共同起案
    ● ホットペッパービューティーで画像処理を用い
    た機能などを提案から開発まで担当
    ● その他、新規事業開発など
    2018年 - 2020年:東京大学大学院情報理工学系
    研究科
    ● AI創薬の研究
    ● その他、画像生成など深層学習いろいろ
    株式会社リクルート
    機械学習エンジニア
    詳しくは:
    hippocampus-garden.com
    荒居 秀尚
    株式会社リクルート
    機械学習エンジニア
    2021年 - 現在:リクルート
    ● 基盤モデルに関するR&Dを共同起案
    ● 社内の複数領域で機械学習を用いた案件に従

    2018年 - 2021年:東京大学大学院工学系研究科
    ● 深層学習を用いた表現学習の研究
    ● 趣味でKaggle (機械学習モデリングの競技)に
    取り組み、最高位のGrandmasterの称号獲得

    View Slide

  7. © Recruit Co., Ltd. All Rights Reserved
    株式会社リクルートについて
    7
     マッチング&ソリューションSBU HRテクノロジーSBU 人材派遣SBU
    販促領域 人材領域 国内派遣 海外派遣
    etc...
    選択・意思決定を支援する情報サービスを提供し、
    「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに」を実現する

    View Slide

  8. © Recruit Co., Ltd. All Rights Reserved
    リクルートのビジネスモデルについて
    8
    ● リクルートにはユーザーとクライアントという2つのお客様が存在
    ● 「企業と人(B to C)」 「企業と企業(B to B)」 「人と人(C to C)」のすべての間に立ち、双方にとって最適なマッチン
    グを図る「場」を提供
    ユーザーとクライアントを新しい接点で結び、
    「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに」の場を創造する
    リクルート
    マッチングプラットフォーム
    クライアントとユーザーを結びつける
    対価としてクライアントからフィーを受領
    ユーザー クライアント

    View Slide

  9. © Recruit Co., Ltd. All Rights Reserved
    データの観点から見たリクルート
    9
    リクルート
    マッチングプラットフォーム
    ユーザー クライアント
    行動データ
    (クリック、購入など)
    テキスト・画像・音声
    各事業で大量かつ多様なデータが生まれている。
    これらのデータを活用してマッチングの精度を高めたい

    View Slide

  10. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルの技術概要
    基盤モデルとは?これまでのAIとはどう異なる?

    View Slide

  11. © Recruit Co., Ltd. All Rights Reserved
    機械学習とは?人工知能(AI)と同じと考えていい?
    機械学習は、過去3度あった人工知能ブームのうち最後のブームの主役
    https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/html/nc142120.html

    View Slide

  12. © Recruit Co., Ltd. All Rights Reserved
    機械学習の概要
    教師あり学習 教師なし学習 強化学習
    環境
    エージェント
    状態
    +
    報酬
    行動
    教師あり学習、教師なし学習、強化学習の三つに分けられる
    モデル
    教師ラベルを用いず、特徴量
    のみから別の空間への射影規
    則を学習する
    教師ラベルを用いて、特徴量
    と教師ラベルの関係を学習
    し、未知データに推論する

    View Slide

  13. © Recruit Co., Ltd. All Rights Reserved
    教師あり学習の概要
    1.特徴量とラベルのペアを用いて学習 2.学習後、特徴量からラベルを推論
    X(特徴量) y’(予測値)
    y(正解ラベル)
    近づける
    教師ラベルを用いる「学習」と、学習されたモデルで予測を行う「推論」ステップがある
    モデル
    特徴量と正解ラベルの間の関係をモデルが学習する。
    モデルとしては様々なアルゴリズムが存在する。
    モデル
    X’(特徴量) y”(予測値)
    学習されたモデルは今までにみたことがない新しい
    データに対して、ラベルを予測することができる。

    View Slide

  14. © Recruit Co., Ltd. All Rights Reserved
    教師あり学習の具体例
    スパムメール分類
    正解ラベル 特徴量
    モデルは、特徴量と正解ラベルの間の関係を学習し、未知のデータに対してラベルを予測できるようになる
    特徴量抽出
    モデル

    View Slide

  15. © Recruit Co., Ltd. All Rights Reserved
    教師なし学習の概要
    教師ラベルを用いず、特徴量のみからそこに内在する構造を抽出する
    モデル
    モデルは、データを他の空間に射影する変換規則を学習する
    ・・・
    ・・・
    ・・・
    ・・・



    元の特徴量空間は解釈性
    や取り扱いやすさの観点で
    望ましくない
    解釈しやすい、取り扱いや
    すいなど望ましい性質があ
    る空間に射影する

    View Slide

  16. © Recruit Co., Ltd. All Rights Reserved
    教師なし学習の具体例①
    株価データの次元削減と相関ネットワークのクラスタリング
    https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html#sphx-glr-auto-examples-applications-plot-stock-market-py
    株価データ
    共分散行列を計算
    クラスタリング
    2次元に埋め込み
    クラスタ番号
    ごとに色分け

    View Slide

  17. © Recruit Co., Ltd. All Rights Reserved
    教師なし学習の具体例②
    言語モデルの事前学習
    吾輩 は
    モデル
    吾輩 は 猫
    次の単語は?
    猫:80%、人:6%、犬:3%…
    次の単語の予測を繰り返すことで、
    ChatGPTのような「対話」や
    テキストの「特徴抽出」が可能に

    View Slide

  18. © Recruit Co., Ltd. All Rights Reserved
    強化学習の概要
    「エージェント」が「環境」からより多く「報酬」を受け取るような「行動」を学習する
    環境
    状態
    例) エージェントの座標、
    直前の株の取引価格
    時刻
    t
    環境
    行動
    例) 1マス横に移動する、
    指値〇〇で買い注文
    環境
    状態+報酬
    t+1
    報酬の例)
    時間経過のマイナス報酬、
    約定時の利益
    将来含めた報酬和を 
    最大化する行動を選択

    View Slide

  19. © Recruit Co., Ltd. All Rights Reserved
    強化学習の具体例
    ゲームAI
    https://www.tensorflow.org/agents/tutorials/0_intro_rl?hl=ja

    View Slide

  20. © Recruit Co., Ltd. All Rights Reserved
    強化学習の具体例
    ロボットアームの動作(Google)
    https://ai.googleblog.com/2021/04/multi-task-robotic-reinforcement.html
    より高速で小さな回路の設計(NVIDIA)
    Designing Arithmetic Circuits with Deep Reinforcement Learning | NVIDIA
    Technical Blog

    View Slide

  21. © Recruit Co., Ltd. All Rights Reserved
    深層学習の概要
    「ニューラルネットワーク」というモデルを大規模に学習させたもの
    ・・・
    ・・・
    ・・・
    0.324
    -0.223
    0.962
    -0.138
    0.221
    0.121
    0.537
    0.981
    数値を入力すると数値が出力される

    View Slide

  22. © Recruit Co., Ltd. All Rights Reserved
    深層学習の概要
    「ニューラルネットワーク」というモデルを大規模に学習させたもの
    ・・・
    ・・・
    ・・・
    多数のユニットからなる 層を多
    重に重ねた構造
    0.324
    -0.223
    0.962
    -0.138
    0.221
    0.121
    0.537
    0.981
    数値が入力すると数値が出力される

    View Slide

  23. © Recruit Co., Ltd. All Rights Reserved
    深層学習の概要
    「ニューラルネットワーク」というモデルを大規模に学習させたもの
    ・・・
    ・・・
    ・・・
    多数のユニットからなる 層を多
    重に重ねた構造
    前のユニットから渡された値に 重みを掛け
    ては足し合わせ非線形変換をする、という
    操作を繰り返す
    0.324
    -0.223
    0.962
    -0.138
    0.221
    0.121
    0.537
    0.981
    数値が入力すると数値が出力される

    View Slide

  24. © Recruit Co., Ltd. All Rights Reserved
    深層学習の概要
    「ニューラルネットワーク」というモデルを大規模に学習させたもの
    ・・・
    ・・・
    ・・・
    多数のユニットからなる層を多
    重に重ねた構造
    前のユニットから渡された値に 重みを掛け
    ては足し合わせ非線形変換をする、という
    操作を繰り返す
    0.324
    -0.223
    0.962
    -0.138
    0.221
    0.121
    0.537
    0.981
    数値が入力すると数値が出力される
    重みを適切に調節していくことで入力と出力の間
    の関係を学習することができる

    View Slide

  25. © Recruit Co., Ltd. All Rights Reserved
    深層学習の特徴①
    画像・音声・自然言語等の「非構造化データ」に対して有効性が高い
    画像処理 自然言語処理 音声信号処理
    物体検出
    領域分割
    画像キャプション生成
    翻訳
    対話
    テキスト画像生成
    音声認識
    こんにちは
    テキスト音声合成

    View Slide

  26. © Recruit Co., Ltd. All Rights Reserved
    深層学習の特徴②
    モデル
    0.301, -0.257, 0.912, … , 0.481, -0.337
    モデル
    “バターチキンカレーは、マイルドなカレーソー
    スで鶏肉を和えたインド料理である。インドの
    首都デリーで食べられる。”
    -0.148, 0.873, 0.157, … , -0.386, 0.292
    モデル
    0.589, 0.128, -0.365, …, 0.487, 0.651
    さまざまなデータを低次元のベクトル(Embedding)として表現できる

    View Slide

  27. © Recruit Co., Ltd. All Rights Reserved
    深層学習の特徴②:続き
    美味しいカレー
    うまく学習すれば、意味的に近いもの同士がEmbeddingの空間上でも近くなる
    画像処理
    モデル
    言語処理
    モデル
    Embeddingの空間

    View Slide

  28. © Recruit Co., Ltd. All Rights Reserved
    深層学習の特徴③
    学習には大量のデータを必要とし、計算が非常に重い
    ・・・
    ・・・
    ・・・
    数万 〜 数兆個の重みを使って計算するので、計算の並列化にむいたGPUの利用がほぼ必須
    この線一本一本に調整可能
    な重みがついている
    データを用いて重みを少しずつ調整することで、入
    力と出力の関係を学習するため、大量のデータが必
    要 & 計算量が多い

    View Slide

  29. © Recruit Co., Ltd. All Rights Reserved
    閑話休題:深層学習とGPU
    元々コンピュータゲーム用のアクセラレータだったが深層学習での利用が増加
    NVIDIAのシェアが高い
    行列演算性能はGPU >> CPU
    ChatGPT公開(11/30)
    上) (OpenAIと提携する)Microsoftの株価
    下) NVIDIAの株価
    ChatGPT公開後、Microsoftの株価は12%、
    NVIDIAの株価は60%近く上昇している

    View Slide

  30. © Recruit Co., Ltd. All Rights Reserved
    深層学習の応用例(画像)
    外観検査・自動運転・医用画像解析など、産業の幅広い領域で活用事例がある
    画像からの異常検知
    製造業をはじめとした幅広い領域で
    活用例がある。
    ・ 物体検出
    ・ 領域分割
    ・ 画像のEmbedding
    などで深層学習を利用している
    https://www.mvtec.com/company/research/datasets/mvtec-ad
    自動運転
    物体検出、物体追跡、領域分割な
    ど、要素技術の各所に深層学習を
    用いた処理が存在する
    医用画像解析
    X線写真や眼底画像などからの画
    像診断で多くの活用事例がある。
    https://www.kaggle.com/competitions/ranzcr
    -clip-catheter-line-classification

    View Slide

  31. © Recruit Co., Ltd. All Rights Reserved
    深層学習の応用例(自然言語)
    翻訳
    今では日常生活から産業界まで幅広
    く用いられている。
    2016年に翻訳APIのバックエンドが
    深層学習を用いたものに切り替えら
    れると、性能向上が話題になった
    https://translate.google.co.jp
    対話
    ChatGPT以前から一部の
    Chat Botでは深層学習が使わ
    れてきた
    https://qiita.com/Hironsan/items/6425787cc
    bee75dfae36
    テキスト分類
    企業内のドキュメントの分類から、口
    コミの感情分析など産業界では様々
    な用途で用いられている
    https://github.com/chakki-works/chABSA-dataset
    https://www.kaggle.com/code/riow1983/chabsa-for
    -sentiment-analysis-bert-japanese

    View Slide

  32. © Recruit Co., Ltd. All Rights Reserved
    深層学習の応用例(音声)
    音声合成
    自動電話システムなどで利用さ
    れているほか、最近はVTuber
    ブームにより身近に
    https://voicevox.hiroshiba.jp/
    音声認識
    スマートスピーカーやスマホの中でも
    用いられるなど日常生活に浸透して
    いる。
    https://www.apple.com/jp/siri/
    https://www.amazon.co.jp/-/en/Amazon-Echo-Alex
    a-Devices/b?ie=UTF8&node=5364343051

    View Slide

  33. © Recruit Co., Ltd. All Rights Reserved
    従来の機械学習の課題
    従来はタスクごとに大量のデータを用意してモデルを作る必要があった
    モデル
    “猫” “犬”
    モデル
    “犬”
    動物を分類するように
    学習されたモデル
    関係ない画像を入れても
    動物分類しかできない
    学習後別のタスク
    に転用

    View Slide

  34. © Recruit Co., Ltd. All Rights Reserved
    転移学習の話
    あるタスクについて学習したモデルの一部を別のタスクに使うことができる
    “猫”
    “犬”
    ・・・
    ・・・
    ・・・
    1. あるタスクで学習
    2. 別のタスクに転用
    ・・・
    ・・・
    モデルの一部は汎用的な知識※
    を持っているので転用する
    ※輪郭や色
    Embeddingを取り出す,
    後段に別の分類器をつける
    etc.

    View Slide

  35. © Recruit Co., Ltd. All Rights Reserved
    様々なタスクに汎用的なモデルがあると学習ステップが軽くなる(日英翻訳を例に)
    基盤となる
    モデルの汎用性大
    学習ステップ
    大量の対訳データで学習
    基盤となる
    モデルの汎用性小
    少量の対訳データで
    追加学習
    なし
    なし
    推論ステップ
    和文をそのまま入れる
    和文をそのまま入れる
    タスク指示と具体例と
    ともに和文を入れる
    タスク指示と
    ともに和文を入れる
    Zero-shot prediction
    データが不要で嬉しい!
    例:
    次の文を英訳してください。
    私は人間です。 =>
    In-context learning
    例:
    次の文を英訳してください。
    私は猫が好きです。 => I like cats.
    私は人間です。 =>
    翻訳に限らず様々なタスクに使い回せる汎用性を持った
    「基盤となるモデル」があると便利
    基盤となる
    モデルなし

    View Slide

  36. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルとは
    大量・多様なデータを学習し、多様な下流タスクに適応できるモデルのこと
    基盤モデル(foundation model)はスタンフォード大学のワーキンググループによって 2021年に命名された
    [2108.07258] On the Opportunities and Risks of Foundation Models

    View Slide

  37. © Recruit Co., Ltd. All Rights Reserved
    大量・多様なデータの例
    MNIST: 手書き数字とラベルからなる6万サンプル
    従来のタスク特化のデータセット
    LAION-5B:Webから収集した50億の
    画像・キャプションペア
    IMDB Moview Reviews:映画のレビュー文と
    極性ラベルからなる5万サンプル
    The Pile:
    Webから収集した825GBのテキスト
    Why is the Pile a good training set? Recent work has shown that especially for
    large models, diversity in data sources improves general cross-domain
    knowledge of the model, as well as downstream generalization capability. In our
    evaluations, not only do models trained on the Pile show moderate
    improvements in traditional language modeling benchmarks, they also show
    significant improvements on Pile BPB. Why is the Pile a good benchmark?
    To score well on Pile BPB (bits per byte), a model must be able to understand
    many disparate domains including books, github repositories, webpages, chat
    logs, and medical, physics, math, computer science, and philosophy papers.
    Pile BPB is a measure of world knowledge and reasoning ability in these
    domains, making it a robust benchmark of general, cross-domain text …
    大量かつ多様なデータセット

    View Slide

  38. © Recruit Co., Ltd. All Rights Reserved
    多様な下流タスクに適応できる例
    タスク指示を与えることで、一つのモデルを様々な下流タスクに用いることが可能
    翻訳タスク
    分類タスク

    View Slide

  39. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルはモデル、データセット、計算量を大きくするほど性能が良くなる
    * 他の要素がボトルネックにならない範囲において成立
    スケーリング則:モデルの性能は以下3変数のべき乗則に従う
    ● パラメータ数(モデルの大きさ)
    ● データセットのサイズ
    ● 計算量(ステップ数)

    View Slide

  40. © Recruit Co., Ltd. All Rights Reserved
    ここ数年はスケーリング則に従ってモデルを大きくする試みが成功を収めてきた
    パラメータ数は指数関数的に拡大してきたが、この
    トレンドはどこまで続くか …?
    困難と思われたタスクも、モデルを大きく
    することで解決される例がある

    View Slide

  41. © Recruit Co., Ltd. All Rights Reserved
    代表的な基盤モデルの紹介
    名前 対応しているタスク モダリティ 公開年
    GPT-3 自然言語で表現される任意のタスク テキスト 2020
    CLIP 任意のカテゴリの画像分類など 画像、テキスト 2021
    DALL・E 2 任意のテキストからの画像の生成 画像、テキスト 2022
    Gato 画像・テキスト・数値を入出力とするタスク 画像、テキスト、数値 2022
    Whisper 多言語音声の書き起こし、英語への翻訳など 音声、テキスト 2022
    GPT-3が登場した2020年頃から開発が活発化。
    個別のモデルについて以降で見ていく

    View Slide

  42. © Recruit Co., Ltd. All Rights Reserved
    GPT-3:テキストで表現可能な多様なタスクを、追加の学習なしで解けるモデル
    https://twitter.com/sharifshameem/status/1282676454690451457
    https://twitter.com/AndrewMayne/status/1275701138533335040
    GPT-3のAPI利用が開始された2020年6月頃のツイート
    (今の状況とよく似ている)

    View Slide

  43. © Recruit Co., Ltd. All Rights Reserved
    GPTシリーズは2018年の発表から継続的に改善され、2022年にキャズム超え
    GPT GPT-2 GPT-3 GPT-4
    公開年 2018 2019 2020 2023
    パラメータ数
    (モデルの大きさ)
    1.2億 15億 1800億 非公開
    訓練トークン数
    (データの量)
    800万 4500万 450億 非公開
    コンテキスト長
    (一度に扱える長さ)
    512 1024 2048 8192
    主な差分 転移学習によるタ
    スクへの適応
    未知タスクへの適
    応(教師なし)
    具体例を与えること
    で解けるタスクが劇
    的に増加
    画像入力に対応
    2022年に追加で強化学習
    を施したChatGPTが登場

    View Slide

  44. © Recruit Co., Ltd. All Rights Reserved
    ChatGPTは、GPT-3/4を人間の指示に従うように”align”したもの
    GPT-3は、大量のテキストで学習された言語モデルです。
    GPT-3は、大
    量のテキストで学習された言語モデルです。
    GPT-3は、…
    GPT-3は、2020年にNVIDIAが開発したGPUです。

    🤖
    GPT-3って何ですか?
    繰り返し
    嘘・デタラメ
    GPT-3は、大量のテキストコーパスで学習された大規模言語モデルで
    す。OpenAIが開発した素晴らしい技術です

    価値判断(偏見などを含む)
    align
    それは食べられますか?美味しいですか?
    文の続きを生成するだけ
    LLMの目的関数は「次の単語を予測する」こと
    →人間にとって望ましい振る舞いを
    知っているわけではない
    人間の価値観に照らして望ましい回答を
    すれば報酬を与えるという
    強化学習の枠組みで追加訓練
    人間
    ChatGPT
    報酬
    回答

    View Slide

  45. © Recruit Co., Ltd. All Rights Reserved
    閑話休題:大規模”言語”モデルはタンパク質設計にも使える
    ProtGPT2 is a deep unsupervised language model for protein design | Nature Communications
    深層学習で文字列を処理するというアプローチは
    言語以外のドメインにも通用する
    アミノ酸の配列であるタンパク質を生成する
    ProtGPT2

    View Slide

  46. © Recruit Co., Ltd. All Rights Reserved
    CLIP:画像と言語を共通のベクトル空間に埋め込むことができるモデル
    ● Webから収集した4億件の画像とキャプションの組で対照学習させたモデル
    ● 任意の画像分類を解くことができる
    1. クラス名を説明文に変換してからベ
    クトルに変換
    2. 画像をベクトルに変換
    3. 内積が最大のクラスを選ぶ
    ● 動詞や形容詞を含むキャプションで学習
    してあるため、画像に対する「深い理解」
    を獲得している
    https://openai.com/research/clip

    View Slide

  47. © Recruit Co., Ltd. All Rights Reserved
    DALL・E 2など:テキスト入力に従って画像を生成できるモデル
    “An astronaut riding a horse in a
    photorealistic style”
    https://openai.com/product/dall-e-2 https://www.midjourney.com/showcase/recent/
    “A magical and dreamlike fairy tale, a
    budding fairyland, sparkling sunlight, a
    charming Cinderella …”
    DALL・E 2 Midjourney Stable Diffusion
    “Cyberpunk city landscape”
    https://stablediffusionweb.com/

    View Slide

  48. © Recruit Co., Ltd. All Rights Reserved
    Gato:画像・テキストに加えて数値も扱えるモデル
    ロボットハンドの操作
    画像を含む質問応答
    テキスト生成
    ゲームの行動選択
    A Generalist Agent

    View Slide

  49. © Recruit Co., Ltd. All Rights Reserved
    Whisper:多言語音声の書き起こしや英語への翻訳ができるモデル
    訓練データと同じドメインでの性能
    低いほうが良い
















    既存のモデル
    Whisper
    人間
    68万時間の多様な音声データと
    書き起こしを使って学習
    背景の雑音などに頑健になった
    Introducing Whisper

    View Slide

  50. © Recruit Co., Ltd. All Rights Reserved
    ここまでのまとめ:機械学習のトレンドは個別特化型から大規模・汎用型へ
    基盤モデルは、従来の機械学習モデルとは異なり、多様なデータに汎化する
    「タスクごとに特化した小中規模モデル」から「いろいろ使い回せる大規模モデル」へ
    のパラダイムシフト
    タスクごとに
    必要なデータの量
    タスクごとの
    モデリング
    汎用性
    従来の機械
    学習モデル
    多い 個別に実施 低い
    基盤モデル 少ない 適応するだけ
    (比較的容易)
    高い

    View Slide

  51. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルの利用可能性・社会への影響
    基盤モデルの発展で世の中はどう変わる?

    View Slide

  52. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルは社会の様々な場面で活用できる
    視覚障害者や低視覚者を補助する
    「Be My Eyes」: GPT-4
    言語学習の
    「Duolingo」: GPT-4
    画像編集の
    「Adobe」: Firefly(内製)

    View Slide

  53. © Recruit Co., Ltd. All Rights Reserved
    次のフロンティアである汎用ロボットを実現する上でも、重要な役割を果たす
    ● 画像認識
    ○ 周囲を認識するために必要
    ● 自然言語処理
    ○ 人とのインターフェイスとして必要
    ○ タスクを分解して行動計画を立てるのにも使える
    ● 音声認識、音声合成
    ○ 人とのインターフェイスとして必要
    文脈からタスクを理解し、取るべき行動を計画している例

    View Slide

  54. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルは従来のAIと同様に偏見や間違いを犯す。影響範囲の広さから緊急度が高い
    機械学習モデルは訓練データの映し鏡 生成モデルの出力は正確とは限らない
    こういった問題は以前から存在したが、基盤モデルの問題は影響範囲が大きい
    「CEOの写真」というプロンプトで
    DALL・E 2が生成した画像

    View Slide

  55. © Recruit Co., Ltd. All Rights Reserved
    訓練データを汚染することで、基盤モデルに悪意のある挙動を仕込むことも可能
    基盤モデルの元になっているのは「大量のデータ」
    (Webから収集されることが多い )。
    Web上に嘘や学習を阻害するようなデータを置くこ
    とは容易にできる。
    ChatGPTのような世界中で使われているモデルが攻撃された場合のリスクは大きい
    (例:高度に政治的な問題に関する意見を歪ませる)
    [2108.07258] On the Opportunities and Risks of Foundation Models

    View Slide

  56. © Recruit Co., Ltd. All Rights Reserved
    他にもプライバシーやフェイクコンテンツなどに関して悪用リスクがある
    プライバシー:
    アメリカの刑務所で受刑者の電話を盗聴
    こういった問題は以前から存在したが、基盤モデルによって手軽にスケール可能となった
    フェイクコンテンツ/軍事利用:
    Zelenskyy大統領がウクライナ軍
    に投降を呼びかけるフェイク動画
    プライバシー/脆弱性:
    LLMが記憶している訓練データ
    には個人情報が含まれるかもし
    れない

    View Slide

  57. © Recruit Co., Ltd. All Rights Reserved
    社会制度が追いついていない部分も多い
    ● 一部の企業による寡占が進むと、格差が一層拡大する
    ● 労働市場に大きな影響を与える可能性が高い(人間のスキルの補完・置換)
    ○ OpenAIの調査では、大規模言語モデルの普及による影響を次のように予想(COIに注意):
    ■ アメリカの8割の労働者はタスクの1割以上で影響を受ける
    ■ 影響は特に高賃金の職業で顕著
    ● 著作権(他にも広く知的財産権)の問題
    ○ AIの訓練のために他人の著作物(画像や文章など)を勝手に収集して利用することは適法か
    ○ 自動生成された画像に著作権が発生するか
    ○ 学習に用いられた画像と同一の画像が偶然に自動生成された場合、著作権侵害に該当するか

    View Slide

  58. © Recruit Co., Ltd. All Rights Reserved
    閑話休題:画像生成AIの「偏見」
    「CEOの写真」というプロンプトで生成された画像
    DALL·E 2のアップデートで
    「偏見」が軽減されたという
    リリースがあったが…
    「プロンプトに”black” “female”な
    どの単語を付加しているだけなの
    では」とユーザから報告されてい

    View Slide

  59. © Recruit Co., Ltd. All Rights Reserved
    ここまでのまとめ:基盤モデルは大きな可能性を秘めているが、発展途上の技術
    基盤モデルは人間の能力を拡張し、世の中を様々な形で便利にする可能性を秘めて
    いるが、技術としては未成熟
    「何ができて、何ができないのか」を意識しながら社会実装する必要がある
    また、導入に際しては悪用への対策や社会制度のアップデートも不可欠

    View Slide

  60. © Recruit Co., Ltd. All Rights Reserved
    産業界における基盤モデルの活用事例
    基盤モデルが実用化されている事例は?

    View Slide

  61. © Recruit Co., Ltd. All Rights Reserved
    Microsoft: Microsoft 365やGitHubなど各プロダクトでAIを活用
    チャット形式で質問に答えてくれる機能
    GPT-4
    検索エンジン
    オンライン会議・社内チャット
    ソースコード管理など
    会議の文字起こしや要約
    GPT-4、Whisper
    コードの自動補完・生成
    Codex
    ※GPT-3/4を活用したプロダクトは他社でも多数存在するが、ここでは割愛

    View Slide

  62. © Recruit Co., Ltd. All Rights Reserved
    Stability AI: CLIPを利用してStable Diffusionを作成
    画像生成AIのしくみ【後編】 AIの絵筆はどんな形?「画像生成器」について知る
    | gihyo.jp
    入力プロンプトの処理にCLIPのテキストエンコーダを採用

    View Slide

  63. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルを実サービスに組み込む際には様々な留意点がある(ChatGPTの例)
    留意点の例 対策の例 ※業界としてこれから発展させていく必要がある
    嘘・間違い ● 間違いを許容できないサービスには入れない
    ● 前段で検索を行うなどしてデータベースを参照し、結果の要約をプロンプトに含める
    ● 後段に、嘘や間違いを検出するモジュールを入れる
    悪意のある
    プロンプト
    ● 自由入力ではなくアクションボタンなどを用意する
    ● 後段に、出力が想定される利用になっているか判定するモジュールを入れる
    運用コスト ● コストをカバーするだけの売上を出す
    ● プロンプトと出力を短くする
    ● LLMが不要な場合は回避する分岐を作る
    モデル更新時の
    影響
    ● モデル自体の挙動の評価を行う(単体テスト)
    ● サービス全体の評価を行う(結合テスト)
    他のあらゆる技術と同様に、得られる価値とデメリットを
    様々な観点で洗い出した上で、天秤にかける必要がある

    View Slide

  64. © Recruit Co., Ltd. All Rights Reserved
    リクルートにおける基盤モデル
    リクルートは基盤モデルとどう向き合っている?

    View Slide

  65. © Recruit Co., Ltd. All Rights Reserved
    2022年6月、基盤モデルに関する業界動向をまとめたレポートを発表
    Recruit Data Blog | AI開発の新たなパラダイム「基盤モデル」とは

    View Slide

  66. © Recruit Co., Ltd. All Rights Reserved
    日本語CLIPの追加学習と活用(荒居&本田による持ち込みテーマ)
    ● 前述のCLIPは画像処理において強力なモデル
    だが、言語やドメインによっては改善の余地あり
    ○ 「外ハネボブ」などのニッチな概念を正しく捉えられてい
    ない(右図)
    ● rinna社が公開している日本語モデルを社内外
    のデータで追加学習
    ● 6タスク中5タスクで正解率が最大65%上昇
    ● 国内サービスでのユースケースに即した評価用
    データセットの整備やさらなる精度向上に取り
    組んでいる

    View Slide

  67. © Recruit Co., Ltd. All Rights Reserved
    日本語の大規模言語モデルの開発と公開
    ● リクルートグループのAI研究所:Megagon Labs
    ● T5やELECTRAといった大規模言語モデルの日本語版を開発・公開している

    View Slide

  68. © Recruit Co., Ltd. All Rights Reserved
    まとめ

    View Slide

  69. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルの利益を人類全体で享受するために
    基盤モデルとは、大量・多様なデータを学習し、多様な下流タスクに適応できるモデ
    ルのこと
    GPTシリーズを始め幅広いサービスに組み込まれつつあるが、不正確な出力、悪用
    されるリスク、運用コストなど留意すべき点は多い
    差別・偏見や格差を助長しないようにするための配慮も必要
    影響範囲は社会のほぼ全体に及ぶので、利用方法や制度作りに関する議論には技術
    者だけではなく多様な人が参加すべき

    View Slide

  70. © Recruit Co., Ltd. All Rights Reserved
    課題

    View Slide

  71. © Recruit Co., Ltd. All Rights Reserved
    課題:2問のいずれかを選択し、選択した番号とともに解答してください
    1. 任意の基盤モデルを選んでください。そのモデル、あるいはモデルを活用した
    サービスを悪用する例を考えてください。また、そのような悪用を防ぐ仕組みを
    考えてください。
    2. 任意の対話AIサービスまたは言語モデルを選んでください。それを使って、事
    実に反する文章を生成してください。また、生成の難しさと事実の客観性との間
    の関係について調べてください。
    例:「2+2=5」「地球は平面である」

    View Slide

  72. © Recruit Co., Ltd. All Rights Reserved
    Appendix

    View Slide

  73. © Recruit Co., Ltd. All Rights Reserved
    基盤モデルと産業応用についてより詳しく知りたい方への文献・資料案内
    ● On the Opportunities and Risks on Foundation Models
    ○ 基盤モデルの概念を初めて提唱し、可能性とリスクを多面的に論じた原典
    ● Recruit Data Blog | AI開発の新たなパラダイム「基盤モデル」とは
    ○ 上記「基盤モデル論文」をベースに、平易な日本語で技術動向を解説した記事 by 荒居&本田
    ● State of AI Report 2022
    ○ 毎年10月に発表される1年間のAI関連の技術動向をまとめた資料
    ● 2023 AI Index Report
    ○ コンセプトは上記と同様だが、2023年3月公開のより新しい資料
    ○ ChatGPTがカバーされている

    View Slide