2023/04/25に、東京大学本郷キャンパスで発表した、荒居秀尚と本田志温 の資料になります。
© Recruit Co., Ltd. All Rights Reserved2023/04/25東京大学大学院経済学研究科 「ICTと産業」基盤モデルと産業株式会社リクルート データ推進室 機械学習エンジニア 荒居秀尚 機械学習エンジニア 本田志温
View Slide
© Recruit Co., Ltd. All Rights Reserved2022年末頃から、AIの話題が尽きないhttps://news.google.com/home?hl=ja&gl=JP&ceid=JP:jahttps://www.economist.com/leaders/2023/04/20/how-to-worry-wisely-about-artificial-intelligencehttps://futureoflife.org/open-letter/pause-giant-ai-experiments/
© Recruit Co., Ltd. All Rights Reserved最近の”すごいAI”、いわゆる「基盤モデル※」を見ていると湧いてくる疑問の例※正確な定義は後ほど● そもそも、どういう経緯で今のブームが起きたのか?● 本当に生産性を向上させるのか?● 企業が導入する際の障壁は何か?● 制約やリスクは何か?● 賃金を押し上げるのか、労働者を代替するのか?● 人類の幸福につなげるにはどうすればよいか?● 若い世代はこれからどう生きるべきか?こういった問いに答えるための材料を、現場の目線を交えながら提供します
© Recruit Co., Ltd. All Rights Reservedお話しすること1. リクルートの紹介2. 基盤モデルの技術概要3. 基盤モデルの利用可能性・社会への影響4. 産業界における基盤モデルの活用事例5. リクルートにおける基盤モデル6. まとめ4
© Recruit Co., Ltd. All Rights Reservedリクルートの紹介なぜリクルートが基盤モデル?
© Recruit Co., Ltd. All Rights Reserved自己紹介本田 志温2020年 - 現在:リクルート● 基盤モデルに関するR&Dを共同起案● ホットペッパービューティーで画像処理を用いた機能などを提案から開発まで担当● その他、新規事業開発など2018年 - 2020年:東京大学大学院情報理工学系研究科● AI創薬の研究● その他、画像生成など深層学習いろいろ株式会社リクルート機械学習エンジニア詳しくは:hippocampus-garden.com荒居 秀尚株式会社リクルート機械学習エンジニア2021年 - 現在:リクルート● 基盤モデルに関するR&Dを共同起案● 社内の複数領域で機械学習を用いた案件に従事2018年 - 2021年:東京大学大学院工学系研究科● 深層学習を用いた表現学習の研究● 趣味でKaggle (機械学習モデリングの競技)に取り組み、最高位のGrandmasterの称号獲得
© Recruit Co., Ltd. All Rights Reserved株式会社リクルートについて7 マッチング&ソリューションSBU HRテクノロジーSBU 人材派遣SBU販促領域 人材領域 国内派遣 海外派遣etc...選択・意思決定を支援する情報サービスを提供し、「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに」を実現する
© Recruit Co., Ltd. All Rights Reservedリクルートのビジネスモデルについて8● リクルートにはユーザーとクライアントという2つのお客様が存在● 「企業と人(B to C)」 「企業と企業(B to B)」 「人と人(C to C)」のすべての間に立ち、双方にとって最適なマッチングを図る「場」を提供ユーザーとクライアントを新しい接点で結び、「まだ、ここにない、出会い。より速く、シンプルに、もっと近くに」の場を創造するリクルートマッチングプラットフォームクライアントとユーザーを結びつける対価としてクライアントからフィーを受領ユーザー クライアント
© Recruit Co., Ltd. All Rights Reservedデータの観点から見たリクルート9リクルートマッチングプラットフォームユーザー クライアント行動データ(クリック、購入など)テキスト・画像・音声各事業で大量かつ多様なデータが生まれている。これらのデータを活用してマッチングの精度を高めたい
© Recruit Co., Ltd. All Rights Reserved基盤モデルの技術概要基盤モデルとは?これまでのAIとはどう異なる?
© Recruit Co., Ltd. All Rights Reserved機械学習とは?人工知能(AI)と同じと考えていい?機械学習は、過去3度あった人工知能ブームのうち最後のブームの主役https://www.soumu.go.jp/johotsusintokei/whitepaper/ja/h28/html/nc142120.html
© Recruit Co., Ltd. All Rights Reserved機械学習の概要教師あり学習 教師なし学習 強化学習環境エージェント状態+報酬行動教師あり学習、教師なし学習、強化学習の三つに分けられるモデル教師ラベルを用いず、特徴量のみから別の空間への射影規則を学習する教師ラベルを用いて、特徴量と教師ラベルの関係を学習し、未知データに推論する
© Recruit Co., Ltd. All Rights Reserved教師あり学習の概要1.特徴量とラベルのペアを用いて学習 2.学習後、特徴量からラベルを推論X(特徴量) y’(予測値)y(正解ラベル)近づける教師ラベルを用いる「学習」と、学習されたモデルで予測を行う「推論」ステップがあるモデル特徴量と正解ラベルの間の関係をモデルが学習する。モデルとしては様々なアルゴリズムが存在する。モデルX’(特徴量) y”(予測値)学習されたモデルは今までにみたことがない新しいデータに対して、ラベルを予測することができる。
© Recruit Co., Ltd. All Rights Reserved教師あり学習の具体例スパムメール分類正解ラベル 特徴量モデルは、特徴量と正解ラベルの間の関係を学習し、未知のデータに対してラベルを予測できるようになる特徴量抽出モデル
© Recruit Co., Ltd. All Rights Reserved教師なし学習の概要教師ラベルを用いず、特徴量のみからそこに内在する構造を抽出するモデルモデルは、データを他の空間に射影する変換規則を学習する・・・・・・・・・・・・・・・元の特徴量空間は解釈性や取り扱いやすさの観点で望ましくない解釈しやすい、取り扱いやすいなど望ましい性質がある空間に射影する
© Recruit Co., Ltd. All Rights Reserved教師なし学習の具体例①株価データの次元削減と相関ネットワークのクラスタリングhttps://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html#sphx-glr-auto-examples-applications-plot-stock-market-py株価データ共分散行列を計算クラスタリング2次元に埋め込みクラスタ番号ごとに色分け
© Recruit Co., Ltd. All Rights Reserved教師なし学習の具体例②言語モデルの事前学習吾輩 はモデル吾輩 は 猫次の単語は?猫:80%、人:6%、犬:3%…次の単語の予測を繰り返すことで、ChatGPTのような「対話」やテキストの「特徴抽出」が可能に
© Recruit Co., Ltd. All Rights Reserved強化学習の概要「エージェント」が「環境」からより多く「報酬」を受け取るような「行動」を学習する環境状態例) エージェントの座標、直前の株の取引価格時刻t環境行動例) 1マス横に移動する、指値〇〇で買い注文環境状態+報酬t+1報酬の例)時間経過のマイナス報酬、約定時の利益将来含めた報酬和を 最大化する行動を選択
© Recruit Co., Ltd. All Rights Reserved強化学習の具体例ゲームAIhttps://www.tensorflow.org/agents/tutorials/0_intro_rl?hl=ja
© Recruit Co., Ltd. All Rights Reserved強化学習の具体例ロボットアームの動作(Google)https://ai.googleblog.com/2021/04/multi-task-robotic-reinforcement.htmlより高速で小さな回路の設計(NVIDIA)Designing Arithmetic Circuits with Deep Reinforcement Learning | NVIDIATechnical Blog
© Recruit Co., Ltd. All Rights Reserved深層学習の概要「ニューラルネットワーク」というモデルを大規模に学習させたもの・・・・・・・・・0.324-0.2230.962-0.1380.2210.1210.5370.981数値を入力すると数値が出力される
© Recruit Co., Ltd. All Rights Reserved深層学習の概要「ニューラルネットワーク」というモデルを大規模に学習させたもの・・・・・・・・・多数のユニットからなる 層を多重に重ねた構造0.324-0.2230.962-0.1380.2210.1210.5370.981数値が入力すると数値が出力される
© Recruit Co., Ltd. All Rights Reserved深層学習の概要「ニューラルネットワーク」というモデルを大規模に学習させたもの・・・・・・・・・多数のユニットからなる 層を多重に重ねた構造前のユニットから渡された値に 重みを掛けては足し合わせ非線形変換をする、という操作を繰り返す0.324-0.2230.962-0.1380.2210.1210.5370.981数値が入力すると数値が出力される
© Recruit Co., Ltd. All Rights Reserved深層学習の概要「ニューラルネットワーク」というモデルを大規模に学習させたもの・・・・・・・・・多数のユニットからなる層を多重に重ねた構造前のユニットから渡された値に 重みを掛けては足し合わせ非線形変換をする、という操作を繰り返す0.324-0.2230.962-0.1380.2210.1210.5370.981数値が入力すると数値が出力される重みを適切に調節していくことで入力と出力の間の関係を学習することができる
© Recruit Co., Ltd. All Rights Reserved深層学習の特徴①画像・音声・自然言語等の「非構造化データ」に対して有効性が高い画像処理 自然言語処理 音声信号処理物体検出領域分割画像キャプション生成翻訳対話テキスト画像生成音声認識こんにちはテキスト音声合成
© Recruit Co., Ltd. All Rights Reserved深層学習の特徴②モデル0.301, -0.257, 0.912, … , 0.481, -0.337モデル“バターチキンカレーは、マイルドなカレーソースで鶏肉を和えたインド料理である。インドの首都デリーで食べられる。”-0.148, 0.873, 0.157, … , -0.386, 0.292モデル0.589, 0.128, -0.365, …, 0.487, 0.651さまざまなデータを低次元のベクトル(Embedding)として表現できる
© Recruit Co., Ltd. All Rights Reserved深層学習の特徴②:続き美味しいカレーうまく学習すれば、意味的に近いもの同士がEmbeddingの空間上でも近くなる画像処理モデル言語処理モデルEmbeddingの空間
© Recruit Co., Ltd. All Rights Reserved深層学習の特徴③学習には大量のデータを必要とし、計算が非常に重い・・・・・・・・・数万 〜 数兆個の重みを使って計算するので、計算の並列化にむいたGPUの利用がほぼ必須この線一本一本に調整可能な重みがついているデータを用いて重みを少しずつ調整することで、入力と出力の関係を学習するため、大量のデータが必要 & 計算量が多い
© Recruit Co., Ltd. All Rights Reserved閑話休題:深層学習とGPU元々コンピュータゲーム用のアクセラレータだったが深層学習での利用が増加NVIDIAのシェアが高い行列演算性能はGPU >> CPUChatGPT公開(11/30)上) (OpenAIと提携する)Microsoftの株価下) NVIDIAの株価ChatGPT公開後、Microsoftの株価は12%、NVIDIAの株価は60%近く上昇している
© Recruit Co., Ltd. All Rights Reserved深層学習の応用例(画像)外観検査・自動運転・医用画像解析など、産業の幅広い領域で活用事例がある画像からの異常検知製造業をはじめとした幅広い領域で活用例がある。・ 物体検出・ 領域分割・ 画像のEmbeddingなどで深層学習を利用しているhttps://www.mvtec.com/company/research/datasets/mvtec-ad自動運転物体検出、物体追跡、領域分割など、要素技術の各所に深層学習を用いた処理が存在する医用画像解析X線写真や眼底画像などからの画像診断で多くの活用事例がある。https://www.kaggle.com/competitions/ranzcr-clip-catheter-line-classification
© Recruit Co., Ltd. All Rights Reserved深層学習の応用例(自然言語)翻訳今では日常生活から産業界まで幅広く用いられている。2016年に翻訳APIのバックエンドが深層学習を用いたものに切り替えられると、性能向上が話題になったhttps://translate.google.co.jp対話ChatGPT以前から一部のChat Botでは深層学習が使われてきたhttps://qiita.com/Hironsan/items/6425787ccbee75dfae36テキスト分類企業内のドキュメントの分類から、口コミの感情分析など産業界では様々な用途で用いられているhttps://github.com/chakki-works/chABSA-datasethttps://www.kaggle.com/code/riow1983/chabsa-for-sentiment-analysis-bert-japanese
© Recruit Co., Ltd. All Rights Reserved深層学習の応用例(音声)音声合成自動電話システムなどで利用されているほか、最近はVTuberブームにより身近にhttps://voicevox.hiroshiba.jp/音声認識スマートスピーカーやスマホの中でも用いられるなど日常生活に浸透している。https://www.apple.com/jp/siri/https://www.amazon.co.jp/-/en/Amazon-Echo-Alexa-Devices/b?ie=UTF8&node=5364343051
© Recruit Co., Ltd. All Rights Reserved従来の機械学習の課題従来はタスクごとに大量のデータを用意してモデルを作る必要があったモデル“猫” “犬”モデル“犬”動物を分類するように学習されたモデル関係ない画像を入れても動物分類しかできない学習後別のタスクに転用
© Recruit Co., Ltd. All Rights Reserved転移学習の話あるタスクについて学習したモデルの一部を別のタスクに使うことができる“猫”“犬”・・・・・・・・・1. あるタスクで学習2. 別のタスクに転用・・・・・・モデルの一部は汎用的な知識※を持っているので転用する※輪郭や色Embeddingを取り出す,後段に別の分類器をつけるetc.
© Recruit Co., Ltd. All Rights Reserved様々なタスクに汎用的なモデルがあると学習ステップが軽くなる(日英翻訳を例に)基盤となるモデルの汎用性大学習ステップ大量の対訳データで学習基盤となるモデルの汎用性小少量の対訳データで追加学習なしなし推論ステップ和文をそのまま入れる和文をそのまま入れるタスク指示と具体例とともに和文を入れるタスク指示とともに和文を入れるZero-shot predictionデータが不要で嬉しい!例:次の文を英訳してください。私は人間です。 =>In-context learning例:次の文を英訳してください。私は猫が好きです。 => I like cats.私は人間です。 =>翻訳に限らず様々なタスクに使い回せる汎用性を持った「基盤となるモデル」があると便利基盤となるモデルなし
© Recruit Co., Ltd. All Rights Reserved基盤モデルとは大量・多様なデータを学習し、多様な下流タスクに適応できるモデルのこと基盤モデル(foundation model)はスタンフォード大学のワーキンググループによって 2021年に命名された[2108.07258] On the Opportunities and Risks of Foundation Models
© Recruit Co., Ltd. All Rights Reserved大量・多様なデータの例MNIST: 手書き数字とラベルからなる6万サンプル従来のタスク特化のデータセットLAION-5B:Webから収集した50億の画像・キャプションペアIMDB Moview Reviews:映画のレビュー文と極性ラベルからなる5万サンプルThe Pile:Webから収集した825GBのテキストWhy is the Pile a good training set? Recent work has shown that especially forlarge models, diversity in data sources improves general cross-domainknowledge of the model, as well as downstream generalization capability. In ourevaluations, not only do models trained on the Pile show moderateimprovements in traditional language modeling benchmarks, they also showsignificant improvements on Pile BPB. Why is the Pile a good benchmark?To score well on Pile BPB (bits per byte), a model must be able to understandmany disparate domains including books, github repositories, webpages, chatlogs, and medical, physics, math, computer science, and philosophy papers.Pile BPB is a measure of world knowledge and reasoning ability in thesedomains, making it a robust benchmark of general, cross-domain text …大量かつ多様なデータセット
© Recruit Co., Ltd. All Rights Reserved多様な下流タスクに適応できる例タスク指示を与えることで、一つのモデルを様々な下流タスクに用いることが可能翻訳タスク分類タスク
© Recruit Co., Ltd. All Rights Reserved基盤モデルはモデル、データセット、計算量を大きくするほど性能が良くなる* 他の要素がボトルネックにならない範囲において成立スケーリング則:モデルの性能は以下3変数のべき乗則に従う● パラメータ数(モデルの大きさ)● データセットのサイズ● 計算量(ステップ数)
© Recruit Co., Ltd. All Rights Reservedここ数年はスケーリング則に従ってモデルを大きくする試みが成功を収めてきたパラメータ数は指数関数的に拡大してきたが、このトレンドはどこまで続くか …?困難と思われたタスクも、モデルを大きくすることで解決される例がある
© Recruit Co., Ltd. All Rights Reserved代表的な基盤モデルの紹介名前 対応しているタスク モダリティ 公開年GPT-3 自然言語で表現される任意のタスク テキスト 2020CLIP 任意のカテゴリの画像分類など 画像、テキスト 2021DALL・E 2 任意のテキストからの画像の生成 画像、テキスト 2022Gato 画像・テキスト・数値を入出力とするタスク 画像、テキスト、数値 2022Whisper 多言語音声の書き起こし、英語への翻訳など 音声、テキスト 2022GPT-3が登場した2020年頃から開発が活発化。個別のモデルについて以降で見ていく
© Recruit Co., Ltd. All Rights ReservedGPT-3:テキストで表現可能な多様なタスクを、追加の学習なしで解けるモデルhttps://twitter.com/sharifshameem/status/1282676454690451457https://twitter.com/AndrewMayne/status/1275701138533335040GPT-3のAPI利用が開始された2020年6月頃のツイート(今の状況とよく似ている)
© Recruit Co., Ltd. All Rights ReservedGPTシリーズは2018年の発表から継続的に改善され、2022年にキャズム超えGPT GPT-2 GPT-3 GPT-4公開年 2018 2019 2020 2023パラメータ数(モデルの大きさ)1.2億 15億 1800億 非公開訓練トークン数(データの量)800万 4500万 450億 非公開コンテキスト長(一度に扱える長さ)512 1024 2048 8192主な差分 転移学習によるタスクへの適応未知タスクへの適応(教師なし)具体例を与えることで解けるタスクが劇的に増加画像入力に対応2022年に追加で強化学習を施したChatGPTが登場
© Recruit Co., Ltd. All Rights ReservedChatGPTは、GPT-3/4を人間の指示に従うように”align”したものGPT-3は、大量のテキストで学習された言語モデルです。GPT-3は、大量のテキストで学習された言語モデルです。GPT-3は、…GPT-3は、2020年にNVIDIAが開発したGPUです。 🤖GPT-3って何ですか?繰り返し嘘・デタラメGPT-3は、大量のテキストコーパスで学習された大規模言語モデルです。OpenAIが開発した素晴らしい技術です。価値判断(偏見などを含む)alignそれは食べられますか?美味しいですか?文の続きを生成するだけLLMの目的関数は「次の単語を予測する」こと→人間にとって望ましい振る舞いを知っているわけではない人間の価値観に照らして望ましい回答をすれば報酬を与えるという強化学習の枠組みで追加訓練人間ChatGPT報酬回答
© Recruit Co., Ltd. All Rights Reserved閑話休題:大規模”言語”モデルはタンパク質設計にも使えるProtGPT2 is a deep unsupervised language model for protein design | Nature Communications深層学習で文字列を処理するというアプローチは言語以外のドメインにも通用するアミノ酸の配列であるタンパク質を生成するProtGPT2
© Recruit Co., Ltd. All Rights ReservedCLIP:画像と言語を共通のベクトル空間に埋め込むことができるモデル● Webから収集した4億件の画像とキャプションの組で対照学習させたモデル● 任意の画像分類を解くことができる1. クラス名を説明文に変換してからベクトルに変換2. 画像をベクトルに変換3. 内積が最大のクラスを選ぶ● 動詞や形容詞を含むキャプションで学習してあるため、画像に対する「深い理解」を獲得しているhttps://openai.com/research/clip
© Recruit Co., Ltd. All Rights ReservedDALL・E 2など:テキスト入力に従って画像を生成できるモデル“An astronaut riding a horse in aphotorealistic style”https://openai.com/product/dall-e-2 https://www.midjourney.com/showcase/recent/“A magical and dreamlike fairy tale, abudding fairyland, sparkling sunlight, acharming Cinderella …”DALL・E 2 Midjourney Stable Diffusion“Cyberpunk city landscape”https://stablediffusionweb.com/
© Recruit Co., Ltd. All Rights ReservedGato:画像・テキストに加えて数値も扱えるモデルロボットハンドの操作画像を含む質問応答テキスト生成ゲームの行動選択A Generalist Agent
© Recruit Co., Ltd. All Rights ReservedWhisper:多言語音声の書き起こしや英語への翻訳ができるモデル訓練データと同じドメインでの性能低いほうが良い別ドメインでの性能低いほうが良い既存のモデルWhisper人間68万時間の多様な音声データと書き起こしを使って学習背景の雑音などに頑健になったIntroducing Whisper
© Recruit Co., Ltd. All Rights Reservedここまでのまとめ:機械学習のトレンドは個別特化型から大規模・汎用型へ基盤モデルは、従来の機械学習モデルとは異なり、多様なデータに汎化する「タスクごとに特化した小中規模モデル」から「いろいろ使い回せる大規模モデル」へのパラダイムシフトタスクごとに必要なデータの量タスクごとのモデリング汎用性従来の機械学習モデル多い 個別に実施 低い基盤モデル 少ない 適応するだけ(比較的容易)高い
© Recruit Co., Ltd. All Rights Reserved基盤モデルの利用可能性・社会への影響基盤モデルの発展で世の中はどう変わる?
© Recruit Co., Ltd. All Rights Reserved基盤モデルは社会の様々な場面で活用できる視覚障害者や低視覚者を補助する「Be My Eyes」: GPT-4言語学習の「Duolingo」: GPT-4画像編集の「Adobe」: Firefly(内製)
© Recruit Co., Ltd. All Rights Reserved次のフロンティアである汎用ロボットを実現する上でも、重要な役割を果たす● 画像認識○ 周囲を認識するために必要● 自然言語処理○ 人とのインターフェイスとして必要○ タスクを分解して行動計画を立てるのにも使える● 音声認識、音声合成○ 人とのインターフェイスとして必要文脈からタスクを理解し、取るべき行動を計画している例
© Recruit Co., Ltd. All Rights Reserved基盤モデルは従来のAIと同様に偏見や間違いを犯す。影響範囲の広さから緊急度が高い機械学習モデルは訓練データの映し鏡 生成モデルの出力は正確とは限らないこういった問題は以前から存在したが、基盤モデルの問題は影響範囲が大きい「CEOの写真」というプロンプトでDALL・E 2が生成した画像
© Recruit Co., Ltd. All Rights Reserved訓練データを汚染することで、基盤モデルに悪意のある挙動を仕込むことも可能基盤モデルの元になっているのは「大量のデータ」(Webから収集されることが多い )。Web上に嘘や学習を阻害するようなデータを置くことは容易にできる。ChatGPTのような世界中で使われているモデルが攻撃された場合のリスクは大きい(例:高度に政治的な問題に関する意見を歪ませる)[2108.07258] On the Opportunities and Risks of Foundation Models
© Recruit Co., Ltd. All Rights Reserved他にもプライバシーやフェイクコンテンツなどに関して悪用リスクがあるプライバシー:アメリカの刑務所で受刑者の電話を盗聴こういった問題は以前から存在したが、基盤モデルによって手軽にスケール可能となったフェイクコンテンツ/軍事利用:Zelenskyy大統領がウクライナ軍に投降を呼びかけるフェイク動画プライバシー/脆弱性:LLMが記憶している訓練データには個人情報が含まれるかもしれない
© Recruit Co., Ltd. All Rights Reserved社会制度が追いついていない部分も多い● 一部の企業による寡占が進むと、格差が一層拡大する● 労働市場に大きな影響を与える可能性が高い(人間のスキルの補完・置換)○ OpenAIの調査では、大規模言語モデルの普及による影響を次のように予想(COIに注意):■ アメリカの8割の労働者はタスクの1割以上で影響を受ける■ 影響は特に高賃金の職業で顕著● 著作権(他にも広く知的財産権)の問題○ AIの訓練のために他人の著作物(画像や文章など)を勝手に収集して利用することは適法か○ 自動生成された画像に著作権が発生するか○ 学習に用いられた画像と同一の画像が偶然に自動生成された場合、著作権侵害に該当するか
© Recruit Co., Ltd. All Rights Reserved閑話休題:画像生成AIの「偏見」「CEOの写真」というプロンプトで生成された画像DALL·E 2のアップデートで「偏見」が軽減されたというリリースがあったが…「プロンプトに”black” “female”などの単語を付加しているだけなのでは」とユーザから報告されている
© Recruit Co., Ltd. All Rights Reservedここまでのまとめ:基盤モデルは大きな可能性を秘めているが、発展途上の技術基盤モデルは人間の能力を拡張し、世の中を様々な形で便利にする可能性を秘めているが、技術としては未成熟「何ができて、何ができないのか」を意識しながら社会実装する必要があるまた、導入に際しては悪用への対策や社会制度のアップデートも不可欠
© Recruit Co., Ltd. All Rights Reserved産業界における基盤モデルの活用事例基盤モデルが実用化されている事例は?
© Recruit Co., Ltd. All Rights ReservedMicrosoft: Microsoft 365やGitHubなど各プロダクトでAIを活用チャット形式で質問に答えてくれる機能GPT-4検索エンジンオンライン会議・社内チャットソースコード管理など会議の文字起こしや要約GPT-4、Whisperコードの自動補完・生成Codex※GPT-3/4を活用したプロダクトは他社でも多数存在するが、ここでは割愛
© Recruit Co., Ltd. All Rights ReservedStability AI: CLIPを利用してStable Diffusionを作成画像生成AIのしくみ【後編】 AIの絵筆はどんな形?「画像生成器」について知る| gihyo.jp入力プロンプトの処理にCLIPのテキストエンコーダを採用
© Recruit Co., Ltd. All Rights Reserved基盤モデルを実サービスに組み込む際には様々な留意点がある(ChatGPTの例)留意点の例 対策の例 ※業界としてこれから発展させていく必要がある嘘・間違い ● 間違いを許容できないサービスには入れない● 前段で検索を行うなどしてデータベースを参照し、結果の要約をプロンプトに含める● 後段に、嘘や間違いを検出するモジュールを入れる悪意のあるプロンプト● 自由入力ではなくアクションボタンなどを用意する● 後段に、出力が想定される利用になっているか判定するモジュールを入れる運用コスト ● コストをカバーするだけの売上を出す● プロンプトと出力を短くする● LLMが不要な場合は回避する分岐を作るモデル更新時の影響● モデル自体の挙動の評価を行う(単体テスト)● サービス全体の評価を行う(結合テスト)他のあらゆる技術と同様に、得られる価値とデメリットを様々な観点で洗い出した上で、天秤にかける必要がある
© Recruit Co., Ltd. All Rights Reservedリクルートにおける基盤モデルリクルートは基盤モデルとどう向き合っている?
© Recruit Co., Ltd. All Rights Reserved2022年6月、基盤モデルに関する業界動向をまとめたレポートを発表Recruit Data Blog | AI開発の新たなパラダイム「基盤モデル」とは
© Recruit Co., Ltd. All Rights Reserved日本語CLIPの追加学習と活用(荒居&本田による持ち込みテーマ)● 前述のCLIPは画像処理において強力なモデルだが、言語やドメインによっては改善の余地あり○ 「外ハネボブ」などのニッチな概念を正しく捉えられていない(右図)● rinna社が公開している日本語モデルを社内外のデータで追加学習● 6タスク中5タスクで正解率が最大65%上昇● 国内サービスでのユースケースに即した評価用データセットの整備やさらなる精度向上に取り組んでいる
© Recruit Co., Ltd. All Rights Reserved日本語の大規模言語モデルの開発と公開● リクルートグループのAI研究所:Megagon Labs● T5やELECTRAといった大規模言語モデルの日本語版を開発・公開している
© Recruit Co., Ltd. All Rights Reservedまとめ
© Recruit Co., Ltd. All Rights Reserved基盤モデルの利益を人類全体で享受するために基盤モデルとは、大量・多様なデータを学習し、多様な下流タスクに適応できるモデルのことGPTシリーズを始め幅広いサービスに組み込まれつつあるが、不正確な出力、悪用されるリスク、運用コストなど留意すべき点は多い差別・偏見や格差を助長しないようにするための配慮も必要影響範囲は社会のほぼ全体に及ぶので、利用方法や制度作りに関する議論には技術者だけではなく多様な人が参加すべき
© Recruit Co., Ltd. All Rights Reserved課題
© Recruit Co., Ltd. All Rights Reserved課題:2問のいずれかを選択し、選択した番号とともに解答してください1. 任意の基盤モデルを選んでください。そのモデル、あるいはモデルを活用したサービスを悪用する例を考えてください。また、そのような悪用を防ぐ仕組みを考えてください。2. 任意の対話AIサービスまたは言語モデルを選んでください。それを使って、事実に反する文章を生成してください。また、生成の難しさと事実の客観性との間の関係について調べてください。例:「2+2=5」「地球は平面である」
© Recruit Co., Ltd. All Rights ReservedAppendix
© Recruit Co., Ltd. All Rights Reserved基盤モデルと産業応用についてより詳しく知りたい方への文献・資料案内● On the Opportunities and Risks on Foundation Models○ 基盤モデルの概念を初めて提唱し、可能性とリスクを多面的に論じた原典● Recruit Data Blog | AI開発の新たなパラダイム「基盤モデル」とは○ 上記「基盤モデル論文」をベースに、平易な日本語で技術動向を解説した記事 by 荒居&本田● State of AI Report 2022○ 毎年10月に発表される1年間のAI関連の技術動向をまとめた資料● 2023 AI Index Report○ コンセプトは上記と同様だが、2023年3月公開のより新しい資料○ ChatGPTがカバーされている