Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
検索エンジニアが考える、 生成AI時代の人間の付加価値とは
Search
Recruit
PRO
March 07, 2024
Technology
3
270
検索エンジニアが考える、 生成AI時代の人間の付加価値とは
2024/02/21に、RECRUIT TECH CONFERENCE 2024で発表した、大杉の資料です。
Recruit
PRO
March 07, 2024
Tweet
Share
More Decks by Recruit
See All by Recruit
組合せ最適化による問題解決の実践的アプローチ
recruitengineers
PRO
8
1k
社内のAI活用事例と活用促進のための取り組みを大公開!
recruitengineers
PRO
4
480
『ゼクシィNet』大規模エンハンス体制における 開発生産性改善アプローチ
recruitengineers
PRO
3
420
AOAI をきっかけに 社内の Azure 管理を見直した話
recruitengineers
PRO
2
580
プロデザ! BY リクルート vol.18_リクルートのリサーチ実践組織「リサーチブーストコミュニティ」
recruitengineers
PRO
4
390
スマートフォン版サロンボードの 機能改善の土台づくり
recruitengineers
PRO
2
140
事業状況の大きな変化を乗り越えるためのAirレジ オーダーのアジャイル開発
recruitengineers
PRO
1
140
横断組織から見たリクルートのインフラの歴史と目指すべきクラウド活用像
recruitengineers
PRO
1
89
Datadog による 自己完結的アプリケーションモニタリング
recruitengineers
PRO
4
340
Other Decks in Technology
See All in Technology
生成AIの活用方法 - 2024年現在、 結局どのように使えばいいのだろうか? / How to use Generative AI in 2024
nttcom
0
160
入門 電気通信事業者
kurochan
9
4.4k
SSM Inventory を使って便利に EC2 棚卸し(ハマりどころを添えて)
masahirokawahara
0
270
MySQL 8.4 LTS が あらわれた
yoku0825
PRO
1
220
Practices_for_improving_freee_development_productivity
hikarumiyazawa
0
360
密ベクトル検索だけじゃない! RAG にグラフ DB を使うと何ができるか考えたい
shimizuxa
1
260
Kubernetesで作るIaaS基盤/KubeVirt Deep Dive
oracle4engineer
PRO
11
2.1k
自分の学習データで画像生成AIを使ってみる話
moyashi
2
150
タイパ重視×アウトプット駆動ではじめるAWS 〜認定資格とコミュニティの先で考えるAWSの学び方〜
maimyyym
2
140
A perfect combo: content that sells from engineers who write
holymay
0
100
情報の世界 2024年度 第10回「データとセンシングの概要」 #情報の世界 / Data and Sensing 2024
yumulab
0
150
Goでテストをしやすくするためにやったこと
kazukihayase
1
510
Featured
See All Featured
Making the Leap to Tech Lead
cromwellryan
126
8.6k
Adopting Sorbet at Scale
ufuk
69
8.7k
Building Applications with DynamoDB
mza
88
5.7k
In The Pink: A Labor of Love
frogandcode
138
21k
[RailsConf 2023 Opening Keynote] The Magic of Rails
eileencodes
15
8.5k
What's in a price? How to price your products and services
michaelherold
238
11k
KATA
mclloyd
18
12k
Bootstrapping a Software Product
garrettdimon
PRO
302
110k
Testing 201, or: Great Expectations
jmmastey
32
6.8k
No one is an island. Learnings from fostering a developers community.
thoeni
16
2.2k
For a Future-Friendly Web
brad_frost
172
9.1k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
87
45k
Transcript
検索エンジニアが考える、 生成AI時代の人間の付加価値とは 株式会社リクルート データ推進室 大杉 直也
大杉 直也 ボードゲーム 経歴 / Career 2014年にリクルート新卒入社。 2017年、N高等学校に3年次編入(社会人高校生)。 2020年、同高校卒業。 現在は、シニアサーチエンジニアとして働く傍ら、プロ
ンプトエンジニアリングの社内研修や事業現場へのヒア リングを踏まえた大規模言語モデルの利活用推進を実施 している。 現在、デジタル庁でもAI部門 担当者として兼業中。 趣味 / Hobbies データ推進室 データテクノロジーユニット アジリティテクノロジー部 A/Bテスト実践ガイド(翻訳) Apache Solr 入門(第3版) 出版物 / Publications
2023/02/10 2023/10/18 2023/03/03
2023/03/04 このあと、世の中的にはChatGPTプラグインが出たり、RAGという言葉が流行ったり、生 成AIと組み合わせる汎用ベクターサーチが各クラウドサービスで発表されたり、ChatGPT にWeb browsingの機能がついたりと色々おきました 大規模言語モデルは万能ではない。それを活用(既存手法を強化)&補助(既存手法で強 化)はまだまだやることが大量にある→おかげで仕事が増えた 今日はその辺の話をします
今日の話の流れ ◼ 大規模言語モデルで既存手法を強化する話(活用) • 検索エンジンを強化する • ヒトを強化する ◼ 大規模言語モデルを既存手法で強化する話(補助) •
検索エンジンで強化する • ヒトで強化する ◼ 情報サービスx生成AIで作られる世界の方向性(予想)
大規模言語モデルで 既存手法を強化する話(活用) 検索編 検索エンジニアが考える、生成AI時代の人間の付加価値とは
検索エンジンを大規模言語モデルで強化する 検索エンジン データ 分析レポート フォーマット変換 ラベリング データクレンジング 文章生成・要約 など 集計結果の解釈
インサイトの提案 など 更新処理・データ分析 検索エンジン 検索 クエリ 検索結果 固有表現抽出 クエリ意図推定 など 再フィルタリング 検索結果の解釈 など オレンジ色が大規模言語モデル で実現可能な処理
前述の処理のほとんどは大規模言語モデル以前の自然言語処理の手法 でも実現可能 大規模言語モデル以降では何が変わったか? →汎用的なモデルに対してのプロンプトの工夫だけで多種多様な処理が実装可能 →→テストケース作成や開発リードタイムの大幅な削減 さらに →該当処理の開発に必要なスキルが大きく変わった →→いわゆるプロンプトデザイン →→従来のデータサイエンス能力は品質評価の観点で依然重要 このことから「より多くの人」で「多種多様な試行錯誤」を「迅速」
に行えるようになった 理想は要件定義時点で企画者が「このプロンプトでいける!」と正し く言える状態 そのための環境整備と教育をどうすべきかを社内で検証中
b 大規模言語モデルを 既存手法で強化する話(補助) 検索編 検索エンジニアが考える、生成AI時代の人間の付加価値とは
検索エンジンで大規模言語モデルを強化する 大規模言語モデルの弱点である 1. 知識のアップデートを大量・高速に実施 a. プロンプトに知識埋め込みはtoken数制約にひっかかる b. 追加学習は計算時間がかかる 2. 大量のデータを解釈性高く制御
a. 中身の処理がブラックボックス は検索エンジンが得意とするところなので、検索エンジンと組み合わ せることが有効 リクルートではこの検索エンジンを高品質にするための条件が揃って いる
検索エンジンで大規模言語モデルを強化するために重要なもの 検索対象のアイテム ・ リクルートでは全国の営業網からファクトチェックされた信頼のおけるアイテムが登録される 検索のアルゴリズム ・ 流行りの汎用型の埋め込み表現はドメイン特化の検索では品質いまいち。教師付き学習によるファイン チューニングが必要 ・ リクルートでは複数のドメインでシェア率業界トップクラスのWebサービスがあり、そこの検索関連ロ
グが優良なシグナルになる 検索のシステム基盤 ・ リクルートでは検索システムを、(1)汎用的なもの(2)特化型のものをそれぞれ提供する専門のエンジニ ア組織が存在(いわばスタートアップからエンタープライズまで) 検索の評価 ・ データ基盤が整備されており、社内にA/Bテストの専門家もいる
b 大規模言語モデルで 既存手法を強化する話(活用) ヒト編 検索エンジニアが考える、生成AI時代の人間の付加価値とは
ヒトを大規模言語モデルで強化する いわゆる生成AIによるDX案件 リクルートだと「記事作成」「校閲」などが比重高そう 記事作成 取材した内容メモから記事タイトル案の提案 →きちんとファクトチェックしている 校閲 広告表示のガイドラインなどに抵触していないかの確認 →法律で明確に定められたルールを遵守する リクルートのメディアとして「品質」を担保する活動を強化できる
ヒトを大規模言語モデルで強化する 記事テーマ キーワード 取材メモ など 記事作成補助 校閲補助 記事原稿 入稿情報 など
この記事原案を元に記事を作れる 必要なら大規模言語モデルとチャットしな がら整えていく 作家性が重要でない箇所(例:アクセス情 報)の文章作成を省エネ化し、「どんなテ ーマ」で「どんな見出し」で「どんな構成 にするか」といった拘りポイントにヒトは 注力できるようになる 過去の良い記事例 記事作成のコツ など 法令ガイドライン 社内表記ルール など + + オレンジ色が大規模言語モデル で実現可能な処理 固有のルール 記事原案 社内限定の知識 修正案 リクルートでは実際に記事がリリースされ る前の品質担保を重要視している この品質担保に必要な知識はかなり多く、 レビューできる人材が希少リソースになり がち 固有のルールによる判定を大規模言語モデ ルで行うことで (1)希少リソース人材の作 文工数の削減 (2)希少リソース人材に頼ら ない初心者育成ができる
b 大規模言語モデルを 既存手法で強化する話(補助) ヒト編 検索エンジニアが考える、生成AI時代の人間の付加価値とは
ヒトで大規模言語モデルを強化する 供給側の情報 宿や飲食店や物件 など ヒトが介在しない場合 ヒトが介在する場合 生成AIだけでも、消費者像に合わせた加工 は十分可能 しかし、 (1)
そもそも供給側の情報は本当か (2) 文言が法律要件などに合うか (3) 本当に消費者に好ましいものか などに不安が残る オレンジ色が大規模言語モデル で実現可能な処理 ヒトが介在することで、上述の不安は解消 され、以下のように付加価値をつけられる • 特に重要なのは、供給側(クライアント) と直接接点を持っていることで、消費者 からのフィードバックを伝えることがで きる点 • これにより、需要と供給のバランスがよ り取りやすくなり、ムダの少ない効率的 な市場経済が実現されやすくなる • また消費者の潜在的なニーズを顕在化す るドライバーを作ることで (例:見出し 文言)供給側(クライアントの種類)もより 多様になっていく 供給側の情報 宿や飲食店や物件 など 消費者 原案 加工後 情報 消費者 加工後 情報 校正 ファクトチェック 編集 フィードバック
ヒトで大規模言語モデルを強化する 現状の大規模言語モデルは以下の2つができない (1)現実世界のファクトチェック (2)何が良いものかの価値の最終判断 価値向上には編集組織と営業組織との協業が不可欠 • 企画立案だけでなく、綿密な取材や実際にお客さんのところまで足を 運び、意思決定できる人材がいる • クローリングなどによる「質より量の世界観」ではこれらは高コスト
体質と見なされがちだったが、生成AI時代では「量」は誰でもできる ようになり、「質」が重要になるはず • そしてこの「質」を組織的に得られるようになるには一朝一夕ではな かなか難しいのではないか?
サービス ヒト 検索エンジン 生成AI 不足を補う 不足を補う 機能強化 生産性向上 機能提供 利便性向上
価値向上 生成AI時代はこの世界観でより良いものが作られていく(はず)