Upgrade to Pro — share decks privately, control downloads, hide ads and more …

食べログChatGPTプラグイン導入で見えてきた未来:データサイエンティストの向き合い方

 食べログChatGPTプラグイン導入で見えてきた未来:データサイエンティストの向き合い方

moritama

May 30, 2023
Tweet

Other Decks in Technology

Transcript

  1. © Kakaku.com Inc. All Rights Reserved. 1
    ৯΂ϩάChatGPTϓϥάΠϯ
    ಋೖͰݟ͖͑ͯͨະདྷɿ
    σʔλαΠΤϯςΟετͷ޲͖߹͍ํ
    גࣜձࣾΧΧΫίϜ ৿ ࡊ౎ະ

    View Slide

  2. © Kakaku.com Inc. All Rights Reserved. 2
    ⾃⼰紹介
    森 菜都未
    もり なつみ
    株式会社カカクコム
    ⾷べログシステム本部 技術部 データサイエンスチーム
    1994年⽣まれ。富⼭⾼等専⾨学校を卒業後、筑波⼤学の情報学群に3
    年次編⼊学。機械学習研究室にて、楽しませる囲碁AIの研究を⾏う。
    同⼤学⼤学院 システム情報⼯学研究科に進み、⾃然⾔語処理研究室に
    移籍。画像キャプション⽣成分野で、囲碁の局⾯に対して解説を付与
    する研究に従事。国際会議 IFIP ICEC2017にて同研究の論⽂が採択。
    The Best Paper Honorable Mention Award受賞。
    2019年新卒でソフトバンク株式会社に⼊社。データサイエンティスト
    としてモバイル事業領域の事業改善施策にプロジェクトリーダとして
    従事。
    2023年2⽉株式会社カカクコム⼊社。
    現在は、⾷べログの先端領域推進を担当。

    View Slide

  3. © Kakaku.com Inc. All Rights Reserved. 3
    2023年5⽉6⽇(⼟)、⾷べログChatGPTプラグインリリース
    ⽇本企業初のChatGPTプラグイン提供で様々なメディアにも取り上げていただきました
    2023年5⽉8⽇付 カカクコムのプレスリリースより(URL)

    View Slide

  4. © Kakaku.com Inc. All Rights Reserved. 4
    ChatGPTプラグインが無い場合のChatGPTの課題
    実在しない店舗情報を返す
    → 嘘を⾔ってしまう
    最新の情報を有していない
    2023年5⽉25⽇時点のGPT-4での挙動(プラグイン無し)

    View Slide

  5. © Kakaku.com Inc. All Rights Reserved. 5
    ⾷べログChatGPTプラグインの機能
    問い合わせ時点の⾷べログが持っている情報から実在する店舗情報を返す
    ChatGPTから⾷べログのページにアクセスし
    予約が可能

    View Slide

  6. © Kakaku.com Inc. All Rights Reserved. 6
    ⾷べログChatGPTプラグインの開発でのデータサイエンスチームの役割
    OpenAI社 ChatGPTプラグイン公開
    ⾷べログChatGPTプラグインリリース
    ⾷べログChatGPTプラグイン動作検証・公開申請
    ChatGPTプラグイン調査
    ステークホルダーとの協議:取組み決定
    各部⾨との調整(法務・セキュリティ・インフラ)
    お店検索APIの開発
    API以外のプラグインに必要な要素の準備
    ChatGPTなど⼤規模⾔語モデルの
    技術的な部分に責任を持つチーム

    View Slide

  7. © Kakaku.com Inc. All Rights Reserved. 7
    ⾷べログChatGPTプラグインの開発詳細を知りたい⽅へ
    ⾷べログChatGPTプラグインの開発の詳細については、Tabelog Tech Blogをご覧ください!

    View Slide

  8. © Kakaku.com Inc. All Rights Reserved. 8
    これからお話しすること
    1. データサイエンティストから⾒た⾷べログの⼤規模⾔語モデル活⽤の未来
    2. データサイエンティストの向き合い⽅

    View Slide

  9. © Kakaku.com Inc. All Rights Reserved. 9
    データサイエンティストから⾒た
    ⾷べログの⼤規模⾔語モデル活⽤の未来

    View Slide

  10. © Kakaku.com Inc. All Rights Reserved. 10
    データサイエンティストと⼤規模⾔語モデルの関係
    GPT(Generative Pre-Trained transformer)、BERT(Bidirectional
    Encoder Representations from Transformer)などのAttentionベースの
    ニューラル⾔語モデルを理解し、使いこなせる
    チェック項⽬
    ⾃然⾔語処理
    スキルカテゴリ スキルレベル
    ★ ★ ★
    データサイエンティストに必要なスキルの⼀つ:
    「GPTなどのモデルを理解し、使いこなせる」
    引⽤:⼀般社団法⼈データサイエンス協会-データサイエンティスト スキルチェックリスト
    データサイエンティストは⼤規模⾔語モデルを使いこなせる必要がある

    View Slide

  11. © Kakaku.com Inc. All Rights Reserved. 11
    ⼤規模⾔語モデルの特徴: ChatGPT登場前
    ChatGPT登場前の代表的な⼤規模⾔語モデル
    BERT
    2018年にGoogleより公開。事前学習済みの
    BERTを要約タスクや機械翻訳タスクといった
    タスクごとにファインチューニングすることで
    タスクに特化したモデルを利⽤可能。
    ファインチューニング前提
    • ファインチューニング⽤の学習データの準備
    • 学習⽤のリソース確保
    • ファインチューニングの専⾨知識
    ファインチューニングに必要なもの
    特定のタスクごとにパラメータ更新が必要

    View Slide

  12. © Kakaku.com Inc. All Rights Reserved. 12
    ⼤規模⾔語モデルの特徴: ChatGPT登場後
    ChatGPT登場後の代表的な⼤規模⾔語モデル
    GPT-4
    2023年にOpenAIより公開。ChatGPT Plus
    ユーザとOpenAI API経由での利⽤が可能。In-
    context learningで特定のタスクごとのファイ
    ンチューニングを⾏わなくても、それぞれの
    タスクに適⽤可能。
    ファインチューニング不要
    特定のタスクごとのパラメータ更新が不要
    同じモデルを様々なタスクに適⽤可能

    View Slide

  13. © Kakaku.com Inc. All Rights Reserved. 13
    ⾷べログの⼤規模⾔語モデル活⽤の未来
    ⼤規模⾔語モデルを活⽤した案件の増加
    ローコストで様々なタスクに適⽤可能なモデルの登場

    View Slide

  14. © Kakaku.com Inc. All Rights Reserved. 14
    データサイエンティストの
    向き合い⽅

    View Slide

  15. © Kakaku.com Inc. All Rights Reserved. 15
    データサイエンティストの業務
    Ҿ༻ݩɿʮ*544ʴʮσʔλαΠΤϯεྖҬʯ λεΫߏ଄ਤʢத෼ྨʣʯʢಠཱߦ੓๏ਓ৘ใॲཧਪਐػߏʣ
    IUUQTXXXJQBHPKQKJO[BJTLJMMTUBOEBSEQMVTJUVJJUTTQMVTEBUB@TDJFODFIUNM

    View Slide

  16. © Kakaku.com Inc. All Rights Reserved. 16
    今回フォーカスしてお話しする場所
    ˞੺࿮෦෼͸ɺ౰ࣾʹͯฤू
    Ҿ༻ݩɿʮ*544ʴʮσʔλαΠΤϯεྖҬʯ λεΫߏ଄ਤʢத෼ྨʣʯʢಠཱߦ੓๏ਓ৘ใॲཧਪਐػߏʣ
    IUUQTXXXJQBHPKQKJO[BJTLJMMTUBOEBSEQMVTJUVJJUTTQMVTEBUB@TDJFODFIUNM

    View Slide

  17. © Kakaku.com Inc. All Rights Reserved. 17
    ⼤規模⾔語モデルを活⽤する案件でのアプローチ設計
    ⼤規模⾔語モデルを使うべきか
    使うとしたら
    どの⼤規模⾔語モデルを使うか

    View Slide

  18. © Kakaku.com Inc. All Rights Reserved. 18
    ⼤規模⾔語モデルを使うべきかの判断
    機械翻訳
    要約
    質問応答
    ⽂章⽣成
    キーワード抽出
    エンべディング
    感情分析
    ⽂章の⾔い換え
    1. 解きたい課題のタスクは何かを整理
    ⾷べログの⼝コミ検索の
    検索精度を改善したい
    エンべディング、要約、キーワード抽出、
    感情分析
    2. ⼤規模⾔語処理モデルの
    得意とするタスクかを判断
    解きたい課題
    想定されるタスク
    ⼤規模⾔語モデルの得意とするタスク例

    View Slide

  19. © Kakaku.com Inc. All Rights Reserved. 19
    使うとしたらどの⼤規模⾔語モデルを使うかの判断:⼤規模⾔語モデルの利⽤⽅法分類
    ⼤規模⾔語モデルのプラットフォームを利⽤
    商⽤利⽤可能なモデルを利⽤
    完全⾃社開発して利⽤
    ⼤規模⾔語モデルの利⽤⽅法分類
    1
    2
    3
    具体的な例
    OpenAI API、Azure OpenAI Service、…
    Dolly 2.0、StableLM、RWKV、OpenCALM、…
    -

    View Slide

  20. © Kakaku.com Inc. All Rights Reserved. 20
    例. アプローチとして⼤規模⾔語モデルのプラットフォームを利⽤する場合
    プラットフォームとしての利⽤の検討
    ˞໢ֻ͚෦෼͸ɺ౰ࣾʹͯฤू
    Ҿ༻ݩɿʮ*544ʴʮσʔλαΠΤϯεྖҬʯ λεΫߏ଄ਤʢத෼ྨʣʯʢಠཱߦ੓๏ਓ৘ใॲཧਪਐػߏʣ
    IUUQTXXXJQBHPKQKJO[BJTLJMMTUBOEBSEQMVTJUVJJUTTQMVTEBUB@TDJFODFIUNM

    View Slide

  21. © Kakaku.com Inc. All Rights Reserved. 21
    プラットフォームとしての利⽤の検討
    プラットフォーム 課⾦⽅式 コスト(gpt-3.5-turbo)
    ⼊⼒データの
    利⽤
    Rate limits ・・・
    RPM TPM ・・・
    Azure OpenAI Service 従量課⾦ $0.002 (1000トークンあたり) ⼆次利⽤なし 300 120,000 ・・・
    OpenAI API 従量課⾦ $0.002(1000トークンあたり) ⼆次利⽤なし 3,500 90,000 ・・・
    要件に合うプラットフォームがあるかを調査して選択
    RPM:モデルごとの1分あたりの要求数
    TPM:モデルごとの1分あたりのトークン数
    Azure OpenAI Serviceの⽅がTPMは多い
    Rate limitsは引き上げ可能? → 調査
    APIやプラットフォームの仕様の把握など幅広い知識が求められる

    View Slide

  22. © Kakaku.com Inc. All Rights Reserved. 22
    ⼤規模⾔語モデルを活⽤した案件に必要な業務
    プロジェク
    ト⽴ち上げ
    アプローチ
    設計
    データ収集 データ処理 評価
    業務への組
    み込み
    改善
    プロジェク
    ト⽴ち上げ
    アプローチ
    設計
    プラットフォームとしての利⽤の検討
    業務への組
    み込み
    改善
    ⼤規模⾔語モデルを活⽤した案件に必要な業務
    データサイエンティストの業務
    AI領域の専⾨知識
    APIの接続などの専⾨知識
    • データの前処理
    • 機械学習
    • モデル評価
    • etc.

    View Slide

  23. © Kakaku.com Inc. All Rights Reserved. 23
    ⼤規模⾔語モデルの利⽤に求められるスキル
    ⼤規模⾔語モデルのプラットフォームを利⽤
    商⽤利⽤可能なモデルを利⽤
    完全⾃社開発して利⽤
    専⾨性

    低 ⼤規模⾔語モデルの利⽤⽅法分類
    • データ収集スキル
    • ⼤規模⾔語モデル構築のための専⾨
    知識
    • ⼤規模データを扱うスキル
    • 商⽤利⽤可能な⼤規模⾔語モデル
    の把握
    • ファインチューニングの知識
    • プラットフォームとしての利⽤のた
    めの知識(APIの接続などの知識)
    求められるスキル

    View Slide

  24. © Kakaku.com Inc. All Rights Reserved. 24
    ⼤規模⾔語モデルを活⽤した案件の増加でデータサイエンティストに求められること
    AI領域の専⾨知識
    AI領域の専⾨知識 + AI領域に隣接する領域の専⾨知識

    View Slide

  25. © Kakaku.com Inc. All Rights Reserved. 25
    We are hiring !

    View Slide