Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AI関数が早くなったので試してみよう

 AI関数が早くなったので試してみよう

Avatar for kumakura koki

kumakura koki

August 06, 2025
Tweet

Other Decks in Technology

Transcript

  1. 2 © DENTSU SOKEN INC. 自己紹介 名前 所属 株式会社電通総研 エンタープライズ第三本部

    マーケティングIT部 今年のDAIS 2025参加した際に、ゴールデンゲートブリッジ で撮った写真。↑の写真の後、強風で→になった。 熊倉 光規 趣味 ギター、ゲーム(最近デスストランディング2にハマってます)
  2. 3 © DENTSU SOKEN INC. 会社紹介 株式会社電通総研 DENTSU SOKEN INC.

    代表取締役社長 岩本 浩久 東京都港区港南2-17-1 中部支社/関西支社/広島支社/豊田支社 1975年12月11日 81億8,050万円 連結4,413名/単体2,402名 14社(国内6社、海外8社) システムインテグレーション、コンサルティング、 シンクタンクの機能連携による、社会や企業の 変革を支援するソリューションの提供 会社名 英文社名 代表者 本社所在地 支社 設立 資本金 従業員数 子会社数 事業内容 会社概要(2024年12月末時点) www.dentsusoken.com www.dentsusoken.com 電通総研コーポレートサイト ミッション ビジョン 行動指針
  3. 8 © DENTSU SOKEN INC. 半年ほど前、バッチ的にSQLでAI関数を利用した時に速度が遅いなーと思うことがあった (4,000行のレコードに対してAI関数を実施し4時間弱ジョブが実行) (ここ重要)ただし、その時は • Databricksにネイティブ統合されたモデルではなく、Model

    Servingの外部モデルを利用していた • Geminiを使ってみたかった… • クラシックコンピュートを利用していた(最適なマシンを選択できていなかった) こともパフォーマンスが出なかった一因です(後で詳しく紹介します) AI関数が早くなった話 ▪なぜAI関数のパフォーマンス向上が嬉しかった?
  4. 9 © DENTSU SOKEN INC. AI関数が早くなった話 DAIS 2025の発表で生成AIの文脈でGoogle Cloud との連携発表もありました

    個人的には熱いアップデートで、早くネイティブ統合されたGeminiを使ってみたいと思ってます。 ↑ホントはこのイベントの段階(8/6)で利用ができてたら、早速使った内容を共有したかった… ちなみに
  5. 10 © DENTSU SOKEN INC. AI関数が早くなった話 ▪ LTでやってみること AI関数が早くなったとのことなので、合成データ作成作業を通じて、早速使ってみてパフォーマンスを見てみる ▪

    お伝えしたいこと • 合成データという概念 • AI関数のパフォーマンスのイメージ(どのLLMが早い / 遅い、とかレコード数に対してざっくりどれくらいの スピードで処理できるのか)
  6. 12 © DENTSU SOKEN INC. 合成データとは • 実世界のデータを模倣して人工的に生成されたデータを合成データと呼びます • 実際のデータの特徴(分布や相関など)と類似するように作られます。

    • ダミーデータとほぼ意味的に近いですが、実際のデータを模倣するという点に特徴があります。 • 機械学習モデルのトレーニングや、ソフトウェアのテストなどに活用されます。 • 以下のような観点で、実データの利用が困難な場合に利用されます • プライバシーの保護 • 個人情報(PII)など、プライバシーに関わる情報が含まれていて実データをそのまま利用できない場合 に、代替データとして使用します。 • データ量の拡張 • 機械学習モデルの精度向上や、十分なテスト実施のために必要なデータ量が、実データだけでは不足し ている場合に、データを拡張するために用います。 ▪ 合成データ(Synthetic Data)とは
  7. 13 © DENTSU SOKEN INC. 合成データとは • 生成AIを使用した合成データの作成の手法は色々あります(GAN、VAE等)が、 大規模言語モデル(LLM)を使用して合成データを作成するアプローチもあります •

    合成データ作成でLLMを使用するメリットは次のようなものがあります。 • 高品質で自然な文章生成ができる • 人間が書いたような、自然で多様なテキストデータ(例:チャットの会話ログ、レビュー投稿)を生成 できます。 • 柔軟なデータ生成の指示 • 自然言語で指示ができるため、作成したデータの特性を細かく指定できます。 • 例えば「元データに似せつつ、意図的にノイズ(表記揺れや軽微な誤り)を加える」といった複雑な指 示も可能です。 ▪ LLMを使用した合成データ作成
  8. 15 © DENTSU SOKEN INC. 1. ベースとなるユーザテーブルを作成 2. AI関数を使用し、ユーザテーブルに列を追加 ・LLMより、イベントのアンケートと興味ある技術要素を作成するように指示したいと思います

    3. 生成された列をパースし、個別の列へ展開する AI関数を使ってみる では実際に、AI関数を使って、合成データを作成してみようと思います。 合成データとして「Databricksコミュニティイベントのユーザアンケート」データを作ってみようと思います。 合成データは以下の順で作成していきます
  9. 20 © DENTSU SOKEN INC. AI関数を使ってみる こんなテーブルを用意してみました。 1. ベースとなるユーザテーブルを作成 後でLLMでイベントアンケートを作成してもらうときに、

    バリエーションが欲しかったので、性格を表す”mbti”カラムと 5段階レビューの”rate”カラムを追加しました(合成データ用のカラム)
  10. 21 © DENTSU SOKEN INC. AI関数を使ってみる 次にユーザテーブルに対してAI関数を実行します。 具体的なソースコードを紹介する前に、AI関数について簡単に紹介をします。 AI関数は大きく分けて、 ①

    自由にプロンプトを設定しLLMを実行する汎用的な関数:ai_query() ② テキストの要約、感情分析など特定のタスクに特化した関数:ai_analyze_sentiment()やai_summarize()など の2つ存在します。 いずれも、簡単に利用できるようにデザインされており、 特に②のタスク特化のAI関数はAPIもかなりシンプルになってます。 今回は、合成データ作成、ということで、①の汎用AI関数であるai_query()を使用しました。 2. AI関数を使用し、ユーザテーブルに列を追加
  11. 22 © DENTSU SOKEN INC. AI関数を使ってみる バッチ的にAI関数を利用したい場合、Databricksがホストする基盤モデルでは以下が推奨となっています。 • databricks-gemma-3-12b •

    databricks-llama-4-maverick • databricks-meta-llama-3-3-70b-instruct • databricks-meta-llama-3-1-8b-instruct • databricks-gte-large-en Databricksがホストする基盤モデルとしては、他にもAnthropicのClaude Sonnet 4などもあり、 ai_query()から利用も勿論できますが、バッチ的な使い方は非推奨のようです。 2. AI関数を使用し、ユーザテーブルに列を追加 先々週?とかに追加されてましたけど、 もう最適化されてるみたいです ※ 公式ドキュメント読んでそうだと解釈しましたが、ツッコミあったら後でお願いします
  12. 33 © DENTSU SOKEN INC. パフォーマンスを見てみる AI関数使ってみた結果 : パフォーマンスについて① ※

    インプットとアウトプットのトークン量やパラメータで大きく左右するので、 あくまで「へー、あのプロンプト量だとこんぐらいなんだー」ぐらい緩く捉えていただけると助かります ※ サーバレスコンピュート(メモリ16GB), 4,000レコードで実行
  13. 34 © DENTSU SOKEN INC. パフォーマンスを見てみる 推奨と言われると、推奨じゃないモデルのパフォーマンスも気になるのが人間の性ということで動かしてみた • Claude 3.7

    • サーバレスコンピュートのデフォルトのタイムアウト(9,000s)に達してしまい中断 • Claude 4.0 sonnet • サーバレスコンピュートのデフォルトのタイムアウト(9,000s)に達してしまい中断 • 外部モデル(Google Vertex AI / Gemini 2.5 Flash) • サーバレスコンピュートのデフォルトのタイムアウト(9,000s)に達してしまい中断 AI関数使ってみた結果 : パフォーマンスについて②
  14. 35 © DENTSU SOKEN INC. まとめ • 合成データという概念 • 実世界のデータを模倣して人工的に生成されたデータを合成データと呼ぶ

    • セキュリティの観点で実データの使用ができなかったり、実データ量が足りない場合などに作成する • AI関数のパフォーマンスのイメージ(どのLLMが早い / 遅い、とかレコード数に対してざっくりどれくらいの スピードで処理できるのか) • Databricksがホストする基盤モデルでバッチ処理に最適化されているものであればLLM毎の大きなパ フォーマンスの違いはない? • 4,000レコードで大体3~5分くらい • バッチ関数に最適化されてないモデルについては、処理時間が跳ね上がるので、もし利用するなら注意が 必要 お伝えしたかったこと
  15. 36 © DENTSU SOKEN INC. まとめ • まずはGemini! • 何卒よろしくお願いします

    • タスク特化の関数 • 感情分析、要約、翻訳など、バッチ的にLLMを使用したい場合のユースケースがかなり網羅されている印象でぜひ使用して みたい • 日本語だとどうなのとか知りたい • あと、最近ベータで追加されたai_parse_document関数(PDF, JPG / JPEG, PNGをパースするAI関数)も気になる 今後やってみたいこと