AI関数が早くなったので試してみよう

2025年8月6日株式会社電通総研熊倉光規 AI関数が早くなったらしいので使ってみよう〜合成データ作成作業を通して〜

2 © DENTSU SOKEN INC. 自己紹介名前所属株式会社電通総研エンタープライズ第三本部
マーケティングIT部今年のDAIS 2025参加した際に、ゴールデンゲートブリッジで撮った写真。↑の写真の後、強風で→になった。熊倉光規趣味ギター、ゲーム（最近デスストランディング2にハマってます）

3 © DENTSU SOKEN INC. 会社紹介株式会社電通総研 DENTSU SOKEN INC.
代表取締役社長岩本浩久東京都港区港南2-17-1 中部支社／関西支社／広島支社／豊田支社 1975年12月11日 81億8,050万円連結4,413名／単体2,402名 14社（国内6社、海外8社）システムインテグレーション、コンサルティング、シンクタンクの機能連携による、社会や企業の変革を支援するソリューションの提供会社名英文社名代表者本社所在地支社設立資本金従業員数子会社数事業内容会社概要（2024年12月末時点） www.dentsusoken.com www.dentsusoken.com 電通総研コーポレートサイトミッションビジョン行動指針

4 AI関数が早くなった話合成データとは目次 INDEX 01 02 03 04 AI関数を使ってみる
パフォーマンスを見てみる

6 © DENTSU SOKEN INC. AI関数が早くなった話 DAIS2025ではメインキーノートでAgent BricksやLakebaseのようなインパクトの大きいアップデートが多数ありましたが、自分が地味に一番嬉しかったのが、「AI関数のパフォーマンスが上がった」ことでした。（Day1、Day2共にちょっとずつ言及ありましたが印象残ってるでしょうか…？）
https://youtu.be/0pys27kA67U?si=bn_f8Zs3L9B5-upD&t=5483 (1:31:23ごろ) Day2 Main Keynote https://youtu.be/ul8cRLIP_Vk?si=M8lhhB9OkBNqz_IS&t=7296 （2:01:36ごろ） Day1 Main Keynote

7 © DENTSU SOKEN INC. AI関数が早くなった話 DAIS2025ではメインキーノートでAgent BricksやLakebaseのようなインパクトの大きいアップデートが多数ありましたが、自分が地味に一番嬉しかったのが、「AI関数のパフォーマンスが上がった」ことでした。（Day1、Day2共にちょっとずつ言及ありましたが印象残ってるでしょうか…？）
https://youtu.be/0pys27kA67U?si=bn_f8Zs3L9B5-upD&t=5483 (1:31:23ごろ) Day2 Main Keynote https://youtu.be/ul8cRLIP_Vk?si=M8lhhB9OkBNqz_IS&t=7296 （2:01:36ごろ） Day1 Main Keynote

8 © DENTSU SOKEN INC. 半年ほど前、バッチ的にSQLでAI関数を利用した時に速度が遅いなーと思うことがあった（4,000行のレコードに対してAI関数を実施し4時間弱ジョブが実行）（ここ重要）ただし、その時は • Databricksにネイティブ統合されたモデルではなく、Model
Servingの外部モデルを利用していた • Geminiを使ってみたかった… • クラシックコンピュートを利用していた（最適なマシンを選択できていなかった）こともパフォーマンスが出なかった一因です（後で詳しく紹介します） AI関数が早くなった話 ▪なぜAI関数のパフォーマンス向上が嬉しかった？

9 © DENTSU SOKEN INC. AI関数が早くなった話 DAIS 2025の発表で生成AIの文脈でGoogle Cloud との連携発表もありました
個人的には熱いアップデートで、早くネイティブ統合されたGeminiを使ってみたいと思ってます。 ↑ホントはこのイベントの段階（8/6）で利用ができてたら、早速使った内容を共有したかった… ちなみに

10 © DENTSU SOKEN INC. AI関数が早くなった話 ▪ LTでやってみること AI関数が早くなったとのことなので、合成データ作成作業を通じて、早速使ってみてパフォーマンスを見てみる ▪
お伝えしたいこと • 合成データという概念 • AI関数のパフォーマンスのイメージ（どのLLMが早い / 遅い、とかレコード数に対してざっくりどれくらいのスピードで処理できるのか）

12 © DENTSU SOKEN INC. 合成データとは • 実世界のデータを模倣して人工的に生成されたデータを合成データと呼びます • 実際のデータの特徴（分布や相関など）と類似するように作られます。
• ダミーデータとほぼ意味的に近いですが、実際のデータを模倣するという点に特徴があります。 • 機械学習モデルのトレーニングや、ソフトウェアのテストなどに活用されます。 • 以下のような観点で、実データの利用が困難な場合に利用されます • プライバシーの保護 • 個人情報（PII）など、プライバシーに関わる情報が含まれていて実データをそのまま利用できない場合に、代替データとして使用します。 • データ量の拡張 • 機械学習モデルの精度向上や、十分なテスト実施のために必要なデータ量が、実データだけでは不足している場合に、データを拡張するために用います。 ▪ 合成データ（Synthetic Data）とは

13 © DENTSU SOKEN INC. 合成データとは • 生成AIを使用した合成データの作成の手法は色々あります（GAN、VAE等）が、大規模言語モデル（LLM）を使用して合成データを作成するアプローチもあります •
合成データ作成でLLMを使用するメリットは次のようなものがあります。 • 高品質で自然な文章生成ができる • 人間が書いたような、自然で多様なテキストデータ（例：チャットの会話ログ、レビュー投稿）を生成できます。 • 柔軟なデータ生成の指示 • 自然言語で指示ができるため、作成したデータの特性を細かく指定できます。 • 例えば「元データに似せつつ、意図的にノイズ（表記揺れや軽微な誤り）を加える」といった複雑な指示も可能です。 ▪ LLMを使用した合成データ作成

15 © DENTSU SOKEN INC. 1. ベースとなるユーザテーブルを作成 2. AI関数を使用し、ユーザテーブルに列を追加・LLMより、イベントのアンケートと興味ある技術要素を作成するように指示したいと思います
3. 生成された列をパースし、個別の列へ展開する AI関数を使ってみるでは実際に、AI関数を使って、合成データを作成してみようと思います。合成データとして「Databricksコミュニティイベントのユーザアンケート」データを作ってみようと思います。合成データは以下の順で作成していきます

16 © DENTSU SOKEN INC. AI関数を使ってみる最初に、ベースとなるユーザテーブルを作成します。今回はゼロから合成データを作成していこうと思っているので、ダミーデータの作成をサポートするライブラリを使用してデータを作成します。（今回はFakerを使用） 1.
ベースとなるユーザテーブルを作成

17 © DENTSU SOKEN INC. AI関数を使ってみる 1. ベースとなるユーザテーブルを作成後でLLMのプロンプトに組み込むために、性格を表す”MBTI”カラムを用意してみました

18 © DENTSU SOKEN INC. AI関数を使ってみる 1. ベースとなるユーザテーブルを作成 Fakerを使い、ダミーデータを機械的に作成する関数 Fakerは人名や住所、電話番号などの辞書を持っており、
ランダムに出力することができるライブラリです

19 © DENTSU SOKEN INC. AI関数を使ってみる 1. ベースとなるユーザテーブルを作成実際にデータフレームを作成し、テーブルとして登録する処理です。今回はテストとして4,000行レコードを用意してみました

20 © DENTSU SOKEN INC. AI関数を使ってみるこんなテーブルを用意してみました。 1. ベースとなるユーザテーブルを作成後でLLMでイベントアンケートを作成してもらうときに、
バリエーションが欲しかったので、性格を表す”mbti”カラムと 5段階レビューの”rate”カラムを追加しました（合成データ用のカラム）

21 © DENTSU SOKEN INC. AI関数を使ってみる次にユーザテーブルに対してAI関数を実行します。具体的なソースコードを紹介する前に、AI関数について簡単に紹介をします。 AI関数は大きく分けて、 ①
自由にプロンプトを設定しLLMを実行する汎用的な関数：ai_query() ② テキストの要約、感情分析など特定のタスクに特化した関数：ai_analyze_sentiment()やai_summarize()などの2つ存在します。いずれも、簡単に利用できるようにデザインされており、特に②のタスク特化のAI関数はAPIもかなりシンプルになってます。今回は、合成データ作成、ということで、①の汎用AI関数であるai_query()を使用しました。 2. AI関数を使用し、ユーザテーブルに列を追加

22 © DENTSU SOKEN INC. AI関数を使ってみるバッチ的にAI関数を利用したい場合、Databricksがホストする基盤モデルでは以下が推奨となっています。 • databricks-gemma-3-12b •
databricks-llama-4-maverick • databricks-meta-llama-3-3-70b-instruct • databricks-meta-llama-3-1-8b-instruct • databricks-gte-large-en Databricksがホストする基盤モデルとしては、他にもAnthropicのClaude Sonnet 4などもあり、 ai_query()から利用も勿論できますが、バッチ的な使い方は非推奨のようです。 2. AI関数を使用し、ユーザテーブルに列を追加先々週？とかに追加されてましたけど、もう最適化されてるみたいです ※ 公式ドキュメント読んでそうだと解釈しましたが、ツッコミあったら後でお願いします

23 © DENTSU SOKEN INC. AI関数を使ってみるプロンプトを組み立てるための”パーツ”を定義していきます。（最初はイベントの概要から） 2. AI関数を使用し、ユーザテーブルに列を追加

24 © DENTSU SOKEN INC. AI関数を使ってみる 2. AI関数を使用し、ユーザテーブルに列を追加次に、LLMのレスポンスの型を指定するために、JSON Schemaを定義しました。

25 © DENTSU SOKEN INC. AI関数を使ってみる 2. AI関数を使用し、ユーザテーブルに列を追加前段で定義したイベント情報や、ユーザテーブルの情報などを組み込んで、最終的にLLMへ投げるプロンプトを作成しました。
ここでプロンプトに情報を渡すために1. のユーザテーブル作成作業で性格や評価などの列を追加してました

26 © DENTSU SOKEN INC. AI関数を使ってみる 2. AI関数を使用し、ユーザテーブルに列を追加作成したプロンプトを基にAI関数を実行します。

27 © DENTSU SOKEN INC. AI関数を使ってみるこんなテーブルが作成されます。 2. AI関数を使用し、ユーザテーブルに列を追加

28 © DENTSU SOKEN INC. AI関数を使ってみる AI関数で作成された列がJSON文字列になっているので、最後にパースして整形を行います（ここはサラッと紹介します） 3. 生成された列をパースし、個別の列へ展開する
String型だったので、Struct型へ変換

32 © DENTSU SOKEN INC. パフォーマンスを見てみる今回、バッチ関数に最適化されているモデルで、以下についてパフォーマンスを簡単に見てみました。（4,000レコードでモデル毎に5回バッチ推論を実施して処理時間を計測） • databricks-gemma-3-12b
• databricks-llama-4-maverick • databricks-meta-llama-3-3-70b-instruct • databricks-meta-llama-3-1-8b-instruct AI関数使ってみた結果 : パフォーマンスについて①

33 © DENTSU SOKEN INC. パフォーマンスを見てみる AI関数使ってみた結果 : パフォーマンスについて① ※
インプットとアウトプットのトークン量やパラメータで大きく左右するので、あくまで「へー、あのプロンプト量だとこんぐらいなんだー」ぐらい緩く捉えていただけると助かります ※ サーバレスコンピュート(メモリ16GB), 4,000レコードで実行

34 © DENTSU SOKEN INC. パフォーマンスを見てみる推奨と言われると、推奨じゃないモデルのパフォーマンスも気になるのが人間の性ということで動かしてみた • Claude 3.7
• サーバレスコンピュートのデフォルトのタイムアウト（9,000s）に達してしまい中断 • Claude 4.0 sonnet • サーバレスコンピュートのデフォルトのタイムアウト（9,000s）に達してしまい中断 • 外部モデル（Google Vertex AI / Gemini 2.5 Flash） • サーバレスコンピュートのデフォルトのタイムアウト（9,000s）に達してしまい中断 AI関数使ってみた結果 : パフォーマンスについて②

35 © DENTSU SOKEN INC. まとめ • 合成データという概念 • 実世界のデータを模倣して人工的に生成されたデータを合成データと呼ぶ
• セキュリティの観点で実データの使用ができなかったり、実データ量が足りない場合などに作成する • AI関数のパフォーマンスのイメージ（どのLLMが早い / 遅い、とかレコード数に対してざっくりどれくらいのスピードで処理できるのか） • Databricksがホストする基盤モデルでバッチ処理に最適化されているものであればLLM毎の大きなパフォーマンスの違いはない？ • 4,000レコードで大体3~5分くらい • バッチ関数に最適化されてないモデルについては、処理時間が跳ね上がるので、もし利用するなら注意が必要お伝えしたかったこと

36 © DENTSU SOKEN INC. まとめ • まずはGemini！ • 何卒よろしくお願いします
• タスク特化の関数 • 感情分析、要約、翻訳など、バッチ的にLLMを使用したい場合のユースケースがかなり網羅されている印象でぜひ使用してみたい • 日本語だとどうなのとか知りたい • あと、最近ベータで追加されたai_parse_document関数（PDF, JPG / JPEG, PNGをパースするAI関数）も気になる今後やってみたいこと

本文書（添付資料を含む）は、株式会社電通総研が著作権その他の権利を有する営業秘密（含サプライヤー等第三者が権利を有するもの）です。当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。本資料内の社名・製品名は各社の登録商標です。
CONFIDENTIAL

AI関数が早くなったので試してみよう

AI関数が早くなったので試してみよう

Other Decks in Technology

Featured

Transcript