Upgrade to Pro — share decks privately, control downloads, hide ads and more …

初心者でも分かるBigQuery ML入門

yukiringo
February 22, 2024

初心者でも分かるBigQuery ML入門

コーディングスキル不要!SQLで、機械学習やAIタスクの実行ができるBigQuery ML。
そんなBigQuery MLについて、Vertex AI中心に初心者にも分かりやすく解説したLTです。

yukiringo

February 22, 2024
Tweet

More Decks by yukiringo

Other Decks in Technology

Transcript

  1. BigQuery MLとは SQLを使って 機械学習モデルを作成、訓練、評価、予測& LLMとCloud AI APIにアクセスしてAIタスクを実行 出来る機能 通常は... 大規模なデータセットで

    ML や AI を実行するには、 ML フレームワークに対するコーディングスキル&知識が必要 →BigQuery MLにより...    データアナリストやデータサイエンティストが コーディングスキルの差を気にすることなく、   機械学習を利用できるようになる! 参考:BigQuery MLの概要
  2. BigQuery MLで サポートされているモデル 内部トレーニングモデル 線形回帰 ロジスティック回帰 K 平均法クラスタリング など 外部トレーニングモデル:Vertex AIによるトレーニング

    DNN AutoML など インポートされたモデル:カスタムモデルをインポート Open Neural Network Exchange TensorFlow など リモートモデル:Vertex AIにデプロイされたモデルを使用 参考:BigQuery MLの概要
  3. BigQuery MLで サポートされているモデル リモートモデル → BigQuery ML から   LLM

    などのAI リソースにアクセス可能 Vertex AI text-bison    (自然言語基盤モデルのいずれか) Vertex AI textembedding-gecko    (テキスト エンベディング基盤モデルの     いずれか) Cloud Natural Language API Cloud Translation API Document AI API Speech-to-Text API Cloud Vision API 参考:BigQuery MLの概要
  4. ①音声→文字起こし:ML.TRANSCRIBE 関数の使用 1. 認識機能の作成 2. 外部接続の作成 3. データセットの作成 4. モデルの作成

    5. オブジェクトテーブルの作成 6. 音声ファイルの文字変換 参考:ML.TRANSCRIBE 関数を使用して音声ファイルを文字変換する
  5. ①音声→文字起こし:ML.TRANSCRIBE 関数の使用 1. 認識機能の作成 2. 外部接続の作成 3. データセットの作成 4. モデルの作成

    5. オブジェクトテーブルの作成 6. 音声ファイルの文字変換 2024年2月22日現在 Enterprise, Enterprise Plus エディションのみ自動利用可能! → 宿題! 参考:ML.TRANSCRIBE 関数を使用して音声ファイルを文字変換する
  6. 1. データセットの作成 2. データの準備 3. 外部接続の作成 4. リモートMLモデルの作成 5. テキスト要約

    ②文字起こし→要約:ML.GENERATE_TEXT関数 参考:Summarize Text using SQL and LLMs in BigQuery ML (Google Cloud skill boost)    ML.GENERATE_TEXT 関数
  7. Project-ID ②文字起こし→要約:ML.GENERATE_TEXT関数 1. データセットの作成 参考:Summarize Text using SQL and LLMs

    in BigQuery ML (Google Cloud skill boost) ※任意のデータセットIDを入力 Project-ID
  8. 2. データの準備:テーブル作成→データ挿入 参考:Summarize Text using SQL and LLMs in BigQuery

    ML (Google Cloud skill boost) ②文字起こし→要約:ML.GENERATE_TEXT関数 今回は生成AIに作成させた 書き起こしイメージ文章 (963文字、3分程度) ※任意のテーブル名を入力 Project-ID Project-ID
  9. 3. 外部接続の作成:サービスアカウントIDの保存 参考:Summarize Text using SQL and LLMs in BigQuery

    ML (Google Cloud skill boost) ②文字起こし→要約:ML.GENERATE_TEXT関数 ※任意の接続IDを入力 Project-ID Project-ID
  10. 3. 外部接続の作成:IAMでサービスアカウントに権限付与 参考:Summarize Text using SQL and LLMs in BigQuery

    ML (Google Cloud skill boost) ②文字起こし→要約:ML.GENERATE_TEXT関数 サービスアカウントIDを入力
  11. 4. リモートMLモデルの作成 CREATE MODELの構文 クエリ作成 ②文字起こし→要約:ML.GENERATE_TEXT関数 参考:Summarize Text using SQL

    and LLMs in BigQuery ML (Google Cloud skill boost)    The CREATE MODEL statement for remote models over LLMs
  12. 5. テキスト要約 ML.GENERATE_TEXTの構文                    クエリ作成 ②文字起こし→要約:ML.GENERATE_TEXT関数 参考:Summarize Text using SQL

    and LLMs in BigQuery ML (Google Cloud skill boost)    ML.GENERATE_TEXT 関数 `ProjectID . VertexAI_Practice . SpeechtoTextExample` flatten_json_output: 生成されたテキストと 安全性属性の信頼スコアリングを 別々に出力するかどうか (デフォルトはFALSE) ※安全性属性についてはこちら
  13. `ProjectID . VertexAI_Practice . SpeechtoTextExample` 5. テキスト要約 実行結果:flatten_json_outputがFALSEの場合(デフォルト) ②文字起こし→要約:ML.GENERATE_TEXT関数 参考:Summarize

    Text using SQL and LLMs in BigQuery ML (Google Cloud skill boost)    ML.GENERATE_TEXT 関数 ml_generate_text_result: 生成されたテキストは content 要素に、 安全性属性は safetyAttributes 要素に 格納される
  14. `ProjectID . VertexAI_Practice . SpeechtoTextExample` 5. テキスト要約 実行結果:flatten_json_outputがTRUEの場合 ②文字起こし→要約:ML.GENERATE_TEXT関数 参考:Summarize

    Text using SQL and LLMs in BigQuery ML (Google Cloud skill boost)    ML.GENERATE_TEXT 関数 ml_generate_text_llm_result : 生成されたテキスト ml_generate_text_rai_result : 安全性属性