GCPUG女子会#9 BigQueryでSQL入門

BigQueryでSQL入門 2020/07/05 GCPUG女子会 #9

Hello! たかひらめぐみと申します・駆け出しデータ系コンサルタント・前職ではデータエンジニア？整備人？・GCP 特にBigQuery大好き ※本資料はあくまで個人の見解であり、所属組織の公式的な見解ではありません @megumi_takahira 2

突然ですが・・・この中でBigQuery 使ったことある方コメントで挙手ﾉｼしてください

申し訳ありません。今日の私の話は BQ使った事ある方には簡単すぎてきっとつまらないので twitterハッシュタグ　　#GCPUGjoshi 　#BQへの愛を叫ぶで愛を叫んでお待ちください！

このお話の対象者　・BigQueryって聞いた事あるかも　・SQLいっこもわからん　※非エンジニアの人でもOK! 簡単なハンズオンを用意しています一緒にやっても、資料をみながら後でやってみても良いのでぜひ一度触ってみてください！

BigQuery 概要（ざっくりと）・フルマネージドサービス・標準SQLでビッグデータにアクセスできる・ものすごくはやい

BigQuery 概要（ざっくりと）・基本は従量課金課金対象：　　データのスキャン量　　ストレージ　※ネットワークやCPUの使用量に関しては課金されない　※プレビューとメタ情報に関しては課金されない詳細は公式ドキュメントを参照 https://cloud.google.com/bigquery/pricing

BigQuery 概要（ざっくりと）・BigQuery サンドボックス　　サンドボックスを使用すると　　クレジットカード情報を入力することなく、　　Cloud Console でウェブ
UI を使用できます。環境構築・課金設定なしではじめられる　↓ これからSQLを勉強する場合にピッタリ！

HANDSON 9

Cloud Consoleを開き、利用規約に同意 https://console.cloud.google.com/?hl=ja

ナビゲーションペインで [BigQuery] をクリック

プロジェクトを作成する

プロジェクト名を入力して[作成]をクリック任意のプロジェクト名（デフォルトのままでもOK）

完了！

再びナビゲーションペインで [BigQuery] をクリック

BigQueryのコンソールが無事開けました

以下よりCSVをダウンロード pageviews_20200704_050000_over10requests.csv https://bit.ly/3dZ28Cj

データセットを作成

データセットIDを入力して（なんでもOK） [データセットを作成]をクリック

プロジェクトIDの左に出てきた▶をクリックし表示されたデータセット名(先ほど作成した)をクリック

テーブルの作成をクリックウィンドウの幅によっては、右記のような「＋」ボタンのみで表示されている事があるので注意

テーブルの作成元のプルダウンから[アップロード]を選択し、 [参照]をクリックして、先ほどローカルにダウンロードした CSVファイル(pageviews_20200704_050000_over10requests.csv)を指定するアップロードするファイルを選択するとファイル形式は自動で認識される

テーブル名を入力（なんでもOK）

自動検出スキーマと入力パラメータをチェック

[テーブル作成]をクリック

ジョブが作成された数秒後、左下に「テーブル名」が作成されましたと表示されたらテーブル作成完了このメッセージ（とリンク）結構すぐに消えてしまいますが慌てなくて大丈夫です

データセット名の左に出てきた▶をクリックし表示されたテーブル名(先ほど作成した)をクリック

クエリを実行する前に、メタデータ（テーブルについての説明等）をみていきます

メタデータだけでも結構いろんな事がわかります

いよいよSQLを書きます！ [テーブルをクエリ]をクリックウィンドウの幅によっては、右記のような「　」ボタンのみで表示されている事があるので注意

SELECT と FROMの間に * (アスタリスク、前後にスペースが必要) を追記してドライランを確認さきほど作成した [プロジェクト名].[データセット名].[テーブル名] を使った基本のSELECT句が自動生成されているここに
* (アスタリスク前後スペース)を追記 USの場合$5.00 per TBなのでこのクエリの課金は $0.00003（サンドボックスの場合は無料）

実行！

結果が表示される

SELECT＊で確認したい内容はたいていプレビューで確認できる（ちなみに LIMIT は表示行数を減らすだけでスキャン量削減には効果なし）大きめのテーブルを検索する際には、必要な項目（列）のみ指定する事を推奨 Limit1000 を消してもスキャン量は変化しない事を確認してみてください

SQLの基本 SELECT：　どの項目（列）のデータを検索するか FROM：　どのテーブルから検索するか WHERE：　どのような条件で行を検索するか今さらだけど

先ほどクエリを実行した画面で、再度テーブル名→スキーマを参照

先ほどの＊を消し、スキーマのフィールド名[title][requests]クリック末尾に　WHERE wiki = 'ja'　を追記＊を消す末尾に WHERE wiki =
'ja' を追記フィールド名をクリックすると自動で必要な部分に,(カンマ)をつけて入力してくれる

構文を確認して、実行 SELECT：どの項目（列）のデータを検索するか FROM：どの表から検索するか WHERE：どのような条件で行を検索するか

SQLの基本 ORDER BY：　特定のカラムの値に応じて行を並び変える ※昇順、降順について　未指定またはASC→昇順　DESC→降順今さらだけど

末尾にORDER BY句を追加して実行末尾に ORDER BY requests DESC を追記

SQLの基本 GROUP BY： SELECT文において特定の列の値が等しい行ごとに表をグループ化する。SUMやCOUNTなどの、集計関数を使用する場合は指定が必要。今さらだけど

以下のようにSQLを変更して実行 SELECT句を wiki, SUM(requests) に変更 GROUP BY wiki を追記 ORDER
BY句を SUM(requests) に変更

本日使用したデータについて Query the Wikipedia dataset in BigQuery: https://codelabs.developers.google.com/codelabs/cloud-bigquery-wikipe dia/index.html 上記のチュートリアルを参考にして、最近のデータ(2020/7/4
050000) を取得し、ローカルからアップロード可能な10MB以内になるように requestsが10件以上のデータに絞ったものです。 Cloud Shellを使用したりと、本日のハンズオンより少しレベルアップする内容になっているので、ぜひチャレンジしてみてください。

Thanks! 47 　@megumi_takahira

GCPUG女子会#9 BigQueryでSQL入門

GCPUG女子会#9 BigQueryでSQL入門

More Decks by Megumi Takahira

Other Decks in Technology

Featured

Transcript