AmazonAthenaで競馬データをParquet化する

Amazon Athenaで競馬データをParquet化する 2026/03/11 JAWS-UG 茨城 #12 春の推しAWSサービスLTまつり！藤井ひかり

① 推しサービス「Amazon Athena」についてご紹介 ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証今回の内容

発表者についてフジイヒカリと申します・x・社会人1年目：SIerのアーキテクチャチームでSEしてますデータベース初学者ですが楽しく勉強しています AWSについて　保有資格：CLF,AIF,SAA,MLA,DEA ★昨年12月開催のJAWS-UG Presents
- AI Builders DayをきっかけにAWSに興味をもち、現在絶賛勉強中です！ X：@usanchuu

出走直前の馬体重とオッズのデータを分析して期待値を出したい。でもDEAの勉強中で悠長に考えてられない…RDS （データベース）を立てる時間も維持費も惜しい。 LT内容の背景：万馬券をあてたい！

DEA勉強中に出てきたAthenaはDB構築ゼロ＋S3にデータを置くだけで即SQLが使えるらしい！勉強がてら使ってみよう LT内容の背景：万馬券をあてたい！

① 推しサービス「Amazon Athena」についてご紹介

Amazon Athenaの名前の由来 ★推しポイント！ ① 推しサービス「Amazon Athena」についてご紹介「Athena」はギリシャ神話に登場する「知恵と戦略の女神」

Amazon Athenaの特徴 ① 推しサービス「Amazon Athena」についてご紹介 ②学習コストが『ゼロ』 ①DB構築が『ゼロ』 ③使っていない時の維持費が『ゼロ』　 S3にファイル（CSVやJSON）を置くだけで、準備完了
標準的なSQLを叩くだけで、すぐにデータが返ってくる『スキャンしたデータ量（1TBあたり約5ドル）』だけの従量課金

Athenaの裏側で起こっていること ★Schema-on-Read https://docs.aws.amazon.com/ja_jp/athena/latest/ug/handling- schema-updates-chapter.html より ① 推しサービス「Amazon Athena」についてご紹介【従来のDB：Schema-on-Write】「①テーブル設計
→ ②データ投入 → ③検索」 →事前の設計とデータ加工が必須で大変！【Athena：Schema-on-Read】 →生データに『読む瞬間だけ』枠を被せる！事前準備ゼロ！

・従来のオンプレDB：計算サーバーの中にハードディスク・Athena：Coordinator（司令塔）がSQLを受け取ってGlue Data Catalog を見る→数百のノードが立ち上がり、並列処理をして即解散する。 Athenaの裏側で起こっていること ★コンピュート（計算処理）とストレージ（データ保存）の分離 https://docs.aws.amazon.com/ja_jp/athena/latest/ug/data-types.htmlより ① 推しサービス「Amazon
Athena」についてご紹介

② Amazon Athenaで競馬データを Parquet化して万馬券を当てる検証

検証方法 ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証ダミーの競馬データをAIで生成（馬の名前、重さ、オッズ、レース名） ▶Athenaの画面で結果出力場所を指定▶データベースを作成 ▶検索クエリ実行スクレイピングはやめておくことに...

手順1：とりあえずCSVで検索してみた結果…… ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証　 ★csv形式：行指向

実行時間：781ms 手順1：とりあえずCSVで検索してみた結果…… ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証　 ★csv形式：行指向今回のSQLで欲しいのは「オッズ」と「重さ」のみ →馬の名前やレース名まで全部強制的に読み込まされる

手順2：データをParquet形式に変換した結果 ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証 ★Parquet（パーケイ）形式：列指向

手順2：データをParquet形式に変換した結果 ② Amazon Athenaで競馬データをParquet化して万馬券を当てる検証 ★Parquet（パーケイ）形式：列指向データを「列（カラム）」ごとに縦にまとめて保存 →「オッズ」と「重さ」のデータブロックだけをピンポイントで読み込める。実行時間：385ms　★396ms短縮！

いざ！レース本番！！

とおもったのですが、レースの時間が過ぎていました... Parquet変換のお勉強に夢中になってしまった；；

まとめ ★サーバーレスで手軽な反面、『スキャンしたデータ量』に直接課金されるためデータの持ち方がコストに直結する！ Athenaの課金体系＝「スキャン量」がすべて ★Parquet（パーケイ）などの列指向フォーマットへの変換が必須！

AmazonAthenaで競馬データをParquet化する

AmazonAthenaで競馬データをParquet化する

usanchuu

More Decks by usanchuu

Other Decks in Technology

Featured

Transcript