Upgrade to Pro — share decks privately, control downloads, hide ads and more …

20240208_【技育CAMPアカデミア】気象データを分析して ビジネス的な価値を見出そう!

Avatar for Yuya Kaneta Yuya Kaneta
February 08, 2024

20240208_【技育CAMPアカデミア】気象データを分析して ビジネス的な価値を見出そう!

Avatar for Yuya Kaneta

Yuya Kaneta

February 08, 2024
Tweet

More Decks by Yuya Kaneta

Other Decks in Education

Transcript

  1. Copyright©Weathernews Inc. 1時間後…… • 気象会社が扱っているデータがどんなものかわかる • 気象データのハンドリングができるようになる • オープンデータを用いて、自分の興味のある分析ができるようになる •

    ビジネスへの適用がイメージできるようになる よろしくお願いします!! 今回の着地点 3 ※1: AIや機械学習的な話は業務としては使うのですが、今回はほぼ皆無です ※2: 資料はX(旧Twitter)で公開する予定です
  2. 自己紹介/Self introduction 所属チーム Team 陸上気象事業部 Data Analytics & Providing Team

    経歴 History ・~ 2018年3月 新潟大学・自然科学研究科博士後期課程修了 理学(物理学・素粒子理論 )で博士号を取得しました ・2018年4月 ~ 2022年1月 受託データ分析会社に入社 ・2022年2月 ~ WNI入社、社内のデータ分析・機械学習モデル開発に従事 入社のきっかけ Why did you join WNI? ・需要予測などデータ分析業務において気象データの重要性を 感じていたため ・たくさんデータがあるため 現在の仕事内容 Current job ・データ分析・利活用の検討 ・機械学習モデルの開発 金田 佑哉 KANETA Yuya 出身 : 茨城県 趣味 : データ分析、 分析技術のキャッチ アップ、 テニス、 アニメ 夏に同僚とビアガーデンに行きました プロジェクトメンバーと料理教室に行ってきました 社外のデータ分析イベントの立ち上げ・運営をしてい ます 5
  3. Copyright©Weathernews Inc. モバイルアプリ: ウェザーニュース 予測精度 No.1 コンテンツ 24時間 配信 累計

    3,700 万 DL突破 BtoCアプリであるウェザーニュースを通して弊社をご認識いただいている方も少なくないと思 います。 6
  4. Copyright©Weathernews Inc. Data Analytics & Providing Team 事業部のDream Data Analytics

    & Providing Teamのミッションステートメント 分析を通してデータを生成し、価値を生み出す 事業部のDreamを下支えする 陸上気象事業部は道路・鉄道事業者など陸上で事業を行う事業者に向けた支援サービスを行う 事業部です。特にData Analytics & Providing Teamでは、ウェザーニューズ社内に蓄積された 気象データはもちろん、過去の支援内容に関する知見などをもとに、ビジネス課題の発掘や新 規コンテンツの作成などを進めています。 8
  5. Copyright©Weathernews Inc. Data Analytics & Providing Team 9 ミッションステートメント 『分析を通してデータを生成し、価値を生み出す』

    ◦ 「分析」 ▪ 気象データに限らず、非気象データ(ビジネスデータ)、運営知見なども分析対象とする ◦ 「データを生成」 ▪ 実況から展開される解析データ〜予測データをターゲットとする。 ▪ 分析レポートを作ることがゴールではない。 ▪ 予測に繋がるデータを生み出すことを目指す。 ◦ 「価値を生み出す」 ▪ 利益に結びつける部分も考える。データを作りっぱなしにしない。 • 新しいコンテンツを生み出して売上を増やす • 運営のデジタル化によりサービス提供原価を下げる ▪ 交通気象Planningとして陸・海・空のシナジーを効かせる
  6. Copyright©Weathernews Inc. Data Analytics & Providing Team 10 ミッションステートメント 『分析を通してデータを生成し、価値を生み出す』

    ◦ 「分析」 ▪ 気象データに限らず、非気象データ(ビジネスデータ)、運営知見なども分析対象とする ◦ 「データを生成」 ▪ 実況から展開される解析データ〜予測データをターゲットとする。 ▪ 分析レポートを作ることがゴールではない。 ▪ 予測に繋がるデータを生み出すことを目指す。 ◦ 「価値を生み出す」 ▪ 利益に結びつける部分も考える。データを作りっぱなしにしない。 • 新しいコンテンツを生み出して売上を増やす • 運営のデジタル化によりサービス提供原価を下げる ▪ 交通気象Planningとして陸・海・空のシナジーを効かせる 陸上気象事業部ではあるものの、陸上に閉じない仕事を スコープとしています 分析・モデリングで終わらせず、ちゃんとビジネスにする 顧客が必要とするものが気象データや精度などであるとは限らない 顧客の課題解決には何が必要なのかを熟考する
  7. Copyright©Weathernews Inc. ◦ 「分析」 ▪ 気象データに限らず、非気象データ(ビジネスデータ)、運営知見なども分析対象とする ◦ 「データを生成」 ▪ 実況から展開される解析データ〜予測データをターゲットとする。

    ▪ 分析レポートを作ることがゴールではない。 ▪ 予測に繋がるデータを生み出すことを目指す。 ◦ 「価値を生み出す」 ▪ 利益に結びつける部分も考える。データを作りっぱなしにしない。 • 新しいコンテンツを生み出して売上を増やす • 運営のデジタル化によりサービス提供原価を下げる ▪ 交通気象Planningとして陸・海・空のシナジーを効かせる 要するに 「気象会社」の 「データサイエンティスト」のチーム Data Analytics & Providing Team 11 ミッションステートメント 『分析を通してデータを生成し、価値を生み出す』
  8. Copyright©Weathernews Inc. 世界中の観測データ • 地上観測 • 海上気象 • 高層気象 •

    レーダー • 気象衛星 • 航空機データ • ウィンドプロファイラ 気象の解析と予報 普段みなさんが目にする気象予報は、「数値予報モデル」と呼ばれるコンピュータによるシ ミュレーション結果をもとに構築されています。 客観解析 数値予報 天気翻訳 数値予報に使われる格子(全球モデルの場合) 地球大気を、水平方向や鉛直方向に区切った もの 出典: 気象庁ホームページ コンピュータの中で気象 シミュレーションを行う 実際の各地の天 気に翻訳 14 数値予報結果 各種天気図などの予報資料 ガイダンス 各地の天気、降水、風などに 関する資料 すべての格子に値を与える 足りないデータはコンピュー タが計算して補う
  9. Copyright©Weathernews Inc. 数値モデルの種類 さまざまな気象現象に対応すべく、さまざまな数値予報モデルが用意されており、ウェザー ニューズではこれらを適した形に翻訳して顧客へ価値を提供しています。 数値予報モデル 発表機関 予報領域 格子間隔 予報期間

    更新頻度 得意なこと・強み GSM 日本(気象庁) 地球全体 20km 132時間 (5.5日間) 1日4回 先1週間程度の見通し 264時間 (11日間) 1日1回 MSM 日本(気象庁) 日本周辺 5km 39時間 (約1.6日間) 1日8回 先1~2日の 具体的な見通し 51時間 (約2.1日間) 1日2回 LFM 日本(気象庁) 日本周辺 2km 10時間 1日24回 強雨・強雪の発生見込み GFS アメリカ 地球全体 25km 240時間 (10日間) 1日4回 先1週間程度の見通し ECMWF ヨーロッパ 地球全体 9km 240時間 (10日間) 1日2回 先1週間程度の見通し OWN ウェザーニューズ 日本周辺や アジアなど 5km (一部2km) 96時間 (3日間) 1日8回 強雨・強雪、ごく弱い雪の 発生リスク精査 都市気象予測 モデル ウェザーニューズ 市街地 5m 8時間先 (30分毎) 1時間 建物の影響を受けた風の予測が 可能 16
  10. Copyright©Weathernews Inc. 数値予報も外れてしまう 数値予報も完璧な予報は難しく、今後の精度向上に向けた取り組みはもちろん、予報が難しい 状況下でも価値のある情報を提供することが求められています。 3 観測箇所に偏りがある 1 モデルは不完全 各種観測地点は満遍なく

    配置されているわけではない。 アメダス 約1300箇所 レーダー    20基 ゾンデ(高層)16箇所 ウィンドプロファイラ        33箇所 海洋ブイ    数基   など。(日本域のみ) 前提条件として1~3の誤差を含んで いるため、 予測計算が未来に進むほど、 誤差が蓄積し、不確実性が増大する。 (いわゆる「ブレ幅」) 数値予報モデルは、あくまでモデル。 実際の地球ではない。 実際の空気は立方体ではないし、地形も 実際ほど精緻にはモデル化されていない。 火山噴火や温暖化など、自然界で起きる ことの影響は未知な部分も多く、 計算式では全てを表現しきれない。 4 気象のカオス性 2 観測誤差 レーダーに映らない山影の雪雲、 建物に近くて全然吹かない風速計、 自動積雪深計に吹き溜まる雪…。 観測データが真の値とは限らない。 出典: 気象庁ホームページ 17
  11. Copyright©Weathernews Inc. 20 データサイエンスは総合的な能力が求められる 対峙している人の課題を解決するために、多岐にわたる能力が要求されます。特にデータ分析 プロジェクジェクトにおいては全開発工程において意見が求められるため、データサイエンス 力のみならずビジネス力やデータエンジニアリング力なども多く要求されます。 The Japan DataScientist

    Societyが定める定義より E データ エンジニアリング力 B ビジネス力 課題背景を理解し、ビジネス 課題を整理・解決に導く力 データサイエンスを意味のあ る形として捉えるようにし て、実装・運用する力 S データ サイエンス力 情報処理・人工知能・統 計学などの情報科学系の 知恵を理解し使う力
  12. Copyright©Weathernews Inc. 最終的な着地点: 検索トレンドと気象の相関 下記のような課題設定があった元で分析を検討することを想定してください。 24 分析テーマ • 検索トレンドと気象に対する相関の検証(PoC: 概念実証)

    方向性 • 上記を踏まえ「降雨量の増加に伴い「タクシー」と検索する人は増加する」という仮説を立て て、検証する 背景 課題 • 新たな気象情報の利用価値創造のために、気象と相関のある検索トレンドを見つけ出して欲しい • さらにその検索トレンドとの相関がわかることに対するビジネス的な提案をして欲しい どんなキーワードでも同様の分析ができる内容になっているので、 是非みなさんの趣味・興味でも考えて手を動かしてみてください!!
  13. Copyright©Weathernews Inc. pytrendsの使い方(地域指定) Google Trendsを用いて検索キーワードのトレンドデータを取得します。Google Trendsには APIが用意されており、 pytrendsというモジュールを用いてpythonから簡単にデータを取得で きます。 30

    ← 13は東京都の都道府県コード(国土交通省サイト)を指します もし設定しない場合には、検索者を地域で絞ることはされません 日本語のキーワードである場合、基本的に日本全国の検索トレン ドを指すと考えて差し支えないと思います
  14. Copyright©Weathernews Inc. pytrendsの使い方(取得されるデータ) Google Trendsを用いて検索キーワードのトレンドデータを取得します。Google Trendsには APIが用意されており、 pytrendsというモジュールを用いてpythonから簡単にデータを取得で きます。 31

    timeframeで指定した期間によって取得できるデータの 粒度が変わります • 7日以内の場合: hourlyのデータ • 270日以内の場合: dailyのデータ(左記の例) ◦ 変更される場合が多いようで、250日以内の場合 にdailyのデータになると考えた方が良さそうです • 上記以上: weeklyまたはmonthly 格納されているdateは集計日時の起点であり、次のレ コードの日時までのトレンド値が取得されます
  15. Copyright©Weathernews Inc. 取得するGSMデータについて 今回はGSMと呼ばれる気象庁が作成する数値予報モデルの結果(GRIB2ファイル)を用います。 こちらの気象庁のドキュメントに詳細はまとめられています。 ①初期値 : 00, 06, 12,

    18UTC(1 日 4 回) ②予報時間 : 84 時間予報(00, 06, 12, 18UTC)1 時間間隔 ③格子系 : 等緯度経度 ④格子間隔 : 0.2 度×0.25 度(格子数 151×121) ⑤領域 : (50N,120E)北西端、(20N,150E)を南東端とする領域 ⑥データ量 : 約 99MB/回×4 回、約 56MB/回×1 回=約 452MB/日 ⑦フォーマット : GRIB2 40 Z__C_RJTD_20230601000000_GSM_GPV_Rjp_Lsurf_FD0000-031 2_grib2.binのft=19~20の降水量を可視化
  16. Copyright©Weathernews Inc. z-scoreは平均が0に標準化された量なので、 正の偏りが強いほど高い値になる トレンドと予報の相関評価 降雨量が上昇するにつれ、z-scoreの平均値が上昇していることがわかります。z-scoreの平均 はデータが正の偏りが強いほど、高い値になります。 43 閾値 z-scoreの平均

    (閾値を超えるデータでの平均) 0 [mm/day] 0.02387 1 [mm/day] 0.18921 2 [mm/day] 0.30543 3 [mm/day] 0.33849 5 [mm/day] 0.49842 ※さらに順位相関や相互相関係数やグレンジャー因果性検定などを用いて相関を顕にすることも考えられる 単調に増加していることが確認できる 集計 予報の降雨量が高い場合に 当日に「タクシー」の検索トレンドが上昇する傾向が顕に。
  17. Copyright©Weathernews Inc. 雨が降ることでタクシー事業者とタクシー利用者が課題を抱えている。 ビジネスアイディア 例えば下記のようなビジネス適用が考えられます。 48 課題認識 タクシー事業者 タクシー事業者のシフト計画のために、天気予報 に基づくタクシーの需要予測

    タクシー利用者 ウェザーニュースアプリにて他社タクシーアプリ のタクシー予約機能へ飛ぶ広告の出稿提案 ※実際の業務では他にもさまざまな事柄を考えなくてはなりません。一方、たくさんのアイディアを提示できることが価値であることは事実です。 気象データ より精度の良い天気予報が 弊社では利用できます 需要予測 顧客からデータを提供しても らう必要がありますが、 モデリングする価値はあるこ とが今回示せたと思います ウェザーニュース アプリ (広告枠) 他社タクシーアプリ • 配車機能がある • 数時間後の大雨タイミングに 合わせた配車予約機能がある • 大雨事象が予報されるタイミ ングで広告を出稿し、配車予 約機能ページにジャンプさせ る
  18. Copyright©Weathernews Inc. まとめ 50 • 気象会社が扱っているデータがどんなものかわかる ✓ 数値予報データであるGRIB2データを扱っている • 気象データのハンドリングができるようになる

    ✓ pygribを用いることでGRIB2データを簡単に扱うことができる • オープンデータを用いて、自分の興味のある分析ができるようになる ✓ pytrendsを用いることで自分の興味のある検索キーワードと気象の相関を顕 にすることができるようになった • ビジネスへの適用がイメージできるようになる ✓ 分析を通して対峙する人の課題を明らかにできた ✓ 課題と共にビジネス適用を検討できた