2020/5/29(金)に開催したExploratory データサイエンス勉強会#13のレイ・フロンティア株式会社のご登壇資料です。
GPSデータを使った人の移動の可視化レイ・フロンティア株式会社久保 翔太
View Slide
自己紹介• ソーシャルゲーム開発(プログラマ)• 位置情報サービス(プログラマ)• ソーシャルゲーム運営(データアナリスト)• ギャル向けEC(データアナリスト)• 位置情報サービス(データアナリスト) ←今ココ
会社紹介
アプリ紹介
位置データの特徴lat lon35.68574 139.76438935.68577 139.763580335.67529 139.772491535.67607 139.769577一人あたりのデータ量が多い数字だけではデータの特徴が分かりづらい
主な業務• BtoBでの分析データ提供• ブログを通じた分析データの社会への還元• 社内データを分析して新プロダクトの開発
Exploratory導入前の分析ワークフローデータアクセス データの加工 共有方法データの可視化
データアクセス• セキュリティの要件上ローカルにCSVを置きたくないためDBのコネクタが必要。(メモリ上ならokというポリシー)• Athena(ODBC)をサポートしているBIは少ない
データの加工• Excelだと加工の過程が不明• 間違いが混入している時に出戻りが大きい• シニアメンバーがチェックする時に確認しづらい
データの可視化lat lon35.68574 139.76438935.68577139.763580335.67529139.772491535.67607 139.769577地理情報は生データでは規則性を見出しづらい可視化するとわかりやすい
共有方法• PowerPoint• データを二次利用しにくい• Google spreadsheet• Excelより表現力に劣る• 共有の手続きが面倒
なぜExploratoryか?• AWS Athenaへのコネクタがある• ローカルにCSV置いておくとポリシー上不都合• デフォルトの色合いがきれい• Excelなんかのグラフはどぎつい• データ加工の過程が見れる• シニアメンバーが確認する時に便利• 地図描画が使える• 市町村レベルの多角形が描ける
Exploratory導入後のワークフローワンストップデータアクセス データの加工 共有方法データの可視化
事例:人流密集地域の発見
モチベーション• COVID-19の警戒区域情報を自治体に提供して、密集施設に人が行かないようにしたい→勘に頼らずデータドリブンな施策決定の手助けに
緯度、経度位置情報の例
素直にプロット→素直にプロットする→密度がわからない
ヒートマップ→赤すぎるヒートマップの利点:密度が可視化される→まだ赤すぎてどこが本当に密集しているのかわかりにくい
濃さを調整
「パラメータ」機能で時間帯ごとに切り替え可能に
時間帯別の比較
ヒートマップまとめ• 密度を可視化する事によって、街の中心部のような自明な密集地以外の警戒地点が明らかに
事例:繁華街にはどこから集まっている?
モチベーション• 緊急事態宣言のちょっと前のはなし• 繁華街(歌舞伎町)に集まっている人がどこから来ているかを調べて人の傾向の理解に繋げたい
歌舞伎町をポリゴンで指定
テーブルのプレビュー
コロプレス(塗り分け)図県別 市区町村別
人口多いところから来た人は多い→当たり前
ちょっとひと工夫:• 人口比で出したい
データカタログからインポート
人口データと結合
結果• 新宿以外でどこから来ている人が多いかを可視化できた
まとめ• ワークフローの変化によるメリット• 一本化した事による作業時間のオーバーヘッドの削減• ツールごとの情報ロスがなくなった事による分析品質の向上• Exploratoryはコーディング無しで十分な品質の可視化が可能