データ分析の再現性を高くするためのExploratoryの活用法

データ分析の再現性を高くするための Exploratoryの活用法内容は個人の見解ですので所属する組織とは関係ありませんまた、効用には個人差があります

自己紹介と業務概要 • 名前矢通康弘＠株式会社フォーバルテレコム • 事業概要おもに小・中規模事業者向けの通信・通話サービス提供や販売店等が提供する保守サービス等の一括請求サービス、最近は電力小売事業やサブスク型サービスの受注管理システム提供など
• やってきたこと警備員、工事現場監督（補助）、 DTP、LAN構築、PCヘルプデスク ↑前職 ↓現職通信サービス企画、データ集計、業界団体の委員会メンバー、最近は主にBI関係、Python、BigQueryとかを使って事業状況を詳細に把握するためのデータ分析基盤などの仕組みづくりに注力

可視化蓄積加工データ処理業務の概要社内LAN ファイルサーバ BigQuery DataPortal 情シス管轄データ
1回で数百万～数千万レコード規模電力の使用量データ（30分値）や、通信サービスの請求明細から契約数・利用動向などを集計、可視化 Web-API FTP 1回で数十万万レコード規模定型レポートの社内共有インサイトを得るためのアドホックな分析

一般的な分析の種類と取り組み方 • アドホックな分析 →チャートやアナリティクスに取り組むときはこの考え方、これをやっている時はひたすらアウトプットだけを追求（ある意味、手段は問わない） • 定型的なレポート →ここに落とし込む時は徹底的な効率化を追求、定期的な処理として運用する際のラングリングはこれに該当

定型レポートの運用においては再現性の確保が重要 • いつでも、誰でも同じ結果が出せる • それぞれに再現可能性があればその中で細かく改善していける • その時に「手をいれやすい」作り方にしておくのがよいこのへんを参考にしました→https://www.igaku-shoin.co.jp/paper/archive/y2020/PA03357_03 方法の再現可能性
同じデータから同じ方法を用いて同じ結果が得られること結果の再現可能性異なるデータ群に同じ方法を用いて同じ結果が得られること推論の再現可能性異なるデータ群や、異なる手法から同じ結論が導き出せること

ラングリングにおける再現性の確保元となるデータ DWH ↑ ここは値だけでなく形もばらつく😢 ↑ 同じ型のアウトプット可視化ここできちんと
整形するのが大事完成形のデータラングリング

再現性確保のために心がけていること 1. 確実に同じ入力を作る • データタイプの自動認識は基本OFF • 入力データはできるだけExcel形式を避ける 2. 徹底的な工数整理 •
最初にやることの順番を決める • ステップをできるだけ減らす • 効率のよい処理の仕方を考える 3. 可読性 • フォルダを活用してデータフレームを整理 • 適宜ブランチを作成 • 似たような処理はまとめる • コメントをつける 4. アップデートへのキャッチアップ

１．確実に同じ入力を作る毎回毎回ソースデータの内容を確認しながら運用するのは負荷が高いし、再実行時のエラーはリカバーするのがたいへんなのでできるだけ避ける

自動認識を避けたい理由１日付型自動認識させるとこうなってしまう

自動認識を避けたい理由２コード型自動認識させるとこうなってしまう

↑一個だけ０落ちがあった自動認識させるとこうなる ↓文字型になってしまったこのような型のブレはエラー発生の元となる自動認識を避けたい理由３ CSV

1. インポート時は自動認識のチェックを外す解）データタイプはステップで変えるチェックを外すこれにより読み込み時点ではすべてcharacter型で統一

2. 列ヘッダメニューを使って型を変える解）データタイプはステップで変える

3. Excelの日付セルは一度数値に戻してから日付型に変える解）データタイプはステップで変える数値型に変わったものを日付に変換

Excelを避けたい理由１ • セル結合とか列・シート増減の恐怖 2段ヘッダーの場合、列名がわかりにくくなる ※元のデータで部署が追加・変更されていたりしても捕捉できない恐れがある Exploratoryのシート指定はインデックスの数値で行われるので、次回のデータでシートが挿入さ
れていたりすると予期しない読み込みにつながる

Excelを避けたい理由２ • 人手で修正しやすいからデータが改変（悪）されてしまうその列が読み込み対象じゃないのに空白行だけは増える

Excelを避けたい理由３ • 元ネタcsvのコード情報の0落ちとかダブルクリックで開いたため数値型になってしまった特定のセルを編集して数値型にしてしまった

Excel自体が悪いわけではない、が… • ソフトウェア自体が悪いわけでは全くありません • 小学生の宿題からデータサイエンス、果てはプログラミングから芸術に至るまで幅広く使える素晴らしいツールだと思っています • 使い方というかデータとしての扱い方の問題です

解）Excelの使いどころ • ファクトテーブル（集計対象となる数値データなどが入っているもの）はできるだけExcelで扱わない →情報システム等への抽出依頼もできるだけcsvを要求する • データはできるだけロング型にするような文化の醸成 • マスタのような、形が決まっていてあまり変更がないものはメンテナンス性のよいExcelもありかもしれません

２．徹底的な工数整理こまかい改善の繰り返し

ステップを減らす、処理効率を考える • 必ず最初にやること • 型定義 • 列名の変更 • 列の削除あとからステップを差し込むのは勇気がいるので、このあたりはほぼ
必ず入れておく • 処理効率を考える • グループ化した場合は計算が終わったら必ず解除する • 複数ステップの処理が、スクリプトやカスタムRコマンドで１ステップにできる場合はそちらも検討 • データフレームをエクスポートして使う場合のTips

最初にやること１…型定義その１ • 一列ごとに変える場合はできるだけ一つのステップにまとめる • このやり方だと変換先が違う型であっても１ステップにできる

最初にやること２…型定義その２ • 複数列を同じ型に変える場合はまとめて処理するのも◦ • ただし変換先は一つの型にしかできないのに注意複数列を選択し、列ヘッダメニューからまとめて変換変換先は一つの型に限定される

最初にやること３…列名の変更 • 読み込み時のデータにおけるヘッダ名が一文字でも変わると、後続のステップが回らないので、あらかじめ変更できるようにしておく →抽出担当者のSQLの書き方でヘッダの名前が変わるとかよくあるんです。。。 •
できるだけ最初の方でやる • データベースから抽出したデータはヘッダがアルファベットだったりするので日本語に変えておくなどするとプロジェクト内で理解しやすいまとめて変更できるのは(・∀・)ｲｲ!!

最初にやること４…列の削除その１ • データは少しでも少ないほうが処理が早くなるし、見直したときも理解しやすくなる • ExcelやAccessと違って、必要になったときも復活させやすいので勇気を持って削除しておきましょう削除法その１）インポート時にチェックを外すチェックを外す

最初にやること５…列の削除その２ • 削除法その２ステップで削除

「インポート時の削除」or ステップで「残す」「取り除く」 • 事業環境等の変化により元データのカラムが増えるなどがあり得る • ステップの「取り除く」でやっておくと、このときの変化を捕捉しやすい（新しく増えたカラムが処理の中に割り込んでくるため） •
逆にもう完全な定型作業で他の活用はないことがわかっているなら、インポート時の削除やステップの「残す」を使ったほうがエラーにならないという考え方もある

処理の効率化 • グループ化した場合、その計算が終わったら必ずグループを解除する • グループ化はわりと重い処理だと思う • 複数ステップで実現できることがスクリプトやカスタムRコマンドにより１ステップにできるならそちらも検討 •
最近のお気に入りは複数の「値」列を一気にピボットできる、 tidyr::pivot_wider https://speakerdeck.com/yutannihilation/tidy • データフレームをエクスポートして別のところで使う場合、最後にもう一度型定義や列名を調整しアウトプットの一貫性を保つ • 小数の桁数調整 • 利用するシステムに合わせて列名をアルファベット表記に変えるなど

• よくあるケース Advanced：パラメータ変更をトリガにした取り込みデータフレームAに取り込むデータフレームBに取り込む年月ごとにフォルダが分かれているこの場合の月次更新をUIでやろうとする場合、それぞれの
データフレームで読み込み元フォルダの再指定が必要になる

Advanced：パラメータ変更による取り込み • 取り込みを以下のような形にすると、パラメータyyyymmを変更した時にそれが関係するすべてのデータフレームが更新される

Advanced：数値列をまとめて小数点２桁に揃える

３．可読性と気付きの仕掛け１ヶ月後の自分は別人だと思って、わかりやすく整理する

フォルダの活用と命名ルール、ブランチ同じ種類のデータはフォルダで整理同じような処理がまとまるように名前をつける、後から名前を変えるとJOINとかでエラーの元なので命名ルールが重要手作りの属性マスタを利用する際は、アンチ結合でマスタに存在しないデータの有無がチェックできるブランチを作る一つのデータフレームのステップの流れの中に何でもかんでも詰め込むと、
あとで何をやっているのかがわかりにくくなるため、集計の種類により適宜ブランチを作成し、あとでメインのデータフレームに結合する

ステップの整理（類似処理をまとめる）カラムの定義に関す
る処理カラムの値に関する処理属性情報を結合する処理

コメントをつける • 何をやっているか、どういう意図でやっているかを書く • 基本的にステップの名前は変えず、コメント欄に書く • ただしカスタムRコマンドを使う場合はステップの名前で
何をやっているかを書く

４．アップデートへの対応 • 方法の再現性はアップデートで崩れてしまう場合もある • しかし機能向上による生産性向上はぜひ取り入れたい • 個人的に「条件を設定して置換」のUI化はツボ • Exploratory Hourやオンラインセミナーでキャッチアップを！
• データカタログが用意されている場合はハンズオン的に取り組んでみるとさらに効果的

まとめ 1. 定期的な運用に落とし込むというのは、究極的にはゼロオペレーションを目指すということ →リロード一発、それ以外は何もしなくても終わらせる、ぐらいの「めんどくさい」の感性が大事 2. 一度できたら完成、ではなくそこからの（エンドレスな）改善 →結果として、見やすく、わかりやすく、エラーが起きにくいロバストな仕組みになっていく
3. ラングリングにおける後顧の憂いをなくすことで前（分析）を向いて進むことに集中できる →考え、作る、そのための時間を創造する一助になれば幸いです

データ分析の再現性を高くするためのExploratoryの活用法

データ分析の再現性を高くするためのExploratoryの活用法

Ikuya Murasato

More Decks by Ikuya Murasato

Other Decks in Business

Featured

Transcript

データ分析の再現性を高くするための Exploratoryの活用法内容は個人の見解ですので所属する組織とは関係ありませんまた、効用には個人差があります

可視化蓄積加工データ処理業務の概要社内LAN ファイルサーバ BigQuery DataPortal 情シス管轄データ

ラングリングにおける再現性の確保元となるデータ DWH ↑ ここは値だけでなく形もばらつく😢 ↑ 同じ型のアウトプット可視化ここできちんと

再現性確保のために心がけていること 1. 確実に同じ入力を作る • データタイプの自動認識は基本OFF • 入力データはできるだけExcel形式を避ける 2. 徹底的な工数整理 •

１．確実に同じ入力を作る毎回毎回ソースデータの内容を確認しながら運用するのは負荷が高いし、再実行時のエラーはリカバーするのがたいへんなのでできるだけ避ける

自動認識を避けたい理由１日付型自動認識させるとこうなってしまう

自動認識を避けたい理由２コード型自動認識させるとこうなってしまう

↑一個だけ０落ちがあった自動認識させるとこうなる ↓文字型になってしまったこのような型のブレはエラー発生の元となる自動認識を避けたい理由３ CSV

1. インポート時は自動認識のチェックを外す解）データタイプはステップで変えるチェックを外すこれにより読み込み時点ではすべてcharacter型で統一

2. 列ヘッダメニューを使って型を変える解）データタイプはステップで変える

3. Excelの日付セルは一度数値に戻してから日付型に変える解）データタイプはステップで変える数値型に変わったものを日付に変換

Excelを避けたい理由２ • 人手で修正しやすいからデータが改変（悪）されてしまうその列が読み込み対象じゃないのに空白行だけは増える

Excelを避けたい理由３ • 元ネタcsvのコード情報の0落ちとかダブルクリックで開いたため数値型になってしまった特定のセルを編集して数値型にしてしまった

２．徹底的な工数整理こまかい改善の繰り返し

ステップを減らす、処理効率を考える • 必ず最初にやること • 型定義 • 列名の変更 • 列の削除あとからステップを差し込むのは勇気がいるので、このあたりはほぼ

最初にやること１…型定義その１ • 一列ごとに変える場合はできるだけ一つのステップにまとめる • このやり方だと変換先が違う型であっても１ステップにできる

最初にやること５…列の削除その２ • 削除法その２ステップで削除

• よくあるケース Advanced：パラメータ変更をトリガにした取り込みデータフレームAに取り込むデータフレームBに取り込む年月ごとにフォルダが分かれているこの場合の月次更新をUIでやろうとする場合、それぞれの

Advanced：パラメータ変更による取り込み • 取り込みを以下のような形にすると、パラメータyyyymmを変更した時にそれが関係するすべてのデータフレームが更新される

Advanced：数値列をまとめて小数点２桁に揃える

３．可読性と気付きの仕掛け１ヶ月後の自分は別人だと思って、わかりやすく整理する

ステップの整理（類似処理をまとめる）カラムの定義に関す

コメントをつける • 何をやっているか、どういう意図でやっているかを書く • 基本的にステップの名前は変えず、コメント欄に書く • ただしカスタムRコマンドを使う場合はステップの名前で