Upgrade to Pro — share decks privately, control downloads, hide ads and more …

集計屋さんからの「前向き」な脱却 アナリストとしての立場でやったこと/20200514

集計屋さんからの「前向き」な脱却 アナリストとしての立場でやったこと/20200514

第3回 データアーキテクト(データ整備人)を”前向きに”考える会
https://analytics-and-intelligence.connpass.com/event/174369/presentation/

3a34747bce8091b72632721156d1f487?s=128

NagaokaShohei

May 14, 2020
Tweet

Transcript

  1. 集計屋さんからの「前向き」な脱却 アナリストとしての立場でやったこと 第3回 データアーキテクト(データ整備人)を”前向きに”考える会 2020/5/14 SMN株式会社 長岡 彰平

  2. 所属会社紹介 SMN株式会社 ソニーグループのマーケティング・テクノロジー会社 広告配信DSP「Logicad」をはじめ マーケティングに関する様々なソリューションを展開 https://www.so-netmedia.jp/

  3. 自己紹介 名前 長岡 彰平 (twitter: @nyangao1212) 略歴 2012年 ソニー入社 民生用カメラレンズの光学設計部署に配属

    主に歩留シミュレーションや工場のデータ解析を担当 2016年 社内募集でSMN株式会社に異動 ⇒ データマイニング課でアナリストとして働く 免責事項 本資料はあくまで個人の見解であり、所属組織の公式的な見解ではありません
  4. メンバー アナリストで構成 自分も含めCS系エンジニア出身者はいない 主な業務内容 Logicadの改善・企画に関する分析 意思決定サポート 要望に応じたデータ集計・加工 データマイニング課(dm課) 紹介 アナリストとしての本業では無いが業務としては存在

    ⇒本資料では「集計屋」と呼称 アナリストとしての役割 ??? 以降、データマイニング課の「集計屋」業務に 関する取り組みについてお話します
  5. アジェンダ •「集計屋」の役割 •「集計屋」を続けた結果起きたこと •「集計屋」から脱却するためにやったこと • まとめ・反省

  6. 「集計屋」の役割

  7. ネット広告ビジネスフロー上の「集計屋」の立ち位置 配信ログ 企画 技術 R&D 営業・運用 広告主 ad 商談 配信設定

    戦略立案 要件定義 配信制御 機械学習 Hadoop基盤構築 「集計屋」はビジネスフローの 本流には登場しないが・・ 集計屋
  8. ネット広告ビジネスフロー上の「集計屋」の立ち位置 配信ログ 企画 技術 R&D 営業・運用 広告主 ad 間接的な部分では需要がある 集計屋

    SQL A広告主の〇月×日分の 配信ログ出して 新商材の売上を週次で 見たい 媒体側で〇〇の変更があっ たから影響度を見たい
  9. まあ、他に対応できる部署も無いし、 大した手間じゃないからやるか dm課

  10. 気が付いたらこうなっていた 集計依頼増える 分析工数逼迫 アナリストの作業者化 他部署からの「彼らは集 計屋だ」という認識強化 アナリストに戻るために「集計屋」から脱却することを決意 ・・とはいえ、分析と集計は表裏一体 集計業務を全て廃止することは現実的ではない

  11. アナリスト視点で集計業務を整理 分析が介在 する余地 スケール アナリストとして 注力すべき領域 他部署の サポート 無数の小タスク 大

    小 大 小 時間かけても無駄 そもそも手を付けたら負け 小タスクの積み上げで業務負荷が上がっていた ⇒ この領域を効率化することに 目指すべきはここ! ここの対応で 疲弊・・
  12. 「無数の小タスク」への対応 ケース1: 報告系 ある程度形式が決まっていて、 依頼に対してデータさえ出力すれば対応が完了するケース ケース2: そういう業務フローだから・・系 依頼をトリガーにして、集計を含め複数の作業が発生するケース 結果を出力するだけでは業務が完了しない 大枠として下記2種類に分けられた

  13. 集計屋からの脱却 ケース1「報告系」

  14. ケース1「報告系」 Hadoop 依頼者 dm課 GUI + SQL 市販統計解析ソフト SQL メール

    csv csv csv 特徴 ・都度依頼者から集計値を求められる ・ある程度型が決まっているが、WHERE句の条件等のパラメータは毎回異なる やろうとしたこと ・頻出パターンの定型化&自動化 A社のログ ほしい
  15. ケース1「報告系」 課題 ・自動化以前に何をやっているかよくわからない処理が多数存在 やったこと 「集計を1回のSQLで済ませる」ように書き直した ・マスターデータをHadoop環境にもコピーしてもらった ⇒ ログデータとマスターデータをJOINできるように ・SQLを真面目に勉強した ・環境下で使える関数を一通り調べた

    ・WITH句を使うようにした ・JOIN の結合条件を工夫した ・簡単な行間比較が書けるようになった ・WINDOW関数 ・同じtable同士のJOIN イメージ図 市販統計解析ソフト
  16. ケース1「報告系」 依頼者 市販統計解析ソフト 課題 ・依頼者~Hadoopをつなぐインターフェースの欠如 扱えない Hadoop 定型1 定型2 定型3

    パラメータ SQL 出力 何とか定型化はできたが・・
  17. ローカルPC ケース1「報告系」 課題 ・pythonからHadoopへの繋ぎ方がわからない ・ローカルPCの電源切れない ・その他わからないことが多すぎる Hadoop Google Sheets ?

    依頼者 今流行りのpythonとやらを使ってGoogle Sheetsの中身を読み込めたぞ! これでインターフェースが作れる! あれ、でもどうやってHadoopにSQL投げれば良いの・・? dm課 ?
  18. エンジニアに相談してみた やってもらったこと ・R&Dチームのpython環境を使わせてもらった 彼らが開発した便利ライブラリも使わせてもらった ・python勉強会を定期的に開催してくれた 我々がやったこと ・該当業務を自動すべくpythonでコードを書いた 奇特なR&Dチームの方が助けてくれた

  19. 分析用サーバー ケース1「報告系」 ・・ 解決!! Hadoop 依頼者 Google Sheets Google Forms

    SQL フォーム 入力 import hadoop_tools import gsuite_tools ・ ・ automate_task.py 最終的にこうなった 該当業務を完全に自動化することができた 意外なことに依頼の総量は自動化後増えた (今までは遠慮?していた依頼者がいたのかもしれない)
  20. 集計屋からの脱却 ケース2「そういう業務フローだから・・」

  21. ケース2「そういう業務フローだから・・」 特徴 ・依頼をトリガーにして、集計を含め複数の作業が発生する ・もはや集計依頼ですらない Hadoop DB 例 設定画面 課題 多いので次ページ以降に

    a社の設定を Aに変えて 1:依頼 2:SQL 3:集計結果 4: 集計結果を登録 5: バッチ処理 6: DB に反映されたか見に行く 7: DB反映後 完了連絡 依頼者 dm課
  22. ケース2「そういう業務フローだから・・」 課題1 DBへの反映状況を都度確認する煩雑さ Hadoop DB 設定画面 6: DB に反映されたか見に行く 依頼者

    まだかな・・ dm課
  23. ケース2「そういう業務フローだから・・」 課題2 集計クエリが重い SELECT hoge_id FROM 1日100億レコード超の巨大table WHERE それなりに長い期間 ・

    ・ ・
  24. ケース2「そういう業務フローだから・・」 課題3 パターンが多い 設定A 設定B 設定Y 設定Z ・ ・

  25. ケース2「そういう業務フローだから・・」 課題4 フォーマットが悪い ⇔ 依頼が雑 の悪循環 ※誇張してます あくまでイメージです 依頼内容をスプレッドシートで管理していたが、 フォーマットとして上手く機能せず、依頼内容も日々亜種が生まれる状況

  26. ケース2「そういう業務フローだから・・」 課題5 改善したいけどわからないことだらけ Hadoop DB アナリスト これ、中身どうなって いるんだろ・・ こっちはもっと わからん・・

    SQL書き直せばもう少し 処理軽くなるかな・・ 何から手を付 けよう・・
  27. エンジニアに相談してみた やってもらったこと ・該当業務向けのアプリを開発してもらった ・仕様決め ・インターフェースとなるWeb画面の開発 ・内部の処理に関連する開発 我々がやったこと ・今までの作業内容をドキュメント化 ・要望出し ・SQL見直し

    ・応援 奇特な 分析基盤チームの方が助けてくれた
  28. ケース③「そういう業務フローだから・・」 解決! 依頼者 Hadoop DB App シンプルかつ イケてるUI 中間テーブル処理を挟んで クエリ負荷軽減

    入力に応じて条件分岐 DB登録完了後自動通知 dm課 アドホックにSQLを書 く必要がある場合のみ 作業発生 最終的にこうなった 作業頻度が劇的に減った 依頼者にアンケートをとったところ 「フローがわかりやすくなった」と肯定的な意見多数
  29. ケース③「そういう業務フローだから・・」 懺悔 局所的な効率化 自分で手を付けられそうな部分に関して は局所的な効率化を進めていた パターンEとGの一部の工程は python 使って効率化できそうだぞ! 結果的に処理が複雑化 アプリの仕様決めが難航・・

    もっと早く相談するべきだった
  30. まとめ

  31. まとめ ▪課題 アナリストに集計依頼が殺到し、 本来の分析業務に時間を割けない状況に陥った ▪やったこと 自由度の小さい集計業務の効率化を進めた ▪障壁 自身の技術的なスキル不足 ▪突破口 エンジニア達の協力

  32. まとめ 続き ▪結果 膨大な時間を節約することができた ⇒少しずつ分析寄りの業務で成果を出せるようになってきた 集計依頼者から見ても、データへアクセスしやすくなり 活用頻度が向上した メンバーの技術スキルが向上した

  33. とはいえ・・ 何故このような状況に陥ったのかは反省の余地がある 教訓①自分達だけで解決しようとしてはいけない 教訓②でも自身のスキルを伸ばすことも大事 教訓③早めに手を打つ そもそもアナリストとしての成果が認められていれば こんなことにはなっていないのでは? という思いもある ⇒ 引き続き頑張ります

  34. ご清聴ありがとうございました