Upgrade to Pro — share decks privately, control downloads, hide ads and more …

カルチャーとエンジニアリングをつなぐ データプラットフォーム

takegue
September 05, 2019

カルチャーとエンジニアリングをつなぐ データプラットフォーム

takegue

September 05, 2019
Tweet

More Decks by takegue

Other Decks in Technology

Transcript

  1. データ基盤つくらば穴二つ...
 分析者 / サイエンティスト / 機械学習 
 基盤 / インフラ


    なぜ私がデータ整備しないといけない のか データ利用の交渉だけで時間の大半を使う 前処理が9割 ビッグデータ(Excel) 再現できない分析 パイプライン長すぎ ... テーブル・ログがカオス 作ったものの誰も使わない箱物 使う人はたくさんいるのに 作る人がいない ... 自社サービスなのに クローリングする必要がある ワークフローがカオス 更新されていないテーブル (で、された分析たち) サービスの都合で壊れる Data Platform Meet up #1 他人のSQLは読めない
  2. 出典: How do Data Professionals Spend their Time on Data

    Science Projects? Data Platform Meet up #1
  3. これをお話しする人
 竹野 峻輔(@takegue) 
 Data Platform Meet up #1 Retty

    ← 修士(NLP; 機械翻訳)← 高専 
 
 Core Value @Retty: データアーキテクト 
 データの価値を最大化する仕組み/設計の実現 
 
 
 執筆活動:
 「優先度学習による推薦文からの見出し抽出」OR学会 
 「やってみよう! 機械学習 (Sotware Design)」 
 「試して学ぶ 機械学習入門 」他…

  4. Rettyここ数年の活動
 Data Platform Meet up #1 4,000 Query / 月

    46,000 Query / 月 自動化等の動き (2017/11/01) チーム発足 (2019/8/01) 自動化&仕組み化 色々スケーリング
  5. データが生む価値とは何か?
 Data Platform Meet up #1 データは大事だけど価値を産まない 得られた「データ」自身は 恣意的で偶発的ですぐ嘘をつく •

    作り手のコンテキストのバイアスも多分に含まれる。 • サービスにおいては同じデータが同じように生まれる時は二度と来ない。 • 様々な理由によりデータは嘘をつく 同じデータでも異なる決断が行われる どちらを選ぶか?: 「資産が10%の確率で10倍、1%の確率で100倍」
  6. データが生む価値とは何か?
 Data Platform Meet up #1 データは大事だけど価値を産まない 得られた「データ」自身は 恣意的で偶発的ですぐ嘘をつく •

    作り手のコンテキストのバイアスも多分に含まれる。 • サービスにおいては同じデータが同じように生まれる時は二度と来ない。 • 様々な理由によりデータは嘘をつく 同じデータでも異なる決断が行われる どちらを選ぶか?: 「資産が10%の確率で10倍、1%の確率で100倍」 一方で、公平ではある (≠ 客観性がある)。見る人全員に、ひとつの事実 (嘘も含む)を示す。
  7. データが生む価値とは何か?
 Data Platform Meet up #1 データの一番の価値は「データが言語であること」 - 英語は「みんなが話す」からこそ重要である。 -

    数式は「誰が話しても同じ」だからそ重要である 「言語」では関心によって、新しく「言葉」がうまれる。これが一番の効果。 - モンゴル語: 家畜に関する表現が細部化 - 日本語: 四季に関する表現
  8. 「カルチャー」がデータの価値を定義する
 Data Platform Meet up #1 • カルチャーとは価値基準 (外見) ◦

    難しい技術を使うことを価値にする組織もある ▪ 希少性が出るため社会全体で価値がでる ◦ 一方で、簡単な技術を使って、価値にする組織もある (参考: 枯れた技術の水平思考 ) • Rettyでもっとも尊ぶべき価値基準は「User Happy」 • 話せる言語にしていくのがデータプラットフォームのゴール
  9. 「カルチャー」がデータの価値を定義する
 Data Platform Meet up #1 とはいえ、現実は簡単にはうまくいかない 「カルチャー」が「データの価値」を決めるとわかったところで 「価値のデリバリ」には至らない なぜか?

    - 大量のデータを簡単に扱うことはそもそも難しい( 簡単にするだけでで時間の 9割を使う) - そして、そもそもどういう言葉を話したいか決まっていないからである - 英語を公用語にする難しさと、データで会話するようになる難しさは似ている - +話せる言葉を作る難しさが生じるためである
  10. 大量のデータを扱うのはそもそも難しい
 Data Platform Meet up #1 エンジニアリングとは実現水準(中身) ◦ 外見に中身は追いつかないといけない i.

    頭の中がお花畑でも悲観的でもよくない ii. 箱物(内政プラットフォーム ) にしてはいけない ◦ 現実には様々な制約が存在する i. サービス規模、ユーザ規模、アプリケーション規模 お金, 時間, 人の関心を含めた様々な制約。 ◦ そのなかで、早く・安く・うまいが目指せると良い i. 早く: なるべく早くデータを使える状態 ii. 安く: 大量のデータを転送するコストやキャパシティを適切に設定し最適化する iii. うまい: 正しいデータ。データから得られる価値を最大化する必要がある
  11. Data Platform Meet up #1 カルチャー
 エンジニアリング
 サイエンス 必要の発見: 発見のためには道具がいる。プロセスの科学

    ◦ 価値基準から「to be」を見出すことは、新しい道具を作る動機となる ◦ 良い道具を発明することにより優れた価値基準が追求できるようになる * 今もっている道具は虫めがね?それとも顕微鏡?それとも望遠鏡?
  12. Data Platform Meet up #1 カルチャー
 エンジニアリング
 デザイン 仕組みの意味化: カタチが決まるとヒトの動きも決まる

    ◦ 必要なことを自然と正しく行える; アーキテクチャ ◦ 変わりやすいものと変わらないものをちゃんと見極める
  13. データ基盤つくらば穴二つ... (再掲)
 分析者 / サイエンティスト / 機械学習エンジニア 
 基盤開発者 /

    インフラ 
 なぜ私がデータ整備しないといけない のか データ利用の交渉だけで時間の大半を使う 前処理が9割 ビッグデータ(Excel) 再現できない分析 パイプライン長すぎ ... テーブル・ログがカオス 作ったものの誰も使わない箱物 使う人はたくさんいるのに 作る人がいない ... 自社サービスなのに クローリングする必要がある ワークフローがカオス 更新されていないテーブル (で、された分析たち) サービスの都合で壊れる Data Platform Meet up #1 他人のSQLは読めない
  14. 「データの品質」は「データエンジニア」だけの関心か?
 Data Platform Meet up #1 • 「分析の品質」: Garbage In,

    Garbage Out ◦ 「データの良し悪し」 は分析の品質の重要な要素 ▪ 優れた料理人は手に馴染む良い道具 で良い食材を使って良い料理を作る • 料理人に畑を耕させるのは違う。この線引きは頑張る • リソース効率ではなくフロー効率に着目する ◦ チームで最大化したいのは「データ出しの量」ではない ◦ 属人化した分析もまたサイロ化をうむ ; 優れた人の寄せ集めだけでもダメ (チームの必要性) Rettyでのひとつの答え → DWHを「分析者のプロダクトにする」
  15. データプラットフォーム 〜 分析者にとっての「プロダクト」にする Design Build Build Design from The Architect's

    Handbook of Professional Practice: Architect-Led Design-Build こうではなく こう ナレッジを持つ人がプラットフォームにコミットする
  16. Rettyでの現状の取り組み • 「50%の時間を削る」ではなく「 50%の時間をインサイトがたまる時間」にする • インターフェースをSQLだけ、シンプルに絞る ◦ DWHへのETLのELぐらいに止める。頑張りすぎない ◦ 大事なViewにテストを書く:

    SQLでテストを書く → 分析者の仮定がコードになる ◦ そのためのツール整備、交通整理を行う ダッシュボードツールやスプレッドシートなど • 少人数の派遣型の分析の取り組みによりドメイン知識がだんだんとチームに集約 ◦ そして、そのナレッジを持つ人がプラットフォームにコミットする (Knowledge As Code) • プロダクトの知見をおおよそチーム・基盤に集約ができてきた ◦ 分析者をその観点や指標の推移をすぐに知ることができる (時間がないので手短に )
  17. 発表のまとめ
 1 Data Platform Meet up #1 ドメインを持つもの人がプラットフォームの最前線で開発する
 2 カルチャー(価値基準)

    と エンジニアリング(実現水準)をつなげる
 ヒト・モノ・コトのつなぎ目に価値は生まれる 
 安易な分割はしない; 
 前線で全ての知識が集まるようにする;そのための交通整理・整備を行う 
 Rettyのプラットフォームとしての取り組みの考え方を紹介