Upgrade to Pro — share decks privately, control downloads, hide ads and more …

[ミラティブチームからお手紙] 1人目のデータ分析基盤エンジニアを真剣に探しています.pdf

[ミラティブチームからお手紙] 1人目のデータ分析基盤エンジニアを真剣に探しています.pdf

まだみぬ1人目のデータ分析基盤エンジニア向けに、お手紙をしたためました。
まずはお気軽にご連絡ください!

▼ 採用ページ
https://www.mirrativ.co.jp/recruit/

B248ac938d3f455da599cec43b67a1b6?s=128

mirrativ

June 14, 2019
Tweet

Transcript

  1. ミラティブ 1人目の データ分析基盤エンジニアを 真剣に探しています 2019.6 Mirrativ, Inc. © Mirrativ, Inc.

  2. 求む、データの海に描く海図 はコミュニティサービスなので、感性や感覚で動いているのではないか、とどうも思われがちです。た だ、実際には、データの価値を強く信じ、徹底的なデータドリブンで運営されているプロダクトです(まだまだ、 発展途上ながら。)。 ユーザーの観察から生まれるあらゆる感性や、直感に基づく仮説・アイデア、そこからの素早い行動を尊重し つつも、「施策を必ずデータで即日振りかえる」こと(できれば即時)はすべての企画・施策の必須事項としてい ます。 「 して遅くとも翌朝、目覚めてすぐに結果が気にならない施策はやらなかった方が良い施策だ」と思って いたりします。

    には、人がスマホを触りながら、喜怒哀楽を表現し、それを第三者と通じあわせる過程の、とても貴重 なデータが大量に蓄積され(え)ています。それらをどう溜めるか、どう活用するか、は、経営における最重要 課題です。 他にはない大量のデータの海に、ある哲学を持って描かれた海図のような、芯のある分析基盤をぜひ作りに 来てください。 赤川 のアバター
  3. ミラティブのミッションとプロダクト

  4. わかりあう願いをつなごう 「わかりあうこと」はすべての人の普遍的な願い、 「なかなかわかりあえないこと」は人類の永遠の課題だとミラティブでは考えています。 話すこと、創ること、動くこと。 人のあらゆる営みには「こうありたい」「こうあってほしい」という意志と願いが宿っていると信じます。 すべてのコミュニケーションはその願いの発信です。 それは時に届かず、マクロでは戦争が、ミクロでは孤独や自殺といった課題が、 このテクノロジーが発達した現代でも残り続けています。 それぞれの願いを、尊重しながら、お互いにつないでいくこと。 そしてわかりあえる瞬間を少しでも増やすこと。

    その連続で、世界中の幸せの総量をもっと増やしていける―私たちはそう信じています。
  5. ゲーム配信プラットフォームとしての ミラティブはゲーム配信プラットフォームを提供しています。 コンセプトは 友達の家でゲームしている感じ です。 友達の家でゲームしている時、ボスになるとみんなでハラハラした、全滅す るとみんなで悔しがった。自分はコントローラー握ってるわけじゃないのに。 その感覚をスマホで体験できる、そんなプラットフォームです。 ゲーム中は、いろんな感情が目まぐるしく変わります。 楽しい・悔しい・次は勝ちたい・助けてほしい・悲しい、数え上げればキリが

    ありません。そんなわかりあう願いをつなぐプラットフォームです。 ユーザーのみなさまに支えられ、現在は日本最大のスマホゲーム配信プ ラットフォームとなっています。
  6. アバター配信プラットフォームとしての また、 はアバター配信プラットフォームとしての一面もあります。 の中で自分のアバター エモモ を作成でき、エモモ画面で配信を行 うことができます。顔を見て話すという言葉があるように、「今日こんな楽し いことがあった!」みたいな感情のわかりあいをつなぐためには、顔を見せ ることは重要だと思っています。 単純に視覚情報が増えるので情報密度が増えると

    いう側面もあり でも、顔を出して配信するのは恥ずかしいという人も多いのが実情です。そ こで私たちは、エモモを開発しました。自分の分身を 上に作り、エモ モを通じて自分の感情を発信する。そんな世界が広がりつつあります。 雑談中 ゲーム中
  7. グローバルプラットフォームとしての 「わかりあう願いは世界共通」と考えており、 は早期から多言語展開 を行ってきました。現在は、日本語版・韓国語版・英語版を展開しています。 年にはいり、韓国でもアプリ運営を強化しています。韓国語・日本語の バイリンガルが多数在籍し、韓国のデータを見ながらアプリ運営やイベント 運営を行っています。 今後は、韓国だけではなく、アジア圏を中心にこれからも積極的なグローバ ル展開を行っていく予定にしています。 https://jp.techcrunch.com/2019/02/18/mirrativ-korea/

  8. 右肩上がりで成長中のスタートアップとしてのミラティブ アクティブユーザーは右肩上がりで成長中 WEB・雑誌・新聞・TVなど取材多数 ユーザーのみなさまに支えられて、アクティブユーザー数は右肩上がりで伸びております。 また、WEB・雑誌・新聞・TVなど多数取材いただいており、様々な方にご注目いただいております。 引用:https://forbesjapan.com/articles/detail/23909 (左)    2019年1月7日日経MJ (右) (グラフは昨年1月までですが、昨年伸び続けて既にこの時の倍以上になっています…)

  9. ミラティブのデータ分析基盤はここが面白い! 〜こんなデータ扱うよ編〜

  10. データ活用の前に大事な話 これからミラティブのデータ分析の詳細を話していきますが、 ミラティブでは改正個人情報保護法を遵守してデータ分析を行なっております。 例ですが  ・個人情報はデータ分析基盤に残しておりません  ・データ分析業務を他法人に委託しておりません  ・データは第三者に提供いたしません のような運用をしております。 次ページ以降でデータ分析の活用事例が出てきますが、これらは全て改正個人情報保護 法及び関連法令を遵守して実施いたします。

  11. ビジネスチームのほとんどのメンバーがクエリを書く ミラティブでは、ビジネスチームのほとんどが自分でクエリを書 き、データ活用を行っています。データアナリストチーム主導で、 ビジネスチーム向け 勉強会を複数種類行っています。 その結果、ミラティブではほとんどのビジネスチームメンバーがク エリを書き、自らの手で仮説検証を進めることができるようになっ ています。 分析基盤エンジニアは、データアナリストと協力し、誰でもどこで も簡単にデータ抽出ができる環境を維持していくことも進めてい

    きます。 次のページからは、ミラティブが持っているデータの種類を紹介し ます。 アンケート結果(過半数がSQL活用に積極的) ビジネスチーム向け SQL勉強会
  12. ミラティブが保持している生データ① ゲーム配信情報 まずはゲーム配信のデータです。わかりやすいようにレイヤーごとに整理します。 レイヤー1: ゲーム画面の時系列変化 ゲーム画面を配信しているわけですから、配信している画面はミラティブに残ります。 ゲーム配信の場合、感情変化を起こさせる根源情報はゲーム画面ですので、この元情報を分析 対象にできるというのはミラティブならではです。 (例:ボスを倒して嬉しい!のように、ゲームの動きが感情変化の起因となる )

    レイヤー2: 配信者さんの音声情報 当然、配信者さんの音声情報も残ります。感情は声色や口調に出ることが明らかなので、この情 報から感情を推測するということも可能になるはずです。また、周囲の雑音なども拾うことができ るため、どんな環境でプレイしているのかなども判断できると考えています。 レイヤー3: 視聴者さんのリアクション情報 Mirrativでは視聴者さんが様々なリアクションをすることができます。コメントを残したり、配信者さ んにギフトをプレゼントしたり、配信者さんとコラボ通話したり。 わかりあう願いがつながっているのかの判断は、この情報がキモになると思います。 ※レイヤー1, 2 はクラウドストレージに動画情報として残り、レイヤー 3はテキスト情報として BigQueryに保存されます。
  13. ミラティブが保持している生データ② エモモ配信情報 次はエモモの配信です。先ほどのゲーム配信と同じようにレイヤーごとに紹介します。 レイヤー1: エモモ画面の時系列変化 エモモはフリックでモーションをしたり、感情表現したりする機能があります。これをどのように使 用しているのかの情報が残っています。また、エモモは服装や髪型を着替えることができるた め、そのコーディネートの情報も残っています。 レイヤー2: 配信者さんの音声情報

    これは先ほどのゲームの画面と同じです。エモモを通じて、配信者さんが発信しているわかりあ う願いの音声情報です。 レイヤー3: 視聴者さんのリアクション情報 これも先ほどのゲームと同じです。コメント・ギフト・コラボ通話などのリアクション情報です。 ※レイヤー1, 2 はクラウドストレージに動画情報として残り、レイヤー 3はテキスト情報として BigQueryに保存されます。
  14. ミラティブが保持している生データ③ ソーシャル情報 Mirrativではフォロー・フォロワーといういわゆるソーシャル機能があります。 どんな情報を解析対象にできるのか、いくつか紹介します。 その1: Mirrativ内でのソーシャルグラフ Mirrativにはフォロー・フォロワーの機能があります。このグラフには、わかりあいがどのように伝 達していくのかがあらわれるはずだと思っています。また、フォロー解除のログもあり、それはわ かりあえなかった帰結なんじゃないかなという仮説を持っています。 その3:

    なかよし度 Mirrativ内のフォローフォロワー関係では、仲良し度という概念を導入しています。配信を見にい くなどすると仲良し度が上がります。このデータからも、わかりあいの時系列変化を探ることがで きそうです。というか仲良し度の定義を、もっとわかりあいに寄せたロジックに変更したい ... と個 人的には思っています。 その2: Twitterのソーシャルグラフ MirrativはTwitterのアカウントでログインすることができます。 個人情報でない、利用規約で同意いただいている情報を分析することができます。 Twitterでのソーシャルグラフと Mirrativでのソーシャルグラフの比較などは大変興味深いテーマ になると思っています。
  15. ミラティブが保持している生データ④ アプリ操作・登録情報 いわゆるアプリ操作や登録情報をBigQueryの中にログとして保管しています。 その1: 操作情報 いつログインした、どの配信を見にいった、どこでコメントしたなどのアプリの操作情報をログとし て残しています。どのような配信を好むのかという嗜好性だったり、どういう風に Mirrativを使いた いと思っているのかなどを理解できるデータです。 その2:

    登録情報 どんなゲームが好きかという情報を登録してもらっています。どんな配信をおすすめすればいい のかの一助になるデータです。また、 Twitterログイン機能もありますので、 Twitterのフォロワー などから、ユーザーがどのクラスタ (絵師クラスタなのかパズドラクラスタなのかなど )に所属して いるのかなどを推定することができるはずです。 ※注意書きにも書いておりますが、個人が特定できる情報は分析ログには残しておりません。 操作(一例) 登録(一例)
  16. ミラティブのデータ分析基盤はここが面白い! 〜現在のデータ分析基盤紹介編〜

  17. データ分析環境の全体像 クライアントログ サーバーログ テーブル 本番 サーバー 端 末 db.* row_log.*

    zendesk.* summary.* ml.* 参照 モデル 保存 Cloud ML Engine 参照 参照 参照 サマリー テーブル 参照 参照 参照・連携 全社員がKPIを参照 データアナリストが 機械学習環境として使用 BigQueryをredashで参照する構成を基本とし、 FirebaseやzendeskやSlackと連携を追加しています。 また、データ収集のために内製の ETLツール(ashura)を開発・運用しています。※下記実線が ashuraの役割範囲 を利用して送信 送信 送信 送信 送信 実線:内製 ツール 破線:外部ツールなど 通信 ※冗長化などを省いた簡略図
  18. のログの紹介 例として、エモモでカラオケをする機能 (エモカラ)のログの一部を紹介します。エモカラのログ設計の工夫としては、今後の機能 追加(キー設定など)を考えて、詳細は json形式で保存しているところです。 2019年5月現在、全てのデータをあわせると、 1日にBigQueryに蓄積されるデータ量は約 200GB程度になっています。 ※上記はカラムの一部です。アプリバージョンなど、 以上のカラムがあります。

  19. ログの流れ1:本番環境から にログが届くまで ログ 集積 サーバー クライアントログ 端 末 サーバーログ 通信

    APIサーバー群 クライアントログ受け サーバー群 Streaming Insert Mirrativで使用している様々な役割のサーバーから、 td-agentでログ集積サーバーにログを集約しています。 そこから、fluentdを用いて、BigQueryにStreaming Insertをかけています。 Streaming Insertは流量に上限があるため、 fluentdを複数使用して最速でログが送信できるような工夫をしています。 ※左記の他にも、バッチサーバー・ 用サーバーなど では様々 な役割のサーバーが存在します。 ログを送る構造は左記と同じく、それぞれのサーバーから でログ 集積サーバーに蓄積しています。 td-agent
  20. ログの流れ2: で行われる データベースのスナップショット作成ジョブ サマリーテーブルの作成ジョブ 本番 からデータベースのスナップショットを作成します。 ツールとして、 を使用しています。 また、前提的に を活用してジョブ管理をおこなっており、ジョブが

    した 場合は に通知が飛ぶ仕組みになっています。 シャード追加・テーブルのカラム追加などに自動で追従するような 仕組みに改善していきたいと思っています。 データ分析基盤の内製処理ツール (ashura)を開発・運用しています。 いろいろなところからデータを取得・加工することから、阿修羅像になぞらえて ashuraと名付けました。 ここでは、ashuraが行っている2つの処理について紹介します。 生ログ・ のスナップショットなどから、中間テーブルを作ります。 現在は日本・韓国で時差がないので、同じ時刻に を開始していますが、今 後は時差のある国への対応や、中間テーブルに求められる情報のリクエストを 効率的に生成していきたいと思っています。
  21. ミラティブのデータ分析基盤はここが面白い! 〜こんな未来待ってるよ編〜

  22. ミラティブのデータ分析基盤で考えていくべきこと 分析基盤は今後下記の3つのテーマで進化が必要だと考えています。次のページからそれぞれ紹介します。 カオスな 新規 プロジェクト 多様化する データ活用へ の期待 グローバル展開 とユーザー爆発

  23. グローバル展開とユーザー爆発 すでに韓国には本格参入していますが、その他の地域に関 しても参入検討は始めています。上記では台湾・香港の求人 ですが、その他の地域も検討しています。 つまり、分析基盤もグローバルに対応させる必要がありま す。国によって時差があるのはもちろん、ネットワークの速度 などもことなるため、バッチの時刻やログ送信のリトライ回数 など、国によるチューニングの試行錯誤が必要だと考えてい ます。 右肩上がりでユーザー数が増えてきているのは先程も紹介し

    たとおりです。ここで懺悔を公開しちゃうのですが、 年の 月に を行った際、ピークタイムにログをロストしてしまうと いう事件を起こしてしまいました。 そういったことを踏まえて、ログ回収・中間テーブル生成を サービスの拡大に追従する必要性を痛感しています。今後と も増え続けるデータ量をさばくために、定期的にアーキテク チャを見直していく必要があります。
  24. ミラティブは、わかりあう願いをつなぐ新機能をどんどんリリース しています。 年の大きなリリースとしては、エモモで写真が とれるスナップ機能・カラオケ機能をリリースしています。また、 複数の新規アプリだったり、 個以上の新規企画が進行してい ます。 スナップ機能では、誰と誰がどんなポーズで写真を撮ったか 集 合写真もあります

    だったり、カラオケでは誰がどんな曲をどん なふうに歌ったかの分析が重要です。このように、新規企画が リリースされるたびに、どんなデータをどういう風に に保管 するのがよいのか、考えていく必要があります。 また、新規アプリも複数仕込んでおり、アプリ間を横断した分析 環境の構築にもチャレンジしていく必要を感じています。(新規 のアプリは言語もバラバラなので、共通モジュールとか作ってし まうほうがいいのかもしれない説もあるかもしれない。。 カオスな新規プロジェクト 複数の新規アプリ 以上の新規企画 が進行中 カラオケ機能 スナップ機能
  25. 多様化するデータ活用への期待① 音声解析基盤への進化 本番環境へのデータ戻し 処理結果 大量のログデータ 統計処理 ・機械学習 どんな配信が面白いのか、盛り上がっている箇所はどこなの かなど、音声データからわかりあいを加速できないかという研 究を行っています。

    現在は対象をいくつか絞って研究している段階ですが、その 次の段階では大規模に解析するための音声分析基盤が必 要になってきます。 の本番データには持てないくらいのログデータを統計 処理し、その結果を本番に戻すという構想があります。 例えば、視聴者さんと配信者さんのマッチングのために、行 動データを総合的に加味するとよいことがわかってきていま す。そのマッチング度を毎日更新するための基盤を構築する とすると、単なる分析基盤とはレベルの違う可用性が求めら れると考えています。 ※そもそも を使うのではなく、専用のサービス化したほうが良いかもしれない
  26. 多様化するデータ活用への期待② ソーシャル解析基盤 機械学習のさらなる活用 は、配信者さんと視聴者さんがつながることで、わか り合いが加速していくプラットフォームです。 そのため、そのわかり合いを可視化し、わかり合いの加速の ために何が必要なのかなどを分析していく必要があります。 そのためには、上記のようなグラフを扱いやすい形で保存 し、グラフの分析が進む環境を構築することが必要だと考え ています。

    現在の環境では、機械学習にかけるまでに大量の前処理が 必要になっています。データの整形だったり、欠損値の補完 など、その都度クエリをかいて処理しています。 それらの前処理にかかる時間を短縮し、より機械学習を民主 化していく必要があると考えています。 ※上記は超簡略化したイメージ図です。
  27. さいごに

  28. データ分析チーム の坂本からのメッセージ 1人め。一緒に文化をつくりましょう。 ミラティブ社は、 2018年にディー・エヌ・エーから独立した会社です。 ディー・エヌ・エー時代では、プロダクトのインフラも、データ分析基盤もディー・エヌ・エー社のものを利用していましいた。長年の運用経験を もつ専門の横軸チームが構築・運用している環境を利用できることは大変心強かった反面、ミラティブ独自の何かを実験的に試したり、構築 していくことは難しい環境でありました。 独立後、インフラ領域では、プロダクトのインフラチームを新しく立ち上げました。その結果、より配信遅延がなくなる仕組みの研究開発な ど、ミラティブ独自の進化がすすんできています。ミラティブのインフラ文化の萌芽です。

    データ分析基盤もそんなふうに、ミラティブだからこそ必要な基盤を作っていきたい。 世の中にある良いものはガンガン取り入れていくし、世の中に無いものは自分たちで作り上げていく 。そんなデータ分析基盤チームを立ち 上げていきたいと考えています。 そんなこんなで、 ミラティブ1人めのデータ分析基盤エンジニアを募集 しています。 ミラティブの分析基盤の文化を一緒に作っていきませんか? このお手紙が誰かの心に響きますように。
  29. データ分析基盤エンジニアを募集しています 本資料で紹介してきたような「わかりあう願いをつなぐ」を加速させるために、 ミラティブ1人めのデータ分析基盤エンジニアを募集しています。 本資料で説明してきたように、ミラティブには多種類のデータと、そのデータを使って分析したいことがあふれています。 下記みなさま、ぜひ連絡ください。 - データ分析基盤エンジニア - 業務内容 -

    現状のミラティブの分析基盤(P.17)の保守・運用 - 将来にわたって必要となる分析基盤の設計・構築 - 必須スキル - fluentd・BigQuery・BI(redash, metabaseなど)の運用経験(2年以上目安) - Linuxでのサーバ構築やオペレーションの知識 応募サイト: https://www.wantedly.com/projects/281277 カジュアルな質問:会社の雰囲気やその他質問のある方は、 @sakamoto_mirra までご連絡ください! 答えられることはオープンに、そうでないことでもなにかしらの手段でお答えします(笑) また会社の雰囲気などを知りたい方は採用特設ページまで。
  30. 最後までお読みいただきありがあとうございます! いいね!って思ったら ぜひシェアしてネ 今すぐシェアる