Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Introduction of LINE Data Science Team

Introduction of LINE Data Science Team

※2022/4/26更新

LINE株式会社 Data Science室の組織紹介資料です。

Avatar for LINE Developers

LINE Developers

October 15, 2019
Tweet

More Decks by LINE Developers

Other Decks in Technology

Transcript

  1. Data Science Centerとは Data Science Center = “攻め”のデータ活⽤を先導する組織 意思決定を⽀援し⼈を動かすためのデータ分析 プロダクトを最適化するための機械学習

    • Machine Learning Solution 室および他のデータ関連組織と協業しながらデータ活⽤を先導 主な業務領域 Data Science 1 & 2 Machine Learning Solution Data Science Center Ad Data 広告事業に関するデータ分析とエンジニアリング ML&DS Planning team データ活⽤に関するプロジェクトマネジメント
  2. 最近のプロジェクト例(2022年4⽉時点) Data Science室は 多くの重要なプロジェクトに関わっている LINEアプリ LINE ファミリー サービス LINEの 法⼈向けサービス

    LINE Financial サービス横断 プロジェクト • Home tab, Chat tab, LINE VOOM 等のUI/UX • LINEスタンプ • LINEギフト • LINE MUSIC、など • LINE公式アカウント • LINE広告 • LINE Pay • その他⾦融系サービス • Smart Channel • LINEコンテンツ & サービスプラットフォーム
  3. 担当プロダクト及び LINEプラットフォーム全体への貢献を⽬指す Data Science室のミッション 1. データ分析によって各LINEサービスの競争⼒を最⼤化する • データを活⽤した継続的改善の仕組みづくり • 重要かつ難易度の⾼い課題の解決

    2. LINE全体のデータ活⽤レベルを向上させる • 全てのLINERのデータ活⽤レベルの底上げ/引き上げ • 広く適⽤可能なデータ分析の仕組み(プラットフォーム、プロセス、⽅法論、 etc.)の提供
  4. 基本1⼈1PJ、PJメンバー同⼠で議論・レビューし合う プロジェクトへのアサイン⽅針と仕事の進め⽅ 事業部X 事業部Y プロジェクトZ チームA チームB チームA チームB …

    Data Science室 データ サイエンティスト • データ理解やドメイン知識がアウトプットの量・質に直結 → 基本は1年単位でアサイン固定 • PJチーム内でお互いに議論・レビュー • DS室内でもSlackや週次定例を通して事例共有などを実施 分析サポート PJごとに チーム化
  5. 事業側の協業相⼿と直接やり取りしながら、 ⾃⾝で判断しつつ業務を進める 協業相⼿ 例えば 主な協業相⼿ 協業の頻度 サービス企画者 (プロダクト担当、 マーケティング担当、 etc.)

    • 新規リリースした機能の効果検証(A/Bテスト含む) • 新機能開発時の基礎となる仮説の検証 • KPIの整理とダッシュボード化 ⾼ エンジニア • 各種ログに関する質問・確認 • A/Bテスト時の相談(ユーザー割当、UI出し分け等) 中 事業部 DSC 機械学習 エンジニア 低〜中 • 担当サービスのレコメンドシステムの仕様に関する議論 • レコメンド導⼊/改善時のA/Bテスト その他 情報セキュリティ ・データマネジメント 担当者 中 • データの利⽤条件についてセキュリティ⽬線での確認 • 新規サービスの分析環境構築の相談 データ サイエンティスト ⾼ • 他サービスの事例について共有、ヒアリング • データ分析全般に関するディスカッション
  6. 「何を解くべきか」「何に使うべきか」まで⾃ら考える 分析業務において重要な3つのポイント アウトプットを 活かすところまで しっかり関わる • 「分析結果を使って何をやるべきか?」の議論、および実⾏の⽀援・検 証まで関わる • アウトプットはWikiにまとめて、対⾯で説明とネクストアクションに関

    する議論まで実施することを推奨(関係者が容易に理解できるケースで はSlackで共有のみで済ませることも多々ある) 解くべき課題は プロアクティブに 発⾒・設定する • 過去の分析や普段のコミュニケーションをもとに、⾃ら課題を発⾒する • 依頼された業務でも、妥当でなければ⾃ら調整を加える(実施しない判 断をすることもある) 本質的に重要なこ とに集中する • 「なるほど、⾯⽩いね」で終わる分析はやらない • 逆に、重要であれば単純なデータ抽出にも関わる
  7. よくある質問:Machine Learning室との求める⼈材や役割分担の違いは? サービスごとに個別カスタマイズ サービス間で共通(プラットフォーム) ⼈間の意思決定 サポート プロダクトに 適⽤する機械学習 (エンジニアリング) ML

    DS DSで チャレンジ したい • ML室:分析スキル + 膨⼤なログを効率的に処理するためのエンジニアリング⼒ DS室:分析スキル + 分析結果を事業に活かすためのコミュニケーション⼒・主体性 • DS室でも機械学習を使った業務は必要に応じて実施(例:KPI異常検知、キャンペーンユーザーのターゲ ティング、マーケティングオートメーションの設計、等) ML室はプロダクトに適⽤する機械学習にフォーカス
  8. 分析ツールは課題や好みに合ったものを選択する よくある質問:分析環境は? <凡例> ◎:⾮常によく使う ◦:よく使う △:たまに使うが他のツールの⽅がメジャー ※◎◦△は本資料作成者の私⾒です 集計 データマート 作成

    可視化 モデル開発 結果の共有 ⾃動化 Yanagishima OASIS Airflow Tableau Confluence RStudio Jupyter Presto, HiveのWeb UI。SQLを実⾏するシンプルなツール SQL, Scala, PySpark, SparkRなどが利⽤可能なnotebook形 式のツール。スケジュール機能で定常レポートとしても活⽤。 ⾔わずと知れたワークフローエンジン Tableau Serverにより多数のレポートを提供。 企画チームに提供するレポートは基本的にConfluenceで書く ⾔わずと知れたRの統合分析環境 ⾔わずと知れたnotebook形式の分析環境 ◎ ◎ ◎ △ ◦ ◦ ◎ ◦ ◎ △ ◦ ◎ ◎ ◦ ◦ ◎ ◎ ◎ ◎ ◎ ◎ ◎ • オンプレのHadoop環境で主に以下のツール群を利⽤して分析する • ⼤規模なサービスの分析もストレスなく実⾏できる分析環境がある
  9. 様々なバックグラウンドのメンバー Data Science室に聞いてみました:⼊社前の経歴(n=15) 化学 ⼟⽊ 電⼦⼯学、情報学 意思決定⽀援 データサイエンス 統計学 数学、情報⼯学

    数理情報学 数理統計学 物性物理学 物理 物理、情報⼯学 物理学 マーケティングサイエンス 経済学 主に学んだ学問 主な経験業種 webサービス ソーシャルゲーム R&Dエンジニア R&D インフラエンジニア システムエンジニア システム開発 ⼤⼿精密機器メーカーの設計開発 材料系研究開発 電機メーカーで開発・設計 データサイエンティスト 遺伝⼦データ解析 公的研究機関の研究員 研究機関 ⾦融業界
  10. 分析にとどまらない強みを持つ⼈が活躍している Data Science室に聞いてみました:LINEで活躍できるデータサイエンティストの特徴(n=15) ⾃分で考え抜く⼒がある データ分析によるインサイトの発⾒や技術の探求が⾯ ⽩いと感じる⽅ 得意技を持っている⼈ 統計や分析ツールに関する知識と他部署(ビジネス部 ⾨)とうまくコミュニケーションできるスキルをバラ ンスよく持ち合わせた⼈

    データを触るのが好きな⼈ ビジネス推進における不確定要素(問い)をデータ分 析の領域に置き換えられる⼈ 好奇⼼のある⼈ 新しい技術を必要に応じて⾝につけられる⼈ 統計詳しい⼈・実装⼒ある⼈・お⾦を儲けることに興 味がある⼈ 前向きでコミュニケーション能⼒が⾼い⼈ 整備されてないデータを探索しつつ、アウトプットを 素早く出せるスキルと、必要ないことは断れる性格 ⾃分の役割をどんどん広げて仕事を作り出せる⼈ 統計や分析をうまく使えて、かつ主体的に動いて仕事 を作れる⽅ 知的好奇⼼のあるひと 様々な課題をデータ分析の領域に落とし込む能⼒を 持っている⼈
  11. LINEでやるデータサイエンスはおもしろい Data Science室に聞いてみました : LINEでデータサイエンスに関わる⾯⽩さ・やりがい(n=15) 単純にデータの種類や量が多いため、課題解決において ⾊々な選択肢がある ユーザの各サービスの⾏動ログは共通のIDに紐付けられ ているため、複数サービスを横断した分析ができる 国内でも最⼤規模のデータがあること

    裁量をもって、スキルの⾼いメンバとともに、事業戦略 の意思決定に直接提案できるデータ分析ができる データ数の桁が違う、ユーザーが⾝近にいるのでやりが いを感じる 事業成⻑に積極的、経営陣のデータ活⽤に対する興味が ⾼い、ビッグデータを保有している ⾃分が毎⽇使うサービスについて分析ができ、それを改 善していくことができる 扱うデータが⼤きい・広い・深い 個⼈の裁量が⼤きい。サービスが成⻑段階にあるため、 ⾃由度が⾼い 仕事で関わるサービス = ⾃⾝が⽇常⽣活で接すること があるサービスであり、それの改善に関われる⾯⽩み プラットフォーマーとしての圧倒的な数のチカラ いろんなサービスのデータに触れられること、規模が⼤ きいサービスが多いこと 複数の海外拠点に影響するデータ分析プロジェクトを主 導できる 扱うデータが⼤きい データ分析で改善できる領域の多様さ
  12. 選考プロセス(説明は2022年4⽉時点、変更の可能性があります) 1回の課題と通常3回の⾯接を⾏う 書類選考 応募 課題選考 選考プロセス 説明 • データ分析職としての実務経験があるか •

    数理統計などの技術的なバックグラウンドがあるか • SQL、Rなどの分析ツールの利⽤経験があるか • 書類選考と同様のポイントの深堀りに加えて、分析結果を わかりやすく伝えられるかどうか • 課題:データ(数⼗万件程度)と問題⽂をもとに、企画者 向けレポートを作成 あわせて1ヶ⽉ 〜1.5ヶ⽉ ⾯接 (3回〜) • LINEのデータサイエンティストに求める要件(次ページで 解説)を満たすかどうかを総合的に確認 選考プロセス 選考のポイント 所⽤期間の⽬安 • LINEの採⽤ページ(https://linecorp.com/ja/career/ja/all)より、希望の職種を選択して募 集要項をご確認ください。 • 募集要項ページ下部の「応募する」ボタンからご応募ください。 • 学歴および職務経歴がわかる書類を提出いただきます。
  13. データサイエンティストの選考基準 ⼤きく3つの視点で選考を⾏う 問題 解決⼒ データ分析⼒ (=統計解析⼒、 データ分析の経験) ※配点が決まっているというよりは、これらの項⽬を総合的に考慮して選考しています 思考⼒ (=論理的思考⼒、

    仮説思考⼒) • 複雑かつ⼤量なデータから必要⼗分な⽰唆を導くための能⼒ • 基礎的な統計解析⼒(分布、検定、回帰分析あたりのイメージ、 ⼊社後に適時にキャッチアップできるレベルは必須) • 未知の問題に対して、論理⽴てて結論を導くことができる能⼒ • 抽象的でない、具体的な道筋を描けるかどうか コミュニケーション⼒ 主体性・リーダーシップ 採⽤選考において重要な項⽬ 具体的に • 伝えたいことを、わかりやすく論理的に伝えられる能⼒ • 分析結果を根拠に、相⼿に明確なアクションを促すための能⼒ • 上司や周囲の指⽰を待つのではなく、⾃分でやるべきこと、やり たいことを考え、適切に主張し、実⾏するための能⼒ • LINE社へのカルチャーフィット
  14. データアナリストの選考プロセス(説明は2022年4⽉時点、変更の可能性があります) (参考)データアナリストの選考では、共通課題のあと 希望ポジションごとに個別に選考を進める 書類・課題選考 ※各ポジション 共通 応募 ⾯接(通常2−3回) ※各ポジション 個別

    選考プロセス 説明 • 課題:SQLスキルテスト(30min)、データと課題を提供し て簡易レポート提出(90min)、いずれもWeb上で実施 • SQLスキル、分析スキル、分析経験を総合的に判断 • データアナリストの募集要項ページ(https://linecorp.com/ja/career/position/1536) をご確認ください。 • 募集要項ページ下部の「応募する」ボタンからご応募ください。 • 課題は共通ですが、⾯接以降の選考はポジションごとに個別に実施します。 応募前に、優先度の⾼いポジションを3つ選択していただきます。 • 学歴および職務経歴がわかる書類を提出いただきます。 • 応募時に選考を希望した事業部と個別に実施 ※選考基準や求める⼈物要件も事業部ごとに異なります 選考プロセス 選考のポイント ※全て必須ではなく、総合的に判断します 所⽤期間の⽬安 あわせて1ヶ⽉ 〜1.5ヶ⽉