RCOにおける機械学習

by Shinichi Takayanagi

Slide 1

Slide 1 text

RCO Study Night(2016/01/15) RCOにおける機械学習株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部高柳慎一

Slide 2

Slide 2 text

本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング（次の講演） –具体的な研究内容（次回） 2

Slide 3

Slide 3 text

自己紹介 • 高柳慎一 • 専門：物理学, 統計科学 • 経歴： – 2006: 北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • （俗にいう）クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3

Slide 4

Slide 4 text

4 リクルートとは

Slide 5

Slide 5 text

【会社説明】リクルートの提供価値=ビジネスモデル＜提供価値＞人生や生活の中で意思決定においてその人が必要とする情報を提供クライアントユーザー＜提供価値＞ユーザとの出会いの機会や最終的なマッチングを創出

Slide 6

Slide 6 text

人生の節目の大きな意思決定をサポートする領域から日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開進学就職結婚転職住宅購入出産/育児旅行お稽古美容通販ファッショングルメ日常におけるあらゆる選択をサポートする領域車購入【会社説明】リクルートの事業領域

Slide 7

Slide 7 text

紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ：昨今のテーマ① エンジニアがIT推進を牽引相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点

Slide 8

Slide 8 text

北米欧州日本、アジア全域、欧州、北米で事業を展開世界16の国と地域、約900拠点オセアニアアジア（人材派遣）（オンライン飲食）（オンライン美容）（人材紹介）（旅行事業/OTA ）（オンラインHR/一部出資） RGF HR Agent各社（人材紹介）（人材派遣）（人材紹介/経営コンサル）（旅行事業/OTA ）（旅行事業/OTA ）（オンライン美容）（人材派遣）（人材派遣）（オンラインHR ）（住宅事業）（人材派遣）（人材派遣）（人材派遣）（IT/一部出資）【会社説明】リクルートグループ：昨今のテーマ② （旅行事業/OTA ）（飲食・美容事業）

Slide 9

Slide 9 text

9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…

Slide 10

Slide 10 text

【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルートホールディングス㈱リクルートキャリア㈱リクルートジョブズ㈱リクルートスタッフィング㈱スタッフサービス・ホールディングス㈱リクルートライフスタイル㈱リクルートマーケティングパートナーズ㈱リクルート住まいカンパニー㈱リクルートアドミニストレーション㈱リクルートテクノロジーズ㈱リクルートコミュニケーションズ主な事業会社機能会社制作・設計・宣伝・流通・CS WEBサービス開発機能社員募集領域 AP人材募集領域派遣人材募集領域本社機能 R＆D（事業開発）グローバル住宅領域派遣人材募集領域日常消費領域結婚・進学・自動車等領域アドミニストレーション機能 IT／基幹システム開発 2012年10月1日リクルートグループの主要10社

Slide 11

Slide 11 text

など HR領域など住宅領域などブライダル領域など進学領域旅行領域などなどクルマ系領域その他の領域生活情報系マーケットなど【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来るなどグローバルなど

Slide 12

Slide 12 text

クライアントユーザー広告【会社説明】リクルートの提供価値=ビジネスモデルリクルートは、最適なマッチングで世の中の“不”を解消し、クライアントとユーザにとって新たな価値を提供する会社マッチング（成約）クライアントの集客・送客支援クライアントソリューションユーザーアクションの最大化マッチング（成約）

Slide 13

Slide 13 text

【会社説明】RCOのエンジニアが開発するものマッチング（成約）テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、ソフトウェアがメイン。自らプログラムを書き、ビジネス上、優位性を作り出せるならば、制約なく０から、開発。アドテクノロジーを用いたサービスやプロダクト広告配信技術広告配信の自動最適化クライアントユーザー

Slide 14

Slide 14 text

【事業内容】RCOのエンジニアの価値【アドテクサービス開発領域の特徴】エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理コードを書く力がそのままビジネス価値の向上に！アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要エンジニアの成長がそのままサービスの成長に！アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる！

Slide 15

Slide 15 text

15 RCOにおける機械学習

Slide 16

Slide 16 text

16 ここからはRCOにおける「機械学習エンジニア/データ分析者」のお話をしていきます

Slide 17

Slide 17 text

以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3. バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17

Slide 18

Slide 18 text

フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル： – WebおよびWeb広告の知識 • cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18

Slide 19

Slide 19 text

データインフラ系おしごと • いわゆる、ETL（Extract/Transfrom/Load） – ログデータを整形して各種DBに入れ、集計・加工・学習しやすいようにする • DWH（データウェアハウス）、データマート • DMP（データマネジメントプラットフォーム） • 各種BIツールへの接続（Tableau, DOMO等） • 必要とされるスキル： – DBの知識、インフラの知識 • AWS：あまぞんうぇぶさーびす • GCP：ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト（sh, python） – 地道に真面目にバッチが書ける忍耐力 19

Slide 20

Slide 20 text

データインフラ系おしごとの例（AWS） 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール Redshift （ログ保存）（DWH・DMP）（メッセージ）（低レイテンシKVS）（管理）オレンジの矢印がデータインフラ系（実際の構成とは意図的に変更しております）（一時保存）

Slide 21

Slide 21 text

データインフラ系おしごとの例（GCP） 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール bigQuery （ログ保存）（DWH・DMP）（メッセージ）（管理）オレンジの矢印がデータインフラ系（実際の構成とは意図的に変更しております）（一時集計）（低レイテンシKVS）

Slide 22

Slide 22 text

バックグラウンド系おしごとの例：機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール Redshift オンライン機械学習バッチ機械学習

Slide 23

Slide 23 text

なにしてるの？ • バッチ学習：daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド – 最適化スコアの更新 • オンライン学習：リアルタイム更新 – リターゲッティング – 在庫予測・管理 23

Slide 24

Slide 24 text

アドホック分析系おしごと • 東にデータで悩んでいる人がいたらそっと「機械学習だとこんなんできるよ」とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル： – 前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化（自動化）まで実装 24

Slide 25

Slide 25 text

中間まとめ：RCOのデータ分析者のスキル要件 25 SQL / DB技術コーディングスキル機械学習統計学

Slide 26

Slide 26 text

中間まとめ：ＲＣＯのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn, statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26

Slide 27

Slide 27 text

日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題を出して予測スコアを競い合う – 論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27

Slide 28

Slide 28 text

機械学習大会の例 • 某有名動画サイトで一般公開されているスポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて何のスポーツか予測 28 （教師）アメフト（テスト）卓球

Slide 29

Slide 29 text

29 機械学習のコアと事の経緯

Slide 30

Slide 30 text

30 事の経緯

Slide 31

Slide 31 text

早稲田大学 × RCO 共同研究はじめました事の経緯

Slide 32

Slide 32 text

32 テックブログ書きましょう！一言でいうなら・・・

Slide 33

Slide 33 text

その時のテックブログ 33

Slide 34

Slide 34 text

共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5. 共同研究になる（←今ココ！） 34

Slide 35

Slide 35 text

35 機械学習のコア？

Slide 36

Slide 36 text

（手法を問わずに）機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 • カーネル回帰(ヒルベルト空間上での内積) 36

Slide 37

Slide 37 text

• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 （手法を問わずに）機械学習に必要となるもの…

Slide 38

Slide 38 text

38 最適化計算は避けて通れない＆いかに最適化計算を実行するか問題となるもの

Slide 39

Slide 39 text

最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要 • 疑問と課題（研究の方向性） – 量子アニーリングが向いている領域は？ – 機械学習においてどう活用するのか？ • 機械学習における組合せ最適化とは何か？ 39

Slide 40

Slide 40 text

40 ⇒田中先生の講演に続く