RCOにおける機械学習
by
Shinichi Takayanagi
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
RCO Study Night(2016/01/15) RCOにおける機械学習 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳 慎一
Slide 2
Slide 2 text
本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング(次の講演) –具体的な研究内容(次回) 2
Slide 3
Slide 3 text
自己紹介 • 高柳慎一 • 専門:物理学, 統計科学 • 経歴: – 2006: 北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • (俗にいう)クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3
Slide 4
Slide 4 text
4 リクルートとは
Slide 5
Slide 5 text
【会社説明】リクルートの提供価値=ビジネスモデル <提供価値> 人生や生活の中で意思決定において その人が必要とする情報を提供 クライアント ユーザー <提供価値> ユーザとの出会いの機会や 最終的なマッチングを創出
Slide 6
Slide 6 text
人生の節目の大きな意思決定をサポートする領域から 日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開 進学 就職 結婚 転職 住宅購入 出産/育児 旅行 お稽古 美容 通販 ファッション グルメ 日常におけるあらゆる選択をサポートする領域 車購入 【会社説明】リクルートの事業領域
Slide 7
Slide 7 text
紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ:昨今のテーマ① エンジニアがIT推進を牽引 相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点
Slide 8
Slide 8 text
北米 欧州 日本、アジア全域、欧州、北米で事業を展開 世界16の国と地域、約900拠点 オセアニア アジア (人材派遣) (オンライン飲食) (オンライン美容) (人材紹介) (旅行事業/OTA ) (オンラインHR/一部出資) RGF HR Agent各社 (人材紹介) (人材派遣) (人材紹介/経営コンサル) (旅行事業/OTA ) (旅行事業/OTA ) (オンライン美容) (人材派遣) (人材派遣) (オンラインHR ) (住宅事業) (人材派遣) (人材派遣) (人材派遣) (IT/一部出資) 【会社説明】リクルートグループ:昨今のテーマ② (旅行事業/OTA ) (飲食・美容事業)
Slide 9
Slide 9 text
9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…
Slide 10
Slide 10 text
【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ ㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・設計・宣伝・流通・CS WEBサービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 2012年10月1日 リクルートグループの主要10社
Slide 11
Slide 11 text
など HR領域 など 住宅領域 など ブライダル領域 など 進学領域 旅行領域 など など クルマ系領域 その他の領域 生活情報系マーケット など 【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来る など グローバル など
Slide 12
Slide 12 text
クライアント ユーザー 広告 【会社説明】リクルートの提供価値=ビジネスモデル リクルートは、最適なマッチングで世の中の“不”を解消し、 クライアントとユーザにとって新たな価値を提供する会社 マッチング(成約) クライアントの 集客・送客支援 クライアント ソリューション ユーザーアクション の最大化 マッチング(成約)
Slide 13
Slide 13 text
【会社説明】RCOのエンジニアが開発するもの マッチング(成約) テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、 ソフトウェアがメイン。自らプログラムを書き、ビジネス上、 優位性を作り出せるならば、制約なく0から、開発。 アドテクノロジーを用いたサービスやプロダクト 広告配信技術 広告配信の自動最適化 クライアント ユーザー
Slide 14
Slide 14 text
【事業内容】RCOのエンジニアの価値 【アドテクサービス開発領域の特徴】 エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理 コードを書く力がそのままビジネス価値の向上に! アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要 エンジニアの成長がそのままサービスの成長に! アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる!
Slide 15
Slide 15 text
15 RCOにおける機械学習
Slide 16
Slide 16 text
16 ここからはRCOにおける 「機械学習エンジニア/データ分析者」の お話をしていきます
Slide 17
Slide 17 text
以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3. バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17
Slide 18
Slide 18 text
フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので 機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル: – WebおよびWeb広告の知識 • cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18
Slide 19
Slide 19 text
データインフラ系おしごと • いわゆる、ETL(Extract/Transfrom/Load) – ログデータを整形して各種DBに入れ、 集計・加工・学習しやすいようにする • DWH(データウェアハウス)、データマート • DMP(データマネジメントプラットフォーム) • 各種BIツールへの接続(Tableau, DOMO等) • 必要とされるスキル: – DBの知識、インフラの知識 • AWS:あまぞんうぇぶさーびす • GCP:ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト(sh, python) – 地道に真面目にバッチが書ける忍耐力 19
Slide 20
Slide 20 text
データインフラ系おしごとの例(AWS) 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール Redshift (ログ保存) (DWH・DMP) (メッセージ) (低レイテンシKVS) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時保存)
Slide 21
Slide 21 text
データインフラ系おしごとの例(GCP) 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール bigQuery (ログ保存) (DWH・DMP) (メッセージ) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時集計) (低レイテンシKVS)
Slide 22
Slide 22 text
バックグラウンド系おしごとの例:機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール Redshift オンライン 機械学習 バッチ 機械学習
Slide 23
Slide 23 text
なにしてるの? • バッチ学習:daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド – 最適化スコアの更新 • オンライン学習:リアルタイム更新 – リターゲッティング – 在庫予測・管理 23
Slide 24
Slide 24 text
アドホック分析系おしごと • 東にデータで悩んでいる人がいたら そっと「機械学習だとこんなんできるよ」 とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル: – 前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化(自動化)まで実装 24
Slide 25
Slide 25 text
中間まとめ:RCOのデータ分析者のスキル要件 25 SQL / DB技術 コーディングスキル 機械学習 統計学
Slide 26
Slide 26 text
中間まとめ:RCOのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn, statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26
Slide 27
Slide 27 text
日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題 を出して予測スコアを競い合う – 論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27
Slide 28
Slide 28 text
機械学習大会の例 • 某有名動画サイトで一般公開されている スポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて 何のスポーツか予測 28 (教師)アメフト (テスト)卓球
Slide 29
Slide 29 text
29 機械学習のコアと事の経緯
Slide 30
Slide 30 text
30 事の経緯
Slide 31
Slide 31 text
早稲田大学 × RCO 共同研究 はじめました 事の経緯
Slide 32
Slide 32 text
32 テックブログ書きましょう! 一言でいうなら・・・
Slide 33
Slide 33 text
その時のテックブログ 33
Slide 34
Slide 34 text
共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5. 共同研究になる(←今ココ!) 34
Slide 35
Slide 35 text
35 機械学習のコア?
Slide 36
Slide 36 text
(手法を問わずに)機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 • カーネル回帰(ヒルベルト空間上での内積) 36
Slide 37
Slide 37 text
• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 (手法を問わずに)機械学習に必要となるもの…
Slide 38
Slide 38 text
38 最適化計算は避けて通れない & いかに最適化計算を実行するか 問題となるもの
Slide 39
Slide 39 text
最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、 量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要 • 疑問と課題(研究の方向性) – 量子アニーリングが向いている領域は? – 機械学習においてどう活用するのか? • 機械学習における組合せ最適化とは何か? 39
Slide 40
Slide 40 text
40 ⇒田中先生の講演に続く