Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Speaker Deck
PRO
Sign in
Sign up for free
RCOにおける機械学習
Shinichi Takayanagi
January 18, 2016
Technology
4
15k
RCOにおける機械学習
RCO Study Night “RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」”
-
https://atnd.org/events/73404
において使用したトーク資料
Shinichi Takayanagi
January 18, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.3k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
1.5k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
360
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
28
17k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
580
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
210
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
3.2k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
3.5k
論文読んだ「Class Imbalance, Redux」
stakaya
4
2.5k
Other Decks in Technology
See All in Technology
我々はなぜテストをするのか?
kawaguti
PRO
0
560
LINE WORKS API 2.0について
mmclsntr
0
130
[SRE NEXT 2022]KaaS桶狭間の戦い 〜Yahoo! JAPANのSLI/SLOを用いた統合監視〜
srenext
0
480
Oracle Content Management サービス概要 (2022年5月版)
oracle4engineer
PRO
0
120
220521_SFN_品質文化試論と『LEADING QUALITY』/220521_SFN_Essay_of_Quality_Culture_and_LEADING_QUALITY
mkwrd
0
290
CAMのサービス開発の歴史と共通基盤を使った 開発スタイルへの変遷について
ishikawa_pro
0
110
Graph API について
miyakemito
0
290
Stripe Search APIを利用した、LINEとStripeの顧客情報連携/line-dc-202205
stripehideokamoto
0
130
エンタープライズにおけるSRE立ち上げとNew Relic選定に至った背景とは / SRE Startup and New Relic in the Enterprise
tomoyakitaura
2
160
失敗から学ぶAWSコスト管理入門 ~想定の50倍以上の請求がきた話~
msato
0
440
E2E自動テスト導入・運用をめぐる先入観と実際に起きたこと / Preconceptions and What Happened with E2E Testing
ak1210
5
1.3k
OSINT/GEOINT ワークショップ 20220514 古橋資料
furuhashilab
2
310
Featured
See All Featured
Building Your Own Lightsaber
phodgson
94
4.6k
Git: the NoSQL Database
bkeepers
PRO
415
59k
Adopting Sorbet at Scale
ufuk
63
7.5k
Optimizing for Happiness
mojombo
365
63k
Practical Orchestrator
shlominoach
178
8.6k
Writing Fast Ruby
sferik
612
57k
What’s in a name? Adding method to the madness
productmarketing
11
1.5k
The MySQL Ecosystem @ GitHub 2015
samlambert
238
11k
Testing 201, or: Great Expectations
jmmastey
21
5.4k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_i
21
14k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
19
1.4k
How to train your dragon (web standard)
notwaldorf
57
3.8k
Transcript
RCO Study Night(2016/01/15) RCOにおける機械学習 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳 慎一
本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング(次の講演) –具体的な研究内容(次回) 2
自己紹介 • 高柳慎一 • 専門:物理学, 統計科学 • 経歴: – 2006:
北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • (俗にいう)クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3
4 リクルートとは
【会社説明】リクルートの提供価値=ビジネスモデル <提供価値> 人生や生活の中で意思決定において その人が必要とする情報を提供 クライアント ユーザー <提供価値> ユーザとの出会いの機会や 最終的なマッチングを創出
人生の節目の大きな意思決定をサポートする領域から 日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開 進学 就職 結婚 転職 住宅購入 出産/育児 旅行 お稽古
美容 通販 ファッション グルメ 日常におけるあらゆる選択をサポートする領域 車購入 【会社説明】リクルートの事業領域
紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ:昨今のテーマ① エンジニアがIT推進を牽引 相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点
北米 欧州 日本、アジア全域、欧州、北米で事業を展開 世界16の国と地域、約900拠点 オセアニア アジア (人材派遣) (オンライン飲食) (オンライン美容) (人材紹介)
(旅行事業/OTA ) (オンラインHR/一部出資) RGF HR Agent各社 (人材紹介) (人材派遣) (人材紹介/経営コンサル) (旅行事業/OTA ) (旅行事業/OTA ) (オンライン美容) (人材派遣) (人材派遣) (オンラインHR ) (住宅事業) (人材派遣) (人材派遣) (人材派遣) (IT/一部出資) 【会社説明】リクルートグループ:昨今のテーマ② (旅行事業/OTA ) (飲食・美容事業)
9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…
【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ
㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・設計・宣伝・流通・CS WEBサービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 2012年10月1日 リクルートグループの主要10社
など HR領域 など 住宅領域 など ブライダル領域 など 進学領域 旅行領域 など
など クルマ系領域 その他の領域 生活情報系マーケット など 【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来る など グローバル など
クライアント ユーザー 広告 【会社説明】リクルートの提供価値=ビジネスモデル リクルートは、最適なマッチングで世の中の“不”を解消し、 クライアントとユーザにとって新たな価値を提供する会社 マッチング(成約) クライアントの 集客・送客支援 クライアント
ソリューション ユーザーアクション の最大化 マッチング(成約)
【会社説明】RCOのエンジニアが開発するもの マッチング(成約) テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、 ソフトウェアがメイン。自らプログラムを書き、ビジネス上、 優位性を作り出せるならば、制約なく0から、開発。 アドテクノロジーを用いたサービスやプロダクト 広告配信技術 広告配信の自動最適化 クライアント ユーザー
【事業内容】RCOのエンジニアの価値 【アドテクサービス開発領域の特徴】 エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理 コードを書く力がそのままビジネス価値の向上に! アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要
エンジニアの成長がそのままサービスの成長に! アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる!
15 RCOにおける機械学習
16 ここからはRCOにおける 「機械学習エンジニア/データ分析者」の お話をしていきます
以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3.
バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17
フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので 機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル: – WebおよびWeb広告の知識
• cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18
データインフラ系おしごと • いわゆる、ETL(Extract/Transfrom/Load) – ログデータを整形して各種DBに入れ、 集計・加工・学習しやすいようにする • DWH(データウェアハウス)、データマート • DMP(データマネジメントプラットフォーム)
• 各種BIツールへの接続(Tableau, DOMO等) • 必要とされるスキル: – DBの知識、インフラの知識 • AWS:あまぞんうぇぶさーびす • GCP:ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト(sh, python) – 地道に真面目にバッチが書ける忍耐力 19
データインフラ系おしごとの例(AWS) 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift (ログ保存) (DWH・DMP) (メッセージ) (低レイテンシKVS) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時保存)
データインフラ系おしごとの例(GCP) 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール
bigQuery (ログ保存) (DWH・DMP) (メッセージ) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時集計) (低レイテンシKVS)
バックグラウンド系おしごとの例:機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift オンライン 機械学習 バッチ 機械学習
なにしてるの? • バッチ学習:daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド
– 最適化スコアの更新 • オンライン学習:リアルタイム更新 – リターゲッティング – 在庫予測・管理 23
アドホック分析系おしごと • 東にデータで悩んでいる人がいたら そっと「機械学習だとこんなんできるよ」 とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル: –
前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化(自動化)まで実装 24
中間まとめ:RCOのデータ分析者のスキル要件 25 SQL / DB技術 コーディングスキル 機械学習 統計学
中間まとめ:RCOのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn,
statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26
日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題 を出して予測スコアを競い合う –
論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27
機械学習大会の例 • 某有名動画サイトで一般公開されている スポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて 何のスポーツか予測 28 (教師)アメフト (テスト)卓球
29 機械学習のコアと事の経緯
30 事の経緯
早稲田大学 × RCO 共同研究 はじめました 事の経緯
32 テックブログ書きましょう! 一言でいうなら・・・
その時のテックブログ 33
共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5.
共同研究になる(←今ココ!) 34
35 機械学習のコア?
(手法を問わずに)機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 •
カーネル回帰(ヒルベルト空間上での内積) 36
• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 (手法を問わずに)機械学習に必要となるもの…
38 最適化計算は避けて通れない & いかに最適化計算を実行するか 問題となるもの
最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、 量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要
• 疑問と課題(研究の方向性) – 量子アニーリングが向いている領域は? – 機械学習においてどう活用するのか? • 機械学習における組合せ最適化とは何か? 39
40 ⇒田中先生の講演に続く