Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RCOにおける機械学習
Search
Shinichi Takayanagi
January 18, 2016
Technology
4
17k
RCOにおける機械学習
RCO Study Night “RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」”
-
https://atnd.org/events/73404
において使用したトーク資料
Shinichi Takayanagi
January 18, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
480
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
570
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.1k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
300
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4.3k
論文読んだ「Winner’s Curse: Bias Estimation for Total Effects of Features in Online Controlled Experiments」
stakaya
1
4.6k
Other Decks in Technology
See All in Technology
AWSアカウントのセキュリティ自動化、どこまで進める? 最適な設計と実践ポイント
yuobayashi
7
1.4k
LINE NEWSにおけるバックエンド開発
lycorptech_jp
PRO
0
360
Apache Iceberg Case Study in LY Corporation
lycorptech_jp
PRO
0
380
JAWS FESTA 2024「バスロケ」GPS×サーバーレスの開発と運用の舞台裏/jawsfesta2024-bus-gps-serverless
ma2shita
3
330
技術スタックだけじゃない、業務ドメイン知識のオンボーディングも同じくらいの量が必要な話
niftycorp
PRO
0
130
開発者体験を定量的に把握する手法と活用事例
ham0215
0
130
4th place solution Eedi - Mining Misconceptions in Mathematics
rist
0
150
EMConf JP 2025 懇親会LT / EMConf JP 2025 social gathering
sugamasao
2
210
JavaにおけるNull非許容性
skrb
2
2.7k
AIエージェント入門
minorun365
PRO
33
19k
Global Databaseで実現するマルチリージョン自動切替とBlue/Greenデプロイ
j2yano
0
160
2025/3/1 公共交通オープンデータデイ2025
morohoshi
0
110
Featured
See All Featured
A better future with KSS
kneath
238
17k
The Language of Interfaces
destraynor
156
24k
GitHub's CSS Performance
jonrohan
1030
460k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
49
2.3k
4 Signs Your Business is Dying
shpigford
183
22k
Building Flexible Design Systems
yeseniaperezcruz
328
38k
Done Done
chrislema
182
16k
Six Lessons from altMBA
skipperchong
27
3.6k
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
129
19k
Fontdeck: Realign not Redesign
paulrobertlloyd
83
5.4k
Scaling GitHub
holman
459
140k
What's in a price? How to price your products and services
michaelherold
244
12k
Transcript
RCO Study Night(2016/01/15) RCOにおける機械学習 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳 慎一
本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング(次の講演) –具体的な研究内容(次回) 2
自己紹介 • 高柳慎一 • 専門:物理学, 統計科学 • 経歴: – 2006:
北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • (俗にいう)クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3
4 リクルートとは
【会社説明】リクルートの提供価値=ビジネスモデル <提供価値> 人生や生活の中で意思決定において その人が必要とする情報を提供 クライアント ユーザー <提供価値> ユーザとの出会いの機会や 最終的なマッチングを創出
人生の節目の大きな意思決定をサポートする領域から 日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開 進学 就職 結婚 転職 住宅購入 出産/育児 旅行 お稽古
美容 通販 ファッション グルメ 日常におけるあらゆる選択をサポートする領域 車購入 【会社説明】リクルートの事業領域
紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ:昨今のテーマ① エンジニアがIT推進を牽引 相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点
北米 欧州 日本、アジア全域、欧州、北米で事業を展開 世界16の国と地域、約900拠点 オセアニア アジア (人材派遣) (オンライン飲食) (オンライン美容) (人材紹介)
(旅行事業/OTA ) (オンラインHR/一部出資) RGF HR Agent各社 (人材紹介) (人材派遣) (人材紹介/経営コンサル) (旅行事業/OTA ) (旅行事業/OTA ) (オンライン美容) (人材派遣) (人材派遣) (オンラインHR ) (住宅事業) (人材派遣) (人材派遣) (人材派遣) (IT/一部出資) 【会社説明】リクルートグループ:昨今のテーマ② (旅行事業/OTA ) (飲食・美容事業)
9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…
【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ
㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・設計・宣伝・流通・CS WEBサービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 2012年10月1日 リクルートグループの主要10社
など HR領域 など 住宅領域 など ブライダル領域 など 進学領域 旅行領域 など
など クルマ系領域 その他の領域 生活情報系マーケット など 【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来る など グローバル など
クライアント ユーザー 広告 【会社説明】リクルートの提供価値=ビジネスモデル リクルートは、最適なマッチングで世の中の“不”を解消し、 クライアントとユーザにとって新たな価値を提供する会社 マッチング(成約) クライアントの 集客・送客支援 クライアント
ソリューション ユーザーアクション の最大化 マッチング(成約)
【会社説明】RCOのエンジニアが開発するもの マッチング(成約) テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、 ソフトウェアがメイン。自らプログラムを書き、ビジネス上、 優位性を作り出せるならば、制約なく0から、開発。 アドテクノロジーを用いたサービスやプロダクト 広告配信技術 広告配信の自動最適化 クライアント ユーザー
【事業内容】RCOのエンジニアの価値 【アドテクサービス開発領域の特徴】 エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理 コードを書く力がそのままビジネス価値の向上に! アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要
エンジニアの成長がそのままサービスの成長に! アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる!
15 RCOにおける機械学習
16 ここからはRCOにおける 「機械学習エンジニア/データ分析者」の お話をしていきます
以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3.
バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17
フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので 機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル: – WebおよびWeb広告の知識
• cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18
データインフラ系おしごと • いわゆる、ETL(Extract/Transfrom/Load) – ログデータを整形して各種DBに入れ、 集計・加工・学習しやすいようにする • DWH(データウェアハウス)、データマート • DMP(データマネジメントプラットフォーム)
• 各種BIツールへの接続(Tableau, DOMO等) • 必要とされるスキル: – DBの知識、インフラの知識 • AWS:あまぞんうぇぶさーびす • GCP:ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト(sh, python) – 地道に真面目にバッチが書ける忍耐力 19
データインフラ系おしごとの例(AWS) 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift (ログ保存) (DWH・DMP) (メッセージ) (低レイテンシKVS) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時保存)
データインフラ系おしごとの例(GCP) 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール
bigQuery (ログ保存) (DWH・DMP) (メッセージ) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時集計) (低レイテンシKVS)
バックグラウンド系おしごとの例:機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift オンライン 機械学習 バッチ 機械学習
なにしてるの? • バッチ学習:daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド
– 最適化スコアの更新 • オンライン学習:リアルタイム更新 – リターゲッティング – 在庫予測・管理 23
アドホック分析系おしごと • 東にデータで悩んでいる人がいたら そっと「機械学習だとこんなんできるよ」 とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル: –
前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化(自動化)まで実装 24
中間まとめ:RCOのデータ分析者のスキル要件 25 SQL / DB技術 コーディングスキル 機械学習 統計学
中間まとめ:RCOのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn,
statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26
日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題 を出して予測スコアを競い合う –
論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27
機械学習大会の例 • 某有名動画サイトで一般公開されている スポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて 何のスポーツか予測 28 (教師)アメフト (テスト)卓球
29 機械学習のコアと事の経緯
30 事の経緯
早稲田大学 × RCO 共同研究 はじめました 事の経緯
32 テックブログ書きましょう! 一言でいうなら・・・
その時のテックブログ 33
共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5.
共同研究になる(←今ココ!) 34
35 機械学習のコア?
(手法を問わずに)機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 •
カーネル回帰(ヒルベルト空間上での内積) 36
• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 (手法を問わずに)機械学習に必要となるもの…
38 最適化計算は避けて通れない & いかに最適化計算を実行するか 問題となるもの
最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、 量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要
• 疑問と課題(研究の方向性) – 量子アニーリングが向いている領域は? – 機械学習においてどう活用するのか? • 機械学習における組合せ最適化とは何か? 39
40 ⇒田中先生の講演に続く