Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RCOにおける機械学習
Search
Shinichi Takayanagi
January 18, 2016
Technology
4
17k
RCOにおける機械学習
RCO Study Night “RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」”
-
https://atnd.org/events/73404
において使用したトーク資料
Shinichi Takayanagi
January 18, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
論文紹介「Evaluation gaps in machine learning practice」と、効果検証入門に関する昔話
stakaya
0
890
バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?
stakaya
5
1.3k
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
550
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
630
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.2k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
360
Other Decks in Technology
See All in Technology
Proxmox × HCP Terraformで始めるお家プライベートクラウド
lamaglama39
1
170
The Twin Mandate of Observability
charity
1
1.3k
Claude Code 10連ガチャ
uhyo
3
630
CodexでもAgent Skillsを使いたい
gotalab555
9
4.1k
エンタープライズ企業における開発効率化のためのコンテキスト設計とその活用
sergicalsix
1
280
バクラクの AI-BPO を支える AI エージェント 〜とそれを支える Bet AI Guild〜
tomoaki25
1
330
エンジニア採用と 技術広報の取り組みと注力点/techpr1112
nishiuma
0
130
内部品質・フロー効率・コミュニケーションコストを悪化させ現場を苦しめかねない16の組織設計アンチパターン[超簡易版] / 16 Organization Design Anti-Patterns for Software Development
mtx2s
2
150
プログラミング言語を書く前に日本語を書く── AI 時代に求められる「言葉で考える」力/登壇資料(井田 献一朗)
hacobu
PRO
0
130
Data & AIの未来とLakeHouse
ishikawa_satoru
0
710
品質保証の取り組みを広げる仕組みづくり〜スキルの移譲と自律を支える実践知〜
tarappo
2
820
嗚呼、当時の本番環境の状態で AI Agentを再評価したいなぁ...
po3rin
0
390
Featured
See All Featured
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Designing for Performance
lara
610
69k
The Language of Interfaces
destraynor
162
25k
Leading Effective Engineering Teams in the AI Era
addyosmani
9
1.1k
YesSQL, Process and Tooling at Scale
rocio
174
15k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.7k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
249
1.3M
Imperfection Machines: The Place of Print at Facebook
scottboms
269
13k
Embracing the Ebb and Flow
colly
88
4.9k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
49
3.2k
Fantastic passwords and where to find them - at NoRuKo
philnash
52
3.5k
Transcript
RCO Study Night(2016/01/15) RCOにおける機械学習 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳 慎一
本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング(次の講演) –具体的な研究内容(次回) 2
自己紹介 • 高柳慎一 • 専門:物理学, 統計科学 • 経歴: – 2006:
北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • (俗にいう)クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3
4 リクルートとは
【会社説明】リクルートの提供価値=ビジネスモデル <提供価値> 人生や生活の中で意思決定において その人が必要とする情報を提供 クライアント ユーザー <提供価値> ユーザとの出会いの機会や 最終的なマッチングを創出
人生の節目の大きな意思決定をサポートする領域から 日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開 進学 就職 結婚 転職 住宅購入 出産/育児 旅行 お稽古
美容 通販 ファッション グルメ 日常におけるあらゆる選択をサポートする領域 車購入 【会社説明】リクルートの事業領域
紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ:昨今のテーマ① エンジニアがIT推進を牽引 相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点
北米 欧州 日本、アジア全域、欧州、北米で事業を展開 世界16の国と地域、約900拠点 オセアニア アジア (人材派遣) (オンライン飲食) (オンライン美容) (人材紹介)
(旅行事業/OTA ) (オンラインHR/一部出資) RGF HR Agent各社 (人材紹介) (人材派遣) (人材紹介/経営コンサル) (旅行事業/OTA ) (旅行事業/OTA ) (オンライン美容) (人材派遣) (人材派遣) (オンラインHR ) (住宅事業) (人材派遣) (人材派遣) (人材派遣) (IT/一部出資) 【会社説明】リクルートグループ:昨今のテーマ② (旅行事業/OTA ) (飲食・美容事業)
9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…
【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ
㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・設計・宣伝・流通・CS WEBサービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 2012年10月1日 リクルートグループの主要10社
など HR領域 など 住宅領域 など ブライダル領域 など 進学領域 旅行領域 など
など クルマ系領域 その他の領域 生活情報系マーケット など 【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来る など グローバル など
クライアント ユーザー 広告 【会社説明】リクルートの提供価値=ビジネスモデル リクルートは、最適なマッチングで世の中の“不”を解消し、 クライアントとユーザにとって新たな価値を提供する会社 マッチング(成約) クライアントの 集客・送客支援 クライアント
ソリューション ユーザーアクション の最大化 マッチング(成約)
【会社説明】RCOのエンジニアが開発するもの マッチング(成約) テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、 ソフトウェアがメイン。自らプログラムを書き、ビジネス上、 優位性を作り出せるならば、制約なく0から、開発。 アドテクノロジーを用いたサービスやプロダクト 広告配信技術 広告配信の自動最適化 クライアント ユーザー
【事業内容】RCOのエンジニアの価値 【アドテクサービス開発領域の特徴】 エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理 コードを書く力がそのままビジネス価値の向上に! アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要
エンジニアの成長がそのままサービスの成長に! アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる!
15 RCOにおける機械学習
16 ここからはRCOにおける 「機械学習エンジニア/データ分析者」の お話をしていきます
以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3.
バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17
フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので 機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル: – WebおよびWeb広告の知識
• cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18
データインフラ系おしごと • いわゆる、ETL(Extract/Transfrom/Load) – ログデータを整形して各種DBに入れ、 集計・加工・学習しやすいようにする • DWH(データウェアハウス)、データマート • DMP(データマネジメントプラットフォーム)
• 各種BIツールへの接続(Tableau, DOMO等) • 必要とされるスキル: – DBの知識、インフラの知識 • AWS:あまぞんうぇぶさーびす • GCP:ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト(sh, python) – 地道に真面目にバッチが書ける忍耐力 19
データインフラ系おしごとの例(AWS) 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift (ログ保存) (DWH・DMP) (メッセージ) (低レイテンシKVS) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時保存)
データインフラ系おしごとの例(GCP) 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール
bigQuery (ログ保存) (DWH・DMP) (メッセージ) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時集計) (低レイテンシKVS)
バックグラウンド系おしごとの例:機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift オンライン 機械学習 バッチ 機械学習
なにしてるの? • バッチ学習:daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド
– 最適化スコアの更新 • オンライン学習:リアルタイム更新 – リターゲッティング – 在庫予測・管理 23
アドホック分析系おしごと • 東にデータで悩んでいる人がいたら そっと「機械学習だとこんなんできるよ」 とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル: –
前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化(自動化)まで実装 24
中間まとめ:RCOのデータ分析者のスキル要件 25 SQL / DB技術 コーディングスキル 機械学習 統計学
中間まとめ:RCOのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn,
statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26
日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題 を出して予測スコアを競い合う –
論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27
機械学習大会の例 • 某有名動画サイトで一般公開されている スポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて 何のスポーツか予測 28 (教師)アメフト (テスト)卓球
29 機械学習のコアと事の経緯
30 事の経緯
早稲田大学 × RCO 共同研究 はじめました 事の経緯
32 テックブログ書きましょう! 一言でいうなら・・・
その時のテックブログ 33
共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5.
共同研究になる(←今ココ!) 34
35 機械学習のコア?
(手法を問わずに)機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 •
カーネル回帰(ヒルベルト空間上での内積) 36
• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 (手法を問わずに)機械学習に必要となるもの…
38 最適化計算は避けて通れない & いかに最適化計算を実行するか 問題となるもの
最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、 量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要
• 疑問と課題(研究の方向性) – 量子アニーリングが向いている領域は? – 機械学習においてどう活用するのか? • 機械学習における組合せ最適化とは何か? 39
40 ⇒田中先生の講演に続く