Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
RCOにおける機械学習
Search
Shinichi Takayanagi
January 18, 2016
Technology
4
17k
RCOにおける機械学習
RCO Study Night “RCOにおける機械学習と次世代量子情報処理技術「量子アニーリング」”
-
https://atnd.org/events/73404
において使用したトーク資料
Shinichi Takayanagi
January 18, 2016
Tweet
Share
More Decks by Shinichi Takayanagi
See All by Shinichi Takayanagi
バイブコーディングの正体——AIエージェントはソフトウェア開発を変えるか?
stakaya
5
1.2k
[NeurIPS 2023 論文読み会] Wasserstein Quantum Monte Carlo
stakaya
0
530
[KDD2021 論文読み会] ControlBurn: Feature Selection by Sparse Forests
stakaya
2
1.9k
[ICML2021 論文読み会] Mandoline: Model Evaluation under Distribution Shift
stakaya
0
2k
[情報検索/推薦 各社合同 論文読み祭 #1] KDD ‘20 "Embedding-based Retrieval in Facebook Search"
stakaya
2
620
【2020年新人研修資料】ナウでヤングなPython開発入門
stakaya
29
21k
論文読んだ「Simple and Deterministic Matrix Sketching」
stakaya
1
1.2k
Quick Introduction to Approximate Bayesian Computation (ABC) with R"
stakaya
3
350
The Road to Machine Learning Engineer from Data Scientist
stakaya
5
4.4k
Other Decks in Technology
See All in Technology
[ JAWS-UG 東京 CommunityBuilders Night #2 ]SlackとAmazon Q Developerで 運用効率化を模索する
sh_fk2
3
450
2つのフロントエンドと状態管理
mixi_engineers
PRO
3
110
下手な強制、ダメ!絶対! 「ガードレール」を「檻」にさせない"ガバナンス"の取り方とは?
tsukaman
2
450
自作JSエンジンに推しプロポーザルを実装したい!
sajikix
1
180
プラットフォーム転換期におけるGitHub Copilot活用〜Coding agentがそれを加速するか〜 / Leveraging GitHub Copilot During Platform Transition Periods
aeonpeople
1
160
💡Ruby 川辺で灯すPicoRubyからの光
bash0c7
0
120
Autonomous Database - Dedicated 技術詳細 / adb-d_technical_detail_jp
oracle4engineer
PRO
4
10k
Snowflake Intelligenceにはこうやって立ち向かう!クラシルが考えるAI Readyなデータ基盤と活用のためのDataOps
gappy50
0
270
大「個人開発サービス」時代に僕たちはどう生きるか
sotarok
20
10k
EncryptedSharedPreferences が deprecated になっちゃった!どうしよう! / Oh no! EncryptedSharedPreferences has been deprecated! What should I do?
yanzm
0
450
AIエージェント開発用SDKとローカルLLMをLINE Botと組み合わせてみた / LINEを使ったLT大会 #14
you
PRO
0
130
企業の生成AIガバナンスにおけるエージェントとセキュリティ
lycorptech_jp
PRO
2
190
Featured
See All Featured
Speed Design
sergeychernyshev
32
1.1k
The Myth of the Modular Monolith - Day 2 Keynote - Rails World 2024
eileencodes
26
3k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
46
7.6k
Writing Fast Ruby
sferik
628
62k
StorybookのUI Testing Handbookを読んだ
zakiyama
31
6.1k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.1k
Context Engineering - Making Every Token Count
addyosmani
3
51
How to Think Like a Performance Engineer
csswizardry
26
1.9k
The Illustrated Children's Guide to Kubernetes
chrisshort
48
50k
How to Ace a Technical Interview
jacobian
279
23k
For a Future-Friendly Web
brad_frost
180
9.9k
How to train your dragon (web standard)
notwaldorf
96
6.2k
Transcript
RCO Study Night(2016/01/15) RCOにおける機械学習 株式会社リクルートコミュニケーションズ ICTソリューション局アドテクノロジーサービス開発部 高柳 慎一
本日の内容 •お話しすること –リクルートとは –RCOにおける機械学習 –機械学習のコアと事の経緯 •お話ししないこと –量子アニーリング(次の講演) –具体的な研究内容(次回) 2
自己紹介 • 高柳慎一 • 専門:物理学, 統計科学 • 経歴: – 2006:
北海道大学大学院理学研究科物理学先行修士卒 – 2006-2008: 某材料系財団法人 • 半導体試料画像・測定装置スペクトルの解析ソフト開発 – 2008-2015: 某金融技術開発会社 • (俗にいう)クオンツ業務 – 2013:総合研究大学院大学複合科学研究科統計科学専攻博士課程 – 2015:株式会社リクルートコミュニケーションズ • サービス開発・データ分析/機械学習 3
4 リクルートとは
【会社説明】リクルートの提供価値=ビジネスモデル <提供価値> 人生や生活の中で意思決定において その人が必要とする情報を提供 クライアント ユーザー <提供価値> ユーザとの出会いの機会や 最終的なマッチングを創出
人生の節目の大きな意思決定をサポートする領域から 日常におけるあらゆる選択をサポートする領域まで幅広く事業を展開 進学 就職 結婚 転職 住宅購入 出産/育児 旅行 お稽古
美容 通販 ファッション グルメ 日常におけるあらゆる選択をサポートする領域 車購入 【会社説明】リクルートの事業領域
紙からWEBへのシフト、メディア事業の売上の半分以上がWEB 【会社説明】リクルートグループ:昨今のテーマ① エンジニアがIT推進を牽引 相当数のコンテンツをかかえ、国内有数のインターネット企業へ ※2015.2時点
北米 欧州 日本、アジア全域、欧州、北米で事業を展開 世界16の国と地域、約900拠点 オセアニア アジア (人材派遣) (オンライン飲食) (オンライン美容) (人材紹介)
(旅行事業/OTA ) (オンラインHR/一部出資) RGF HR Agent各社 (人材紹介) (人材派遣) (人材紹介/経営コンサル) (旅行事業/OTA ) (旅行事業/OTA ) (オンライン美容) (人材派遣) (人材派遣) (オンラインHR ) (住宅事業) (人材派遣) (人材派遣) (人材派遣) (IT/一部出資) 【会社説明】リクルートグループ:昨今のテーマ② (旅行事業/OTA ) (飲食・美容事業)
9 リクルートっていっぱいある… 何を目指してる… 何を作ってる…
【会社説明】リクルートグループ内のRCOの立ち位置 10 ㈱リクルート ホールディングス ㈱リクルートキャリア ㈱リクルートジョブズ ㈱リクルートスタッフィング ㈱スタッフサービス・ホールディングス ㈱リクルートライフスタイル ㈱リクルートマーケティングパートナーズ
㈱リクルート住まいカンパニー ㈱リクルートアドミニストレーション ㈱リクルートテクノロジーズ ㈱リクルートコミュニケーションズ 主な事業会社 機能会社 制作・設計・宣伝・流通・CS WEBサービス開発機能 社員募集領域 AP人材募集領域 派遣人材募集領域 本社機能 R&D(事業開発) グローバル 住宅領域 派遣人材募集領域 日常消費領域 結婚・進学・自動車等領域 アドミニストレーション機能 IT/基幹システム開発 2012年10月1日 リクルートグループの主要10社
など HR領域 など 住宅領域 など ブライダル領域 など 進学領域 旅行領域 など
など クルマ系領域 その他の領域 生活情報系マーケット など 【リクルートの事業領域】RCOの携わる領域 RCOは、横断機能があるため、リクルートの全事業領域に関わることが出来る など グローバル など
クライアント ユーザー 広告 【会社説明】リクルートの提供価値=ビジネスモデル リクルートは、最適なマッチングで世の中の“不”を解消し、 クライアントとユーザにとって新たな価値を提供する会社 マッチング(成約) クライアントの 集客・送客支援 クライアント
ソリューション ユーザーアクション の最大化 マッチング(成約)
【会社説明】RCOのエンジニアが開発するもの マッチング(成約) テクノロジーを駆使したサービス、サービスの核となるアルゴリズム、 ソフトウェアがメイン。自らプログラムを書き、ビジネス上、 優位性を作り出せるならば、制約なく0から、開発。 アドテクノロジーを用いたサービスやプロダクト 広告配信技術 広告配信の自動最適化 クライアント ユーザー
【事業内容】RCOのエンジニアの価値 【アドテクサービス開発領域の特徴】 エンジニアの書いたコードが直接のサービス価値そのものになる ∟高トラフィックや大量データの効率的処理 ∟多変数要素の最適化処理 コードを書く力がそのままビジネス価値の向上に! アドテク領域の技術革新スピードは非常に早く、求められる技術レベルが高い ∟効果的なアルゴリズムを創出、実装する技術 ∟データ・機械学習の活用 ⇒高い知的好奇心と、技術と自分への挑戦をし続けることが重要
エンジニアの成長がそのままサービスの成長に! アドテクノロジーはエンジニアがビジネスにおける価値を発揮できる!
15 RCOにおける機械学習
16 ここからはRCOにおける 「機械学習エンジニア/データ分析者」の お話をしていきます
以下のほぼすべてを担当 1. フロントエンジニア系おしごと – 各事業サイトに広告を出すフロント開発 2. データインフラ系おしごと – 各種ログデータ等を移動・集計する 3.
バックグラウンドエンジニア系おしごと – ログから最適な広告・ユーザーを見つける 4. アドホック分析系おしごと – 機械学習を使ったソリューション提供 17
フロントエンジニア系おしごと • アドテクノロジーに取り組んでいるので 機械学習ばかりしているとは限りません • Webエンジニア的な仕事もします • 必要とされるスキル: – WebおよびWeb広告の知識
• cookie, CTR, Conversion, CVR ぐらいは知ろう – JavaScript, node.jsやcoffee script, go, scala, ruby, perl などなど・・・ 18
データインフラ系おしごと • いわゆる、ETL(Extract/Transfrom/Load) – ログデータを整形して各種DBに入れ、 集計・加工・学習しやすいようにする • DWH(データウェアハウス)、データマート • DMP(データマネジメントプラットフォーム)
• 各種BIツールへの接続(Tableau, DOMO等) • 必要とされるスキル: – DBの知識、インフラの知識 • AWS:あまぞんうぇぶさーびす • GCP:ぐーぐるくらうどぷらっとふぉーむ – SQL, 各種スクリプト(sh, python) – 地道に真面目にバッチが書ける忍耐力 19
データインフラ系おしごとの例(AWS) 20 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift (ログ保存) (DWH・DMP) (メッセージ) (低レイテンシKVS) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時保存)
データインフラ系おしごとの例(GCP) 21 アプリ fluentd Datastore Bigtable pub/sub Storage Dataproc コンソール
bigQuery (ログ保存) (DWH・DMP) (メッセージ) (管理) オレンジの矢印が データインフラ系 (実際の構成とは意図的に変更しております) (一時集計) (低レイテンシKVS)
バックグラウンド系おしごとの例:機械学習の活用 22 アプリ fluentd ElastiCache RDS Kinesis S3 Dynamo コンソール
Redshift オンライン 機械学習 バッチ 機械学習
なにしてるの? • バッチ学習:daily, hourlyの更新 – DMPの作成・更新 – クラスタリング – リコメンド
– 最適化スコアの更新 • オンライン学習:リアルタイム更新 – リターゲッティング – 在庫予測・管理 23
アドホック分析系おしごと • 東にデータで悩んでいる人がいたら そっと「機械学習だとこんなんできるよ」 とソリューションを提供してあげる – 別に東西南北関係ない • 必要とされるスキル: –
前処理を頑張れる忍耐力 – R, python(scikit-learn), spark(ml) – 上記をシステム化(自動化)まで実装 24
中間まとめ:RCOのデータ分析者のスキル要件 25 SQL / DB技術 コーディングスキル 機械学習 統計学
中間まとめ:RCOのデータ分析者の道具 • 機械学習のパッケージ – R の各種パッケージ – python の scikit-learn,
statsmodels – spark の MLlib(ml) • 画像処理・自然言語処理に特有の前処理 – openCV, scikit-image – mecab, word2vec • Deep Learning – Caffe, Theano, Chainer, TensorFlow 26
日々研鑽 • グループで自発的にやっていること – 機械学習大会 • KaggleやKDD Cupのように、社内で機械学習問題 を出して予測スコアを競い合う –
論文輪読会 • 機械学習系の論文を持ち寄って議論する • 部としてやっていること – ライトニング・トーク大会 • 最新技術や興味のあることをプレゼンする大会 – コードバトル • ゲームのAIをみんなで持ち寄って勝敗をつける 27
機械学習大会の例 • 某有名動画サイトで一般公開されている スポーツ動画から、適当に数千枚画像抽出 • 教師・テストデータに分けて 何のスポーツか予測 28 (教師)アメフト (テスト)卓球
29 機械学習のコアと事の経緯
30 事の経緯
早稲田大学 × RCO 共同研究 はじめました 事の経緯
32 テックブログ書きましょう! 一言でいうなら・・・
その時のテックブログ 33
共同研究に至った事の経緯 1. 社内勉強会用資料をテックブログにUP 2. 某社の会合に呼ばれる 3. 某同僚をそこに送り込む 4. 某同僚、田中先生と知り合う 5.
共同研究になる(←今ココ!) 34
35 機械学習のコア?
(手法を問わずに)機械学習に必要となるもの… • やらなければいけないこと = 最適化 – 最終的にモデルのパラメータを決定 • Lasso回帰での推定 •
カーネル回帰(ヒルベルト空間上での内積) 36
• Gradient Boosting(の1弱学習器分更新) • Support Vector Machine(双対問題化前) 37 (手法を問わずに)機械学習に必要となるもの…
38 最適化計算は避けて通れない & いかに最適化計算を実行するか 問題となるもの
最適化計算手法として量子アニーリングを考えたい • 組み合わせ最適化問題を解く手法として、 量子アニーリングを考える • 一方、ノーフリーランチの定理もある – 万能な最適化計算は存在しない – 領域限定の特化した最適化手法が必要
• 疑問と課題(研究の方向性) – 量子アニーリングが向いている領域は? – 機械学習においてどう活用するのか? • 機械学習における組合せ最適化とは何か? 39
40 ⇒田中先生の講演に続く