Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
B to Cサービスの現場から考える機械学習活用 #MLCT
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
ysekky
August 26, 2014
Research
9.4k
8
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
B to Cサービスの現場から考える機械学習活用 #MLCT
ysekky
August 26, 2014
More Decks by ysekky
See All by ysekky
スタートアップの開発サイクルに学ぶ 研究活動の進め方 / research practices inspired by startup business strategy
ysekky
0
2.4k
[論文紹介] A Method to Anonymize Business Metrics to Publishing Implicit Feedback Datasets (Recsys2020) / recsys20-reading-gunosy-datapub
ysekky
3
2.9k
JSAI2020 OS-12 広告とAI オープニング / JSAI2020-OS-12-ads-and-ai-opening
ysekky
0
2.2k
JSAI2020インダストリアルセッション - Gunosyにおける研究開発 / jsai2020-gunosy-rd-examples
ysekky
1
820
ウェブサービス事業者における研究開発インターン[株式会社Gunosy] - テキストアナリティクスシンポジウム2019 / research-intern-case-study-at-gunosy
ysekky
0
3k
Gunosyにおけるニュース記事推薦/ news-recommendation-in-gunosy-webdbf2019
ysekky
1
1.6k
DEIM2019技術報告セッション - Gunosyの研究開発 / deim-2019-sponsor-session-gunosy-research
ysekky
0
1.3k
Analysis of Bias in Gathering Information Between User Attributes in News Application (ABCCS 2018)
ysekky
1
2.5k
世代による政治ニュース記事の閲覧傾向の違いの分析 - JSAI2018 / Analysis of differences in viewing behavior of politics news by age
ysekky
0
4.1k
Other Decks in Research
See All in Research
SoftMatcha 2: 1兆語規模コーパスの超高速かつ柔らかい検索
e869120_sub
6
3.5k
NLP colloquium: AI Safety Survey
kanekomasahiro
0
550
2026 東京科学大 情報通信系 研究室紹介 (すずかけ台)
icttitech
0
3.8k
2026年度 生成AI を活用した論文執筆ガイド/ワークショップ / 2026 Academic Year Guide to Writing Papers Using Generative AI - Workshop
ks91
PRO
0
170
Φ-Sat-2のAutoEncoderによる情報圧縮系論文
satai
4
770
多様なデータを許容し学習し続ける模倣学習 / Advanced Imitation Learning for VLA
prinlab
0
220
[チュートリアル] 電波マップ構築入門 :研究動向と課題設定の勘所
k_sato
0
480
LLM Compute Infrastructure Overview
karakurist
2
1.4k
英語教育 “研究” のあり方:学術知とアウトリーチの緊張関係
terasawat
1
990
社内データ分析AIエージェントを できるだけ使いやすくする工夫
fufufukakaka
1
1.1k
存立危機事態の再検討
jimboken
0
300
Unified Audio Source Separation (Defense Slides)
kohei_1979
1
610
Featured
See All Featured
Sam Torres - BigQuery for SEOs
techseoconnect
PRO
0
280
Imperfection Machines: The Place of Print at Facebook
scottboms
270
14k
The agentic SEO stack - context over prompts
schlessera
0
810
Designing Experiences People Love
moore
143
24k
Six Lessons from altMBA
skipperchong
29
4.3k
How to Build an AI Search Optimization Roadmap - Criteria and Steps to Take #SEOIRL
aleyda
1
2.1k
Designing for humans not robots
tammielis
254
26k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
1.1k
Leveraging LLMs for student feedback in introductory data science courses - posit::conf(2025)
minecr
1
280
Conquering PDFs: document understanding beyond plain text
inesmontani
PRO
4
2.8k
Building a Scalable Design System with Sketch
lauravandoore
463
34k
Transcript
B to Cサービスの現場から 考える機械学習活用 Yoshifumi Seki (Gunosy Inc) 2014.08.26 Machine
Learning Casual Talks #2
自己紹介 • 関 喜史 (Seki Yoshifumi) • 株式会社Gunosy 共同創業者 •
東京大学大学院博士後期課程在学中 • 専門 • コンテンツ評価・推薦システム・ユーザ行動分析
今日の話 機械学習×KPI 学術研究における評価とB to Cサービスにおける評価 グノシーにおける機械学習の導入・運用 学術知識の導入と活用
グノシー 累計500万DLのニュースアプリ • 2011年秋に東京大学の学生3人によりリリース • 3人ともデータマイニング関係の研究室に所属 • 興味にあったニュースを一日25記事配信するサービス • 2012年11月法人化
• 2014年3月にTVCM放送開始 • 合わせてアプリを大きくリニューアル • 「3分で旬のニュースをまとめ読み」
情報を世界中の人に最適に届ける
最適に届けるということ • スマートフォンの普及 • 新聞・雑誌・PCと全くことなるインタフェース • タイトルの重要性 • アクセシビリティ・回線スピード •
室内外問わないインターネットへの接続 • 情報流通量の増大 • 大手メディアのネット参入 • ブログの一般コンテンツ化 • キュレーションサイト・バイラルメディアなどの隆盛 • 興味の多様化
グノシーの機械学習タスク たくさんのURL 同一記事判定 カテゴリ推定 クオリティ予測 ユーザCTR予測 etc… 少数のURL
基本的な考え方 機械が得意なところは機械にやらせる 人が得意なところは人がやる
それぞれが得意なこと • 機械が得意なこと • 大量のデータを処理すること • 24時間働き続けること • 数値データから素早く意思決定をすること •
判断基準がすでに与えられている前提 • 人が得意なこと • 仮説を立てること • 人の気持ちを理解すること(対機械比) • ニュアンスを読み取ること
B to Cサービスでの課題 • 学術研究では過去のデータをいかに再現できるかを見る • Ex. 3年間の購買データを最初の1年のデータを使ってどれだけ再現で きたか •
機械学習が組み込まれる前とあとでユーザの行動は変わる • データセットによる検証によって成果を見積もることが困難 • 精度があがっても実際にユーザに刺さるかは別問題 • 重要なのはユーザの満足度 • 全体の予測性能より、カバレッジが影響する可能性もある • タスクによって変わる.あんまり予測できない • ユーザ層が変わればモデルが変わる. • サービスの成長に合わせてモデルが通用しなくなることがままある アカデミックでの評価がそのまま役に立つわけではない
タスクの進め方 1. 目標設定 2. 仮説立案 3. 簡易な実験 4. モデル実装・自動化 数値は神より正しい
1. 目標設定 • 改善目標となる数値をきめる • DAU/WAUだったりとか • N日後継続率だったりとか • Click/DAUだったりとか
• これを決めておかないとあとからいろいろ言い訳が効く • 「いやこんな側面もあるんですよ」 • 「こういう風に見ればいいところもあります」とか • タスクの優先順位をここから決める
2. 仮説立案 • その目標値を上げるための仮説 • 仮説なきモデル実装はやってはいけない • 「とりあえずこのモデル精度いいらしいから試そうよ〜」 • それはなぜ精度があがるのか?その上がる理由は自社が抱える課題と一致
しているのか • 精度があがって目標数値は上がるのか? • 仮説が正しかった場合,どの数値にどのような変化が生まれる のか • 成果がでなかったとき施策が間違っていたのか、仮説が間違っていた のかを知らなければならない • 成功・失敗は運だが、それは結果を正しく認識して試行を繰り返してこそ 意味がある
3. 簡易な実験 • ルールベース・人力などによって有効性を確認する • ルールや人力でやって成果がでないケースで機械学習で成果がでるこ とはあまりない • ルールをかけないのであればそれは仮説が詰め切れていな い
• 「機械学習使えばなんとか出来るだろ」は基本幻想 • 有効なFeatureは一般にそれ単体でも有効 • 数値の変化と仮説との比較
4. モデル実装・自動化 • ルールベース・人力で有効性が確認されたらモデル化・自動 化をすすめる • ここでやっと機械学習感でてくる • すべてをモデル化することを考えるのではなく効率のいいポイ ントを考える
• Ex. 人手を全部置き換えるのでなくある程度の絞込みを行う • サービスの改善によって重要なポイントが変わってくるため, それに対応しやすい形が理想 • 複雑なモデルはサービスの変化に対してついていけるのか? • この改善ポイントは複雑なモデルを組む価値はあるか • 基本的にモデルの解釈性と精度はトレードオフだったりする • 個人的にはなるだけ解釈性を高くしておきたいと考えている
進め方 • やる/やらないのジャッジはほとんどない • 小規模にやってみて数値をみながら拡大していく • そのためにも事前の目標数値設計が重要 • どれぐらい上がるかとかは正直わかんないので、どの数値を上げたいかぐら いの見積もり
• どれをやるかを考えている暇があったら全部やってみようぜという感じ • 施策が当たるか当たらないかは運。結果から学ぶ。 • 技術ありきでは考えない • ルールや人手であってもよくなるならやる • スケールするためには機械学習等が必要なのでやる
リスク管理 • ユーザが変わればモデルも変わる • 成長するサービスが立ち向かわなければいけない課題 • 成功体験にとらわれ過ぎないことが大事 • これは機械も人間も一緒 •
モデルの導入によって大きく下がったりする • 教師データ不足とかカバレッジ不足 • これまでと体験が変わること • 事前にはなかなか予測しにくい • 下がることがあることを踏まえてテストを実施する • 既存の体験を大きく変わるような変更は避ける • デザインなどもそうだが,機械学習の場合はコントロールしにくいので注 意する必要がある
学術知識の利活用 • いま何ができるようになっているかを知る • どのような考え方が成功しているかを知る • 流行りの勝ちパターンがある. • そのパターンは転用できることが多い •
手法の精度や結果より,なぜその手法を用いることの優位性 があるのかに注目する • その優位性が自分のサービスの課題を解決するものなのかを考える • そのモデルによってデータをどのように解釈することが可能になったの か? • これを理解してないと活用するのは難しい • 機械学習応用系の学会は参考になるのが多い • WWW, KDD, WSDMなど • 自分で使ったことがないと活用イメージわかない
まとめ • B to C向けの機械学習活用は学術研究とのギャップが大きい • B to Cは精度が目的ではなく、ユーザの満足度が目的 •
PrecisionやRecallではその結果は測れない • 上記指標でみているのは再現度 • 既存の体験 • リスクを把握した上で実サービス上で試していく姿勢が大事 • 実装コストが高いことが多いため、仮説ベースからルールや人力運用を 経由するのがよいと考える • リーンスタートアップにおけるMVP的な考え方 • ルールや人力運用が考慮できない場合はそもそもなにを目的として機 械学習を活用したいのかを考えるべき • 論文などを通してデータ活用の考え方は学ぶべき • 実務活用するために普段からいろんな手法を使っていること が重要
機械学習 × KPI • 機械学習だからって特別なことはそうない • アカデミック側の評価基準にとらわれないことが大事 • 大事なのはユーザをよりよくすること •
仮説をもってKPIを設計して取り組む • 実行する前にユーザの行動がどうなるか想像できるかどうかが重要 • サービスの拡大に対して断続的な改善を行う方法はまだ未知 かも • 新規ユーザの動向にはしっかり目を配る • 獲得チャネルとか、広告の訴求によって流入ユーザの行動傾向は大き く変わる.
宣伝 • グノシーでは一緒に働く仲間を募集しています! • クライアント・アドサーバ・ウェブ・データ解析 • “数値は神より正しい”に共感するみなさんぜひ! • データマイニングに関する勉強会を開催しています •
隔週で火曜日19:00 ~ • 次回は9/4 • 論文紹介 • 書籍輪読 • 次回: 「データ解析のための統計モデリング入門」 4章