Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
機械学習を使ったレシピ調理手順の識別
Search
開発室Graph
July 27, 2018
Technology
2
2k
機械学習を使ったレシピ調理手順の識別
機械学習を使ってレシピの調理手順を識別する話です。
開発室Graph
July 27, 2018
Tweet
Share
More Decks by 開発室Graph
See All by 開発室Graph
技術を楽しもう/enjoy_engineering
studio_graph
1
460
めちゃくちゃ悩んでクックパッドに新卒入社して1年経った/newgrads_event2020
studio_graph
7
5.5k
クックパッドでの機械学習開発フロー/ml-ops-in-cookpad
studio_graph
8
14k
DWHを活用した機械学習プロジェクト/ml-with-dwh
studio_graph
6
5k
無理をしない機械学習プロジェクト2/step_or_not2
studio_graph
9
9.7k
知識グラフのリンク予測におけるGANを用いたネガティブサンプルの生成
studio_graph
4
3.7k
Other Decks in Technology
See All in Technology
0→1事業こそPMは営業すべし / pmconf #落選お披露目 / PM should do sales in zero to one
roki_n_
PRO
1
1.9k
Godot Engineについて調べてみた
unsoluble_sugar
0
440
2025年の挑戦 コーポレートエンジニアの技術広報/techpr5
nishiuma
0
150
embedパッケージを深掘りする / Deep Dive into embed Package in Go
task4233
1
220
Reactフレームワークプロダクトを モバイルアプリにして、もっと便利に。 ユーザに価値を届けよう。/React Framework with Capacitor
rdlabo
0
140
Amazon Route 53, 待ちに待った TLSAレコードのサポート開始
kenichinakamura
0
190
Goで実践するBFP
hiroyaterui
1
120
ABWGのRe:Cap!
hm5ug
1
140
コロプラのオンボーディングを採用から語りたい
colopl
5
1.4k
Cloudflareで実現する AIエージェント ワークフロー基盤
kmd09
0
300
EMConf JP の楽しみ方 / How to enjoy EMConf JP
pauli
2
150
RubyでKubernetesプログラミング
sat
PRO
4
160
Featured
See All Featured
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
45
2.3k
The Power of CSS Pseudo Elements
geoffreycrofte
74
5.4k
Designing for Performance
lara
604
68k
The Language of Interfaces
destraynor
155
24k
Six Lessons from altMBA
skipperchong
27
3.6k
Build The Right Thing And Hit Your Dates
maggiecrowley
33
2.5k
Building Your Own Lightsaber
phodgson
104
6.2k
Intergalactic Javascript Robots from Outer Space
tanoku
270
27k
How to Think Like a Performance Engineer
csswizardry
22
1.3k
Reflections from 52 weeks, 52 projects
jeffersonlam
348
20k
What's in a price? How to price your products and services
michaelherold
244
12k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
Transcript
機械学習を使った レシピ調理手順の識別 C-8 #devsumiC クックパッド株式会社 研究開発部 エンジニア 1
クックパッド • 毎日の料理を楽しみにするサービス • 月間約5,500万人 • レシピ数は290万品 • 大量の画像・テキストデータ •
ユーザがレシピを書いて投稿 ◦ かなり自由な投稿が可能 ◦ 気軽に投稿できる 2
課題の設定 3
調理手順 • クックパッドのレシピ ◦ タイトル ◦ 材料・分量 ◦ 調理手順 ▪
画像とテキストで入力 できる 4
調理手順 or Not • 調理の手順そのものではないもの (非手順)がある • 料理に関する手順のみを抜き出した い ↓
• 非手順を識別するアルゴリズム を作った 5
ルールベースな方法を試す 6
機械学習を使わずに解けないか • データを眺めて開発者が自ら解いてみる ◦ 非手順には出てくる単語が限られている ◦ 文章全体を見ることはなく特定のキーワードで判断していた • まずはキーワード抽出でできないかやってみる •
機械学習を使わずに済むならそれに越したことはない ◦ メンテナンスも楽だし可読性も高い 7
キーワード抽出でやってみる • 非手順 ◦ 人気レシピに多い ◦ 必ず調理手順の後ろの方に存在 • 人気レシピの調理手順のうち後ろ10件 を取得する
• キーワードを抽出する ◦ 単語ごとに分割する ◦ 多く出現する順に並べる ◦ ['掲載', 'つくれぽ', '話題', '感謝', 'み なさん', '100人', 'レシピ', 'コメント', ' れぽ', 'ありがとう'] 8
キーワード抽出はうまくいかない • うまくいかない例 ◦ 上に三つ葉を散らしたらできあがり→非手順と判定 ◦ ◦◦さんがマヨネーズを足して作ってくれました→手順と判定 • Accuracy(正解率) ◦
51.7% 9
機械学習を試す 10
機械学習を試してみる • まずはスコアを出すことを第一に考える • 一般的な手法に頼る ◦ キーワードの組み合わせの出現の特徴量を使って分類 ▪ TF-IDFベクトル •
単語の出現回数を重み付けしたもの ▪ ロジスティック回帰 • データを2値分類する手法 11
92.4% Accuracy 12
実験だけでなくリリースまでやる • サービスから参照可能にするためにデータベースに投入 ◦ 毎週ペアプロしながらバッチにしていった ◦ スコアを確認しつつリファクタリング • 実際にサービスへ投入予定 ◦
スマートピーカーによるレシピの音声読み上げ ◦ レシピ検索のインデックスからの除外 13
まとめ 14
やるべきことをやるべき順でちゃんとやる • ディスカッション/ヒアリング しながら進めた ◦ 1人で黙々とやるものではない ◦ 課題設定も含めタスクの全行程で行った • 一般的な手法を使った
◦ 一般的な手法でちゃんとうまくいった ◦ ディープラーニングはうまくいかなかったときに使う • きちんと性能をチェックした ◦ 正解率だけを見ない ◦ 機械学習には性能をチェックする方法がいくつかある • ちゃんとバッチ化をした • 結果を記録に残していく 15