Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Hadoop, Recommendation and Machine Learning
Search
Takumi Yoshida
July 17, 2014
Technology
81
0
Share
Embed
Copy iframe code
Copy JS code
Copy link
Start on current slide
Hadoop, Recommendation and Machine Learning
Exa Value Forlum 2014
Takumi Yoshida
July 17, 2014
More Decks by Takumi Yoshida
See All by Takumi Yoshida
4 Useful Tips for Running Spark!
yoshi0309
1
2.7k
Impression of using CloudSearch
yoshi0309
0
5.9k
Other Decks in Technology
See All in Technology
LayerXにおけるセキュリティ管理の現在地と次の一手
tosho
0
220
2026年6月23日 Syncable Tech + Start Python Club にて
hamukazu
0
120
FinOps × AIエージェントで実現する コストインシデントの自動調査
oasis1994liveforever
0
150
気づかぬうちにセキュリティ負債を生むAPIキー運用
sgwrmctk
0
160
2026TECHFRESH畢業分享會 - Lightning Talk - 資料也要 CI/CD? 用 Airbyte 自動化資料同步
line_developers_tw
PRO
0
1.1k
手塩にかけりゃいいってもんじゃない
ming_ayami
0
590
AIっぽい文章を採点して人間らしく直すアプリを作ってみた
yama3133
2
200
日本 Fintech 未来予測レポート 2027〜2028年(オリジナル版)
8maki
0
2.3k
アンオフィシャルな、オフィシャルからのお願い
wyamazak_devrel
0
120
【セミナー資料】Claude Code をセキュアに使うための考え方と設定の勘どころ / Claude Code Webinar 20260616
masahirokawahara
2
370
プロダクト開発から業務改善コンサルまで。事業全体へ「染み出す」ことで広がるエンジニアの可能性
ham0215
0
130
AmazonRoute 53ではじめてのドメイン取得!HTTPS化までの道のりを整理してみた
usanchuu
3
140
Featured
See All Featured
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
35k
Unlocking the hidden potential of vector embeddings in international SEO
frankvandijk
0
840
Learning to Love Humans: Emotional Interface Design
aarron
275
41k
New Earth Scene 8
popppiees
3
2.3k
The State of eCommerce SEO: How to Win in Today's Products SERPs - #SEOweek
aleyda
2
11k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
170
Un-Boring Meetings
codingconduct
0
310
What Being in a Rock Band Can Teach Us About Real World SEO
427marketing
0
250
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
1
540
Fashionably flexible responsive web design (full day workshop)
malarkey
408
66k
VelocityConf: Rendering Performance Case Studies
addyosmani
333
25k
Designing for humans not robots
tammielis
254
26k
Transcript
Copyright © 2014 EXA Corporation All rights reserved. Hadoop Recommendation
Machine Learning 2014/7/16 EVF2014 スマートプレイス開発部 吉田 匠 本文中の会社名・製品名・サービスネームについて Amazon Web Services は Amazon.com, Inc.の商標または登録商標です。 Apache Hadoop は Apache Software Foundationの商標または登録商標です。 hybris は hybris AGの商標または登録商標です。 その他、すべての会社名・製品名・サービスネームは、それぞれ各社の商標または 登録商標もしくはサービスマークです。
Copyright © 2014 EXA Corporation All rights reserved. 2 自己紹介
•吉田 匠 – スマートプレイス開発部 – 11 年目 •検索エンジンを苦節(?)8年 – 社内、コーポレートサイト、ECサイト – Apache Solrが主力、Elasticsearch は次世代のホープ! – 昔は、FAST ESP / Autonomy IDOL / Verity K2 など •今年のテーマはクラウドと機械学習 – AWS ソリューションアーキテクト取りました! – Softlayer は勉強中 ? – Hadoop / Mahout を中心に調査・検証
Copyright © 2014 EXA Corporation All rights reserved. 3 本日のメニュー
•ことの経緯 – スマートプレイスについて – Hadoop についてのおさらいと最新の動向 •レコメンドとは – レコメンドの基本的な仕組みと課題 – オムニチャネル・レコメンド •機械学習への応用 – 機械学習とは – 現実的な課題と皆様へのお願い
Copyright © 2014 EXA Corporation All rights reserved. 4 ことの経緯
Copyright © 2014 EXA Corporation All rights reserved. 5 スマートプレイスとは?
店舗、通販、ネットというように複数チャネルを顧客に合わせて使い分ける”マルチチャネル”によるコミュニケーション から、顧客を中心にすべてのチャネルを連携して考え、商品の認知から、検討、購買に至る一連の購買またはマーケ ティングプロセスで横串を刺してチャネルを併用して顧客にアプローチしていく”オムニチャネル”によるコミュニケーショ ンに変化しています。 店舗、通販、ネットというように複数チャネルを顧客に合わせて使い分ける”マルチチャネル”によるコミュニケーション から、顧客を中心にすべてのチャネルを連携して考え、商品の認知から、検討、購買に至る一連の購買またはマーケ ティングプロセスで横串を刺してチャネルを併用して顧客にアプローチしていく”オムニチャネル”によるコミュニケーショ ンに変化しています。 顧客 オンライン Eメール 携帯電話 コール・ センター 店舗 キオスク、 ATMなど POS 郵便 企業 「マルチチャネル」から 「オムニチャネル」へ
Copyright © 2014 EXA Corporation All rights reserved. 6 スマートプレイスとは?
Copyright © 2014 EXA Corporation All rights reserved. 7 スマートプレイスとは?
Copyright © 2014 EXA Corporation All rights reserved. 8 スマートプレイスとは?
レコメンデーションが無い! 売上やキャンペーンの予測分析もしたい!
Copyright © 2014 EXA Corporation All rights reserved. 9
Copyright © 2014 EXA Corporation All rights reserved. 10 Hadoop
とは? •Hadoop とは、分散ファイルシステム(HDFS)を使用した、 高速なバッチ処理基盤です。 •大量のデータを高速にバッチ処理できるという効果が あります。 – 多数のマシンに分散することで、高スループットを実現し処理 時間を短縮 •MapReduce というフレームワークに沿って処理を記述 する(プログラミングする)必要がありました。 – Hive (SQL) – Pig (DSL) – Hbase (KVS、DWH) – Mahout (機械学習、レコメンド)
Copyright © 2014 EXA Corporation All rights reserved. 11 Hadoop
とは? 出典:How jStart is leveraging distributed computing for business http://www-01.ibm.com/software/ebusiness/jstart/hadoop/ 数十GBからTB程度 の巨大なテキスト ファイル 細かくばらして、 分散して保持。 行単位で処理 サーバーごとに 処理した結果を 集計、結合。 特別なハードは不要、 普通のサーバーで動く
Copyright © 2014 EXA Corporation All rights reserved. 12 Hadoop
Conference Japan 2014 •7月8日(火) @ベルサール汐留 •参加者: 1299人 •私服組(Web系企業)が 多いが、メッセージ ボードを見ると SIer も 多数参加。 •YARN (MRv2)、Spark および関連アプリ、 機械学習のセッションが 中心。
Copyright © 2014 EXA Corporation All rights reserved. 13 最近の
Hadoop の動向 •開発開始からおよそ10年。安定、普及期へ。 – Web系だけでなく、一般企業も検討を始めている •MapReduce からの脱却、パフォーマンスが劇的に 向上。リアルタイム性をうたいはじめる。 – 2013年10月 – Hadoop 2 リリース (MRv2 / YARN) – 2014年 5月 – Apache Spark リリース 出典:[第2回]Hadoopの生い立ち http://itpro.nikkeibp.co.jp/article/COLUMN/20120215/381721/
Copyright © 2014 EXA Corporation All rights reserved. 14 大規模リアルタイムデータ処理
Data Source / Connector / Crawler Processing Store fluentd Elasticsearch Apache Flume Apache Storm RabbitMQ Queuing Hadoop HDFS NoSQL Apache Kafka Amazon Kinesis Amazon EMR Amazon Redshift Amazon Dynamo Treasure Data Amazon SQS Apache Spark Hadoop MapReduce クラウド Amazon S3
Copyright © 2014 EXA Corporation All rights reserved. 15 大規模リアルタイムデータ処理
•大量のデータに、繰り返し集計や統計処理を行い、 業務上、優位なデータを生成する •Hadoop の MapReduce を使ったソリューションがバッチ 処理であった点に対し、処理を分散して高速化する優位性 を、リアルタイムに 実現する •Applications – 売上やアクセス数の一時間あたりの速報値(KPI ダッシュボード) – センサーデータ分析 – リアルタイム・レコメンド (生放送のコメントに連動した レコメンド) 速いは正義!
Copyright © 2014 EXA Corporation All rights reserved. 16 出典:Hadoop
Summit 2014でホートンワークスが示したスライドより http://itpro.nikkeibp.co.jp/article/COLUMN/20140619/565326/
Copyright © 2014 EXA Corporation All rights reserved. 17 余談ですが・・・
•検索ライブラリ Apache Lucene と生みの親が同じ •検索エンジンも、Hadoopと同じく大量のデータを扱う Dug Cutting - Lucene - Nutch - Hadoop - Solr は別の人。(Yonick Seely @ CNET Networks)
Copyright © 2014 EXA Corporation All rights reserved. 18 レコメンドとは
Copyright © 2014 EXA Corporation All rights reserved. 19 Amazon
の例 出典: Amazon.co.jp
Copyright © 2014 EXA Corporation All rights reserved. 20 Amazon
の例 出典: Amazon.co.jp
Copyright © 2014 EXA Corporation All rights reserved. 21 レコメンドの仕組み
•利用者の動線に基づいた共起分析 – 次に何をおすすめしますか? 安藤さん ◦ ◦ 佐藤さん ◦ ◦
Copyright © 2014 EXA Corporation All rights reserved. 22 オムニチャネル時代のレコメンド
•さまざまなチャネルでの利用履歴を元にした レコメンド – オンラインでの購入履歴を元に、店舗でおすすめ (タブレットと合わせてコンシェルジュ) •パーソナライゼーション •速さ(早さ)は正義! – 今日、今、おすすめすべき商品は何か? 次世代オムニチャネル・レコメンド
Copyright © 2014 EXA Corporation All rights reserved. 23 機械学習への応用
Copyright © 2014 EXA Corporation All rights reserved. 24 機械学習とは?
•機械学習とは「明示的にプログラミングする ことなく、コンピュータに行動させるように する」 – コンピューターでアルゴリズムを構築し、学習 データを読み込ませることで、自動的に今ある データを分類&まだ見ぬデータを予測できるように する – ヒトの情報処理能力を超えて、複雑なデータを分類 &予測できるようにする レコメンドも機械学習の一種 ノウハウが貯まれば、Hadoopと合わせて横展開が可能
Copyright © 2014 EXA Corporation All rights reserved. 25 簡単な機械学習の例
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 Y の値 クラスA クラスB
Copyright © 2014 EXA Corporation All rights reserved. 26 簡単な機械学習の例
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 Y の値 クラスAの重心 クラスBの重心
Copyright © 2014 EXA Corporation All rights reserved. 27 簡単な機械学習の例
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 Y の値 境界面 プロトタイプA プロトタイプB
Copyright © 2014 EXA Corporation All rights reserved. 28 簡単な機械学習の例
0 1 2 3 4 5 6 7 0 1 2 3 4 5 6 Y の値 入力データXのクラスは? 入力データYのクラスは?
Copyright © 2014 EXA Corporation All rights reserved. 29 応用例:巡回セールスマン問題
•膨大な組み合わせの中から最適な解を見つけ出す。 – 全ての街を訪れること。 – 同じルートは2度通れない。 – 最も安いルートを通ること。 全ての組み合わせ数 = n! / 2n 通り 5箇所 = 12通り 10箇所 = 181440 30箇所 = 10の30乗 わずか30箇所で、 10の30乗!!!
Copyright © 2014 EXA Corporation All rights reserved. 30 高度な業務領域の知識が必須
– 分析したい事象の特徴を示すパラメータが必要 •手書き文字の OCR の例 – 故障に関連するパラメータは? •ワット数、電流、電圧、長さや重さ、気温、天気、湿度、 温度、使用時間、利用者、使用方法・・・ •手法や繰り返し分析することで、関連するパラメータを 推定することが可能だが“あたり”をつける必要がある。 色 角度 大きさ・位置 →意味の無い パラメータ
Copyright © 2014 EXA Corporation All rights reserved. 31 ソリューションへの応用
•異常検知 – 機器から出力されるパラメータを 元に、異常な挙動を検知し、事故や 故障を未然に防止する。 – 例)クレジットカードの不正利用 •予防保守 – いつ故障しそうか、過去のデータから 推測する。 – 部品の交換の頻度や、生産ラインを 休止する頻度を下げることができる。
Copyright © 2014 EXA Corporation All rights reserved. 32 まとめ
Copyright © 2014 EXA Corporation All rights reserved. 33 まとめ
•Hadoop は、安定化・高速化し、Web系 から一般企業へ浸透し始めている •オムニチャネル・コマースにあった、 オムニチャネル・レコメンドを 提案します。 •機械学習の適用には業務知識が必須 エクサには実現するノウハウがありま す。
Copyright © 2014 EXA Corporation All rights reserved. 34 Q&A
Copyright © 2014 EXA Corporation All rights reserved. ご静聴ありがとうございました。