＠ｃｏｓｍｅにおけるビッグデータのこれまでとこれから

株式会社アイスタイル＠ｃｏｓｍｅにおけるビッグデータのこれまでとこれからテクノロジー本部 R&D部芝　星帆

自己紹介芝　星帆（SHIBA SEIHO）株式会社アイスタイル　テクノロジー本部 R＆D部　技術開発グループ所属＠ｃｏｓｍｅアプリのバックエンドAPIの開発スマホ版＠ｃｏｓｍｅの速度改善プロジェクト今後のビッグデータ統括に向け収集基盤の開発言語 Go/PHP/Scala

アジェンダ • istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

• istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

istyleとは • ＠ｃｏｓｍｅ（コスメ・美容総合サイト）や関連する他サービスの運営

istyleとは • ＠ｃｏｓｍｅ以外にもこんなことをやっています ◦ ECサイト（＠ｃｏｓｍｅｓｈｏｐｐｉｎｇ）運営 ◦ 全国の小売店（＠ｃｏｓｍｅｓｔｏｒｅ）やプライベートブランドの展開
◦ 海外の化粧品サイトとの連携 ◦ 海外への小売店の展開

istyleとは

istyleが持っているデータ

istyleの目指すもの商品とヒトをつなぐブランドとヒトをつなぐ店舗とヒトをつなぐ美容関係者とヒトをつなぐ美容に関わるあらゆるモノ・コト・ヒト・場所をつなげること

istyleだから出来ること２０年蓄積した情報２０年培ったつながりビッグデータを活用したビジネスへの進化

これまでのistyleにおけるビッグデータ活用① • レコメンデーションシステム ◦ ユーザー閲覧情報から推測したおすすめコンテンツの表示

これまでのistyleにおけるビッグデータ活用① • 抱える課題 ◦ 精度の低さ ▪ レコメンドエンジンは外注 ▪ そのため更新頻度、データの粒度、学習アルゴリズムを容易に
変更できない

これまでのistyleにおけるビッグデータ活用② • ブランド向けユーザーデータ解析ツールの展開 ◦ ALCOS ▪ Analyzer for Cosmetics の略。＠ｃｏｓｍｅのデータ
とソーシャルメディア情報を連携した、美容特化のASP 型の⾏活者⾏動分析ツール

これまでのistyleにおけるビッグデータ活用② • 抱える課題 ◦ データの取得範囲 ▪ 今まではSNSへの連携・投稿と、アクセス行動から割り出せる範囲でのユーザーデータ分析 ▪ 期間・コンテンツも限定的
ユーザーとブランドやメーカーとのつながりを強めるにはより多くのデータと、より多彩な分析が必要！

課題を解決するために • 社内でもビッグデータ収集が開始 ◦ サービスを超えたログデータ収集基盤の構築 ◦ ユーザー行動トラッキングデータの収集 ▪ アクセス数から算出されるフィードの表示数が理論値では100億を超える。そのためGoogleAnalyticsは使用でき
ず、独自イベントでの計測を行う

社内ビッグデータ環境の変遷 2017年１月：データ基盤構想が開始（Hadoop環境の構築） 2017年同月：自社トラッキングシステムから、インプレッションの収集を開始 2018年６月：アクセスログ収集開始 2019年３月：機械学習プロジェクト開始新しく一部のログ基盤とアクション基盤を作り変える集積データの活用を開始 2019年４月：トラッキングデータの一部を解析に利用開始

データを扱うためには収集からこの商品好き！この商品持ってる！アクセスログクチコミ投稿ブログ投稿この商品を紹介したい！トラッキングイベント

使った技術 • Spark ◦ 巨大なデータに対して高速に分散処理を行うためのフレームワーク ◦ Resilient Distributed Datasetsによって分
散共有メモリを実現し、インメモリでデータにアクセスする ◦ Hadoop上のYARNによってSparkのリソースを管理している

使った技術 • Apache Kafka ◦ 分散メッセージキューを行うミドルウェア ◦ リアルタイムアプリケーションとマイクロサービスを実現する
◦ スケーラブルでユースケース規模によらず高い耐障害性で利用可能 ◦ 個別の処理用クラスタが不要 ◦ Java、Scalaアプリケーションの作成ができれば誰でも使える

データ集約からデータ活用のフェーズへ • Hadoop上にログ基盤、ユーザーアクションデータ基盤を構築 • ４ヶ月で集約したデータサイズ：11TB程度 • データ活用のフェーズへと移行

データ活用例 • 機械学習によるレコメンデーションシステムの構築 ◦ 今まで外注していたものの内製化によって、ユーザーの体験を向上させる

レコメンデーションの改善 • 内製化することで得られるメリット ◦ 学習に扱えるデータの多様性が増す ◦ パラメータ調整やアルゴリズム検証が容易となる ◦ データ更新頻度を上げることができる

概要図ユーザーの行動データを集約ユーザー行動データから ALSによってクラスタリング化を行うレコメンデーションデータを提供ユーザーの求めるコンテンツを表示

使った技術 • PySpark ◦ Sparkを実行するためのPythonAPI ◦ ワーカーノードでの処理をPythonプロセスで実行する ◦ PyDataのライブラリと組み合わせて実行で
きる ◦ MLのライブラリもほぼ使用できる

得られた効果 • 飛躍的な効果はまだ見られない ◦ クリック率向上　→　× ◦ 回遊率の向上　→　× • 原因として考えられる内容 ◦
コンテンツの表示方法？ ◦ 表示件数？ ◦ レコメンデーションとしての精度の低さ今後の課題となる POINT

レコメンデーション精度の向上にむけて • 学習データの拡充 ◦ 内製化によって扱うデータの多様化 ◦ データの変更や調整が容易 ◦ これまで週次だった学習モデル化を日次で行えるようになりユーザーへの反映頻度が向上
• 学習データの調整 ◦ 都度数字の動向をみてパラメータ調整を行える ◦ 各種アルゴリズムの適応や検証が可能に

運用を開始して… • ファイルフォーマットの変更 ◦ 開発初期はログフォーマットとしてAvroを採用 ▪ 理由 • スキーマ定義が必要だったためJSONは除外 •
ORCも使えるソフトウェアが限られるため除外 • kafka streamsとの高い互換性によってAvroを採用 ◦ 中盤で標準をParquetに変更 ▪ 理由 • Spark2.2ではAvroの読み込みにパッケージインポートが必要であり保守が困難であった • 今後追加されていく予定の大量なデータを見据えてカラムナフォーマットに変更したかった

運用を開始して… • ログ収集が一時停止した ◦ 原因 ▪ 設定変更の反映のためHDFS再起動が必要となった ▪ Kafka connectorを停止せずに再起動したため、
connectorのログファイルが破損 ▪ Kafka側エラーが発生しログの取得が停止 ◦ 解決方法 ▪ HDFS再起動時は接続するKafka connectorの停止をしてから実施

実現までに苦労したこと • 学習コスト ◦ 開発開始時、ほぼ全員ビッグデータ運用未経験 • 初期基盤構築 ◦ 構築時の情報が社内ナレッジに残されていない ◦
物はあるのに使えない状態からのスタートそれぞれが学んだ内容をレビューやディスカッションで共有していく知識の定着もかねてナレッジへの文書化

実現までに苦労したこと • 適切な設定値が分からない ◦ リソースの割当 ◦ 実行メモリ ◦ パーティション設定 •
ファイルブロック数の肥大化調査しながらトライ・アンド・エラーで設定していくファイル作成頻度の見直し・定期的なコンパクションの実行

これからのデータ活用方法 • ユーザーに対しておすすめできるのはコンテンツだけではない ◦ 肌質や髪質、年代といったユーザー固有の情報からより高精度な商品とのマッチング ◦ ユーザーの行動からリアルタイムなデータの活用によってサロンや美容スペシャリストとのデータ連携
◦ つながりを活かしてその瞬間ユーザーが求めている情報を提供する

これからのデータ活用方法 • ビジネスパートナーへの展開 ◦ ＠ｃｏｓｍｅに集まるデータをビジネスパートナーのニーズに合わせて集約 ◦ これまでのデータ解析ツールでは実現しなかった情報を分析できるようにする ◦
そのためにはより多くの情報を集積や、分析方法の確立をおこなう

目指すところ • 社内でバラバラに存在しているデータを集約して一元化されたデータレイクを構築 • サービス内でどんな変化があったかをリアルタイムに蓄積し続ける • より多彩な分析・解析や機械学習を行うための基盤となる

理想のアーキテクチャ図

理想の実現に向けての課題 • 取得データの多様化 ◦ 既存サービスとの連携 ◦ これまでの過去のデータの発掘 ◦ 今後必要となるデータの選別 •
リソース ◦ 人・時間・サーバーの十分な確保 • ナレッジの充足 ◦ 技術知識の吸収と社内エンジニアへの展開

今日お話したこと • istyleとは ◦ 事業紹介、これまでのistyleについて • istyleにおけるビッグデータ基盤 ◦ データ集約基盤と使った技術について •
istyleにおけるビッグデータ活用例 ◦ レコメンデーションシステムのための機械学習によるデータ活用について • これからのビッグデータ活用 ◦ 今後のVisionについて

istyleでは下記のような方を募集しています！これからのビッグデータ基盤を支えたい！ビッグデータ基盤を一緒に作り上げたい！ビッグデータについて新しく学びたい！

＠ｃｏｓｍｅにおけるビッグデータのこれまでとこれから

＠ｃｏｓｍｅにおけるビッグデータのこれまでとこれから

grassy-48

Other Decks in Technology

Featured

Transcript

株式会社アイスタイル＠ｃｏｓｍｅにおけるビッグデータのこれまでとこれからテクノロジー本部 R&D部芝　星帆

アジェンダ • istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

• istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

istyleとは • ＠ｃｏｓｍｅ（コスメ・美容総合サイト）や関連する他サービスの運営

istyleとは • ＠ｃｏｓｍｅ以外にもこんなことをやっています ◦ ECサイト（＠ｃｏｓｍｅｓｈｏｐｐｉｎｇ）運営 ◦ 全国の小売店（＠ｃｏｓｍｅｓｔｏｒｅ）やプライベートブランドの展開

istyleとは

istyleが持っているデータ

istyleの目指すもの商品とヒトをつなぐブランドとヒトをつなぐ店舗とヒトをつなぐ美容関係者とヒトをつなぐ美容に関わるあらゆるモノ・コト・ヒト・場所をつなげること

istyleだから出来ること２０年蓄積した情報２０年培ったつながりビッグデータを活用したビジネスへの進化

これまでのistyleにおけるビッグデータ活用① • レコメンデーションシステム ◦ ユーザー閲覧情報から推測したおすすめコンテンツの表示

これまでのistyleにおけるビッグデータ活用① • 抱える課題 ◦ 精度の低さ ▪ レコメンドエンジンは外注 ▪ そのため更新頻度、データの粒度、学習アルゴリズムを容易に

これまでのistyleにおけるビッグデータ活用② • ブランド向けユーザーデータ解析ツールの展開 ◦ ALCOS ▪ Analyzer for Cosmetics の略。＠ｃｏｓｍｅのデータ

これまでのistyleにおけるビッグデータ活用② • 抱える課題 ◦ データの取得範囲 ▪ 今まではSNSへの連携・投稿と、アクセス行動から割り出せる範囲でのユーザーデータ分析 ▪ 期間・コンテンツも限定的

• istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

データを扱うためには収集からこの商品好き！この商品持ってる！アクセスログクチコミ投稿ブログ投稿この商品を紹介したい！トラッキングイベント

使った技術 • Spark ◦ 巨大なデータに対して高速に分散処理を行うためのフレームワーク ◦ Resilient Distributed Datasetsによって分

使った技術 • Apache Kafka ◦ 分散メッセージキューを行うミドルウェア ◦ リアルタイムアプリケーションとマイクロサービスを実現する

データ集約からデータ活用のフェーズへ • Hadoop上にログ基盤、ユーザーアクションデータ基盤を構築 • ４ヶ月で集約したデータサイズ：11TB程度 • データ活用のフェーズへと移行

• istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

データ活用例 • 機械学習によるレコメンデーションシステムの構築 ◦ 今まで外注していたものの内製化によって、ユーザーの体験を向上させる

レコメンデーションの改善 • 内製化することで得られるメリット ◦ 学習に扱えるデータの多様性が増す ◦ パラメータ調整やアルゴリズム検証が容易となる ◦ データ更新頻度を上げることができる

概要図ユーザーの行動データを集約ユーザー行動データから ALSによってクラスタリング化を行うレコメンデーションデータを提供ユーザーの求めるコンテンツを表示

使った技術 • PySpark ◦ Sparkを実行するためのPythonAPI ◦ ワーカーノードでの処理をPythonプロセスで実行する ◦ PyDataのライブラリと組み合わせて実行で

得られた効果 • 飛躍的な効果はまだ見られない ◦ クリック率向上　→　× ◦ 回遊率の向上　→　× • 原因として考えられる内容 ◦

運用を開始して… • ファイルフォーマットの変更 ◦ 開発初期はログフォーマットとしてAvroを採用 ▪ 理由 • スキーマ定義が必要だったためJSONは除外 •

運用を開始して… • ログ収集が一時停止した ◦ 原因 ▪ 設定変更の反映のためHDFS再起動が必要となった ▪ Kafka connectorを停止せずに再起動したため、

実現までに苦労したこと • 学習コスト ◦ 開発開始時、ほぼ全員ビッグデータ運用未経験 • 初期基盤構築 ◦ 構築時の情報が社内ナレッジに残されていない ◦

実現までに苦労したこと • 適切な設定値が分からない ◦ リソースの割当 ◦ 実行メモリ ◦ パーティション設定 •

• istyleとは • istyleにおけるビッグデータ基盤 • istyleにおけるビッグデータ活用例 • これからのビッグデータ活用

理想のアーキテクチャ図

理想の実現に向けての課題 • 取得データの多様化 ◦ 既存サービスとの連携 ◦ これまでの過去のデータの発掘 ◦ 今後必要となるデータの選別 •

今日お話したこと • istyleとは ◦ 事業紹介、これまでのistyleについて • istyleにおけるビッグデータ基盤 ◦ データ集約基盤と使った技術について •

istyleでは下記のような方を募集しています！これからのビッグデータ基盤を支えたい！ビッグデータ基盤を一緒に作り上げたい！ビッグデータについて新しく学びたい！