Upgrade to Pro — share decks privately, control downloads, hide ads and more …

日本酒レコメンドシステム構築のご提案

Toyoaki
September 09, 2020

 日本酒レコメンドシステム構築のご提案

Toyoaki

September 09, 2020
Tweet

Other Decks in Business

Transcript

  1. 2 ͱ サマリ 分析ゴール • ⾃分に合った⽇本酒を家で探せるようになる • 思いもしなかった⽇本酒との出会いをアレンジする アウトプット •

    ⽇本酒のレコメンドプログラム/データセット 分析⼿法 • アイテムベースでコサイン類似度を⽤いたレコメンドシステム • (チャレンジ⽬標)過去の検索実績に基づき、類似した⽇本酒が提⽰され る 評価⽅法 • データセットの整備 • レコメンドプログラムコードの準備&稼働 • (チャレンジ⽬標)システムのWeb化 使⽤するデータ • 書籍、Web上の⽇本酒データ ビジネス課題 • コロナ禍で⽇本酒との出会いが減っている、酒蔵巡りにいけない • Web⼝コミサイトで⽇本酒を選ぶのは定性情報によることが多い • 定量分析を⽤いた⽇本酒推奨サービスは種類/地理的制約 →驚きのある新しい⽇本酒との出会いが減っている KPIとその⽬標 • 1000種類以上の⽇本酒から好みの⽇本酒を探せる ©Toyoaki Kobayashi, all right reserved.
  2. 3 ͱ 課題と背景 ©Toyoaki Kobayashi, all right reserved. • コロナ禍で⽇本酒との出会いが減っている、酒蔵巡りにいけない

    • Web⼝コミサイトで⽇本酒を選ぶのは定性情報によることが多い • 定量分析を⽤いた⽇本酒推奨サービスは種類/地理的制約 →驚きのある新しい⽇本酒との出会いが減っている 今までの⽇本酒との出会い⽅は︖ 旅⾏/飲⾷店/ 酒蔵巡り ⼟地や⾷を通じて、 思いがけない⽇本酒との出会い コストがかかる コロナ禍で外出が難しい Web・⼝コミサ イト https://www.saketime.jp/ https://www.hasegawasaketen.com/blog/sake_search/ AIを⽤いた⽇本 酒レコメンド/ (地区限定) https://yummysake.jp/store/ ⾃宅で⾊んな⽇本酒を探せる コストがかからない 定性情報中⼼で時間がかかる、 ⼈が介在するので、検索に制限 AIを通じて、⾃分の味覚に沿っ た新しい⽇本酒がすぐ飲める レコメンド種類数が制約 店舗が東京限定、コロナ禍で 外出が難しい
  3. 4 ͱ ⽇本酒レコメンドシステムのご提案 ©Toyoaki Kobayashi, all right reserved. • ⾃分に合った⽇本酒を家で探せるようになる

    • 思いもしなかった⽇本酒との出会いをアレンジする • 1000種類以上の⽇本酒から好みの⽇本酒を探せる 提案する⽇本酒との出会い⽅は︖ ローコストかつ簡単に膨⼤な数の⽇本酒の中からレコメンドされる ⼈を介さず、誰でも⼊⼒された⽇本酒と類似する⽇本酒を⾒つけられる まだ⾒たことのない⽇本酒に出会える 実際にすぐに試飲ができない、すぐに購⼊につなげられない データ分析×⽇本酒=家にいながら⾃分がまだ⾒たことない⽇本酒に出会うことができる ⽇本酒データを⼊⼒ 1000種類以上のデータベース から類似する⽇本酒を出⼒ 気になった⽇本酒を酒蔵HPや Web販売サイト/⼝コミサイトでチェック ⽇本酒レコメンドシステム 既存Webサイト https://www.saketime.jp/ https://www.hasegawasaketen.com/blog/sake_search/
  4. 5 ͱ 分析の⽬的とターゲットKPI ©Toyoaki Kobayashi, all right reserved. 分析ゴール •

    ⾃分に合った⽇本酒を家で探せるようになる • 思いもしなかった⽇本酒との出会いをアレンジする ビジネス課題 • コロナ禍で⽇本酒との出会いが減っている、酒蔵巡りにいけない • Web⼝コミサイトで⽇本酒を選ぶのは定性情報によることが多い • 定量分析を⽤いた⽇本酒推奨サービスは種類/地理的制約 →驚きのある新しい⽇本酒との出会いが減っている KPIとその⽬標 • 1000種類以上の⽇本酒から好みの⽇本酒を探せる
  5. 6 ͱ 期待する成果とアウトプット 誰に いつ 何を 期待する成果 {⽇本酒のレコメンド結果}を通じて知らせる 分析の アウトプット

    誰が いつ 何が できるようになる まだ⾒ぬ⽇本酒 と出会うことが 誰でも どこでも 類似する⽇本酒 を 検索者に ⼊⼒した⽇本 酒に基づき ©Toyoaki Kobayashi, all right reserved.
  6. 7 ͱ 評価⽅法 ü 評価⽅法: 1000種類以上から⽇本酒がレコメンド されたか ü 対象: レコメンドプログラムコード

    ü 取得するデータ:⽇本酒データ ü 成否の基準:データセットの準備 レコメンドプログラムの稼働 ©Toyoaki Kobayashi, all right reserved.
  7. ͱ 作業⼿順と苦労したポイント データ準備・ 加⼯・前処理 コード構築/分析 評価/展開計画検討 アウトプット 作成 実施 事項

    必要に なった 知識 技能 • 情報元、スクレイピ ング可否調査 • データ⼊⼒ • 分析⼿法に合わせた データ加⼯ • データ数増加時の 再確認 • 試験的なコード作成 • 分析⼿法の選定 • レコメンドシステム の理解 • 分析コード作成 • 都度Pythonの勉強 • 分析結果検証 • データセットの最 適項⽬の絞り込み • 分析コードの改良 • (今後の⽬標) Web上での サービス化検討 失敗 苦労 7⽉22⽇〜8⽉30⽇ テーマ選定 分析⽬的明確化 〜7⽉22⽇ • テーマの検討/設定 • 実際に対応可能な テーマか調査 • 講義の復習 • 分析⼿法検討 • 設定テーマの背景 調査(競合など) • アウトプット 項⽬明確化 (付加価値検討) • ドラフト資料 作成 • レビューと改善 • 提出版完成 • 気合と根気 • Excelスキル • スクレイピング知識 • データ分析スキル (正規化、⽋損値処 理、ダミー変数化) • 講義コード理解 • レコメンド知識 • アルゴリズム知識 • Pythonでの データ処理スキル • Pythonの応⽤⼒ • (今後の⽬標) Web関連 • 楽しむ⼼ • 講義ベースの データ分析スキル • ⽇本酒の経験/知識 • ⽇本酒×AI業界分析 • PPTスキル • データサイエ ンスへの考察 • スクレイピングじゃ欲 しい情報がない。何気 に⼿打ちExcelは便利 • 分析しながら何度も ここに戻った • 思ったよりPythonで 簡単なことができない • Web⾒てもわからない • 思ったより再現でき ない、つくるの⼤変 • 聞くのは最後の⼿段。 試⾏錯誤の過程が⼤切 と実感 • やればやるほど、 データ分析の世界が 広いことを実感 • ⼈にコードを確認 してもらうために は読んで分かるよ うに書くことが⼤切 • やればやるほどやり たいことが出てくる • 本業に関係あるテー マを選ぼうとして全 くやる気が出なかった • スキルベースで考え すぎた。やりたいこと 決まれば、スキルを学 ぶやる気も出た • どう付加価値を 出すか悩んだ • 早めにドラフト 作成したことは よかった • テーマ選定にまず時間がかかった。⾃分がワクワクするテーマ設定が浮かんでから⼀気に活動加速 • 実際に⾃分でコードを作成しようとすると、思ったよりPythonが使えず焦る • ⼈に説明するにも相談するにも、分析⼿法の深い理解の必要性を実感
  8. ©Toyoaki Kobayashi, all right reserved. 9 ͱ 使⽤データとデータ加⼯・整理 データ ⼊⼿⽅法

    データ期間 データ属性 例 ⽇本酒データ 1727件 書籍 Web 2016年〜2020年 銘柄 宮の雪 都道府県 三重 種類 純⽶ 使⽤⽶ ⼭⽥錦 ⽇本酒度 +3 精⽶度合 50% 度数 15% データ処理 • データは書籍やWeb情報より直接⼊⼒ • 定性情報はダミー変数化 • 「⾮公開」は「0」と定義(※空⽩だと⽋損値扱いになるため) • 数字が50〜60のように幅があるものは平均値を⼊⼒ • 複数の⽶を使⽤していて、それぞれの精⽶度合が異なる場合は平均値を⼊⼒ 例:⼭⽥錦-50%、ゆめひかり-60%の場合は精⽶度合は55%と定義 (※50・60のように⼊⼒すると、データ処理時に⽂字情報カウントされるため) 分析に使⽤しているデータ情報
  9. •当該⼿法を継続利⽤。データ・属 性が増えた場合は、属性の重み付け 等⼿法の改良も検討 •今後ユーザ利⽤が出た場合は活⽤ を検討。ユーザの選好を確認する仕 組み等導⼊に向けた課題は多い •⾔語情報を増やす予定はなく、定 性での⽇本酒情報データベースも既 にあるため、今後も利⽤予定はない ©Toyoaki

    Kobayashi, all right reserved. 10 ͱ 分析⼿法の選定/分析⼿順 • 分析⼿法はアイテムベースレコメンドの⼿法を選択。 • 取り扱うデータは数理情報中⼼なので、Word2becは採⽤せず • 各商品の属性を数的に⽐較するため、コサイン類似度を採⽤ 評価 アイテムベー ス(コサイン 類似度) ユーザベース Word2bec /TF -IDF 検討結果 今後の活⽤⾒通し 分析⼿法 •製品情報をキーにレコメンドできる ので、今回の分析には適していると判 断 •使⽤するユーザ数がなく、類似ユー ザの選好性は確認できないので、不適 と判断 •当初利⽤を試みるも、分析データは ⾔語情報よりも数理情報が中⼼であっ たため、今回は利⽤せず ◦ △ × 総合判定 ① ⼊⼒された⽇本酒のコサイン類似度を計算 ② 当該コサイン類似度と近い⽇本酒を算出 ③ 当該⽇本酒のトップ10を表⽰ 分析⼿順 分析⼿法の選定
  10. ͱ ©Toyoaki Kobayashi, all right reserved. 12 レコメンドシステム稼働例 ⽇本酒データを⼊⼒ (1)No.

    (2)銘柄名 1700種類以上の データベース から類似する⽇本酒 トップ10を出⼒ http://www.nihonizumi.co.jp/product/general.html
  11. ©Toyoaki Kobayashi, all right reserved. 13 ͱ 評価と今後の展望 評価 更なる課題

    今後の展望 • 1727種類の⽇本酒データベースを構築 • 上記1727種からレコメンドできるプログラムを構築・稼働を確認 • 設定評価KPI「1000種類以上の⽇本酒から好みの⽇本酒を探せる」は達成 • ビジネス課題「驚きのある新しい⽇本酒との出会い」の解決にも貢献 →設定課題・⽬標に対しては達成 • レコメンド結果の妥当性検証。属性的には類似するものが出ているが、 やはり飲んでみないと正しいかは分からない • レコメンド検索時のキーとなる情報⼊⼒。より探しやすくする必要 • レコメンド結果の情報充実、活⽤⽅法の広がり検討 • 広く使ってもらえるサービスにすること • 検索アルゴリズムの⾼度化、学習機能やユーザに合った検索結果 • データベースを更に充実させる • レコメンド検索のキー情報⼊⼒システムを⾼度にする • レコメンド検索結果を活⽤シーンをイメージしてより充実したものにする • サービスのWeb化を検討する • 検索アルゴリズムの⾼度化のための準備に着⼿する
  12. •Webサービス化 完成 •Pythonでの基本動 作マスター •コード改良・実装 •Webサービス化 実装 •基本アルゴリズムを 説明できるようにな る/アウトプット作成

    •Web化に必要な最低 限のクラウド周り知 識の取得 •データ活⽤の幅 を広げるためのア ンテナ・回路確⽴ •⽂字検索⽅法改善 •検索結果表⽰改善 •講義コード復習 •Udemy検討 •書籍通読 •まずは作る︖ •Web化に向けた コード改良 •Webサービス版 トライアル構築 •基礎本での演習 データミックスでの学びを通して︓感想、反省と今後の学習計画 感想 反省 学習 計画 データ活⽤ イメージ プログラミン グ/Python Web/Flask, Django他 アルゴリズ ム・数学 クラウド • データサイエンティストの全体イメージを もっと具体的にしておくべきだった • スキル毎に⻑期計画を作っておけばよかった • あまり本業に囚われすぎなければよかった • ⾃分の気になるデータを早々に集めて、その データ加⼯・分析をPythonで試せばよかった • データサイエンスの知識は⾝につき、業務でも活⽤できるようになり、各種リテラシーが⾝についた • 但し、まだ⾃分では理解できたこと全ては再現できない。「わかる」と「できる」はまったく別物 • まずは⾃分のやりたいテーマを⾒つけて、⾃分のデータで⾊々試して、どんどん質問すればよかった • Pythonはとにかく叩くべきだった、基本動作だけで思ったよりやりたいことができた • 数学的素養がないと、各アルゴリズムの原理が分からない。継続学習が必要と感じた • 世の中データサイエンスでなんでも解決みたいに⾔ってるけど、そんなことはないと思った。データ整理は超重要 • データ分析1本で飯を⾷うのはなかなか難しい。データ分析と他キャリア・スキルを組み合わせて戦略を考える必要 • ⾃⾝のキャリア、ライフプランとデータの 使い⽅を継続検討 • データサイエンスのスキル毎に学習計画 作成(継続学習が重要) • 具体的な⽬標(今は⽇本酒レコメンドシステム) を設定する 10〜11⽉ 12〜1⽉ 2〜3⽉ FY20⽬標 テーマ •定期チェックできる Twitterやネット情報調査 •書籍通読 •特にレコメンド関係中⼼ •アウトプット検討 •学習するクラウ ドの選定 •定期的なネット情報チェック •Web化に必要な 知識確認 •書籍通読︖ •アウトプット 完成
  13. ©Toyoaki Kobayashi, all right reserved. 15 ͱ 参考⽂献 • データミックス講義・レジュメ

    • ⽇本酒関連書籍、Web情報 • 『スッキリわかるPython⼊⾨』(2020)インプレス • 『Python 実践データ分析100本ノック』(2019)秀和システム • 『⼊⾨Python3』(2015)オイラリー・ジャパン • 『Pythonによるデータ分析⼊⾨』(2018)オイラリー・ジャパン • 『情報推薦システム⼊⾨』(2012)共⽴出版