Upgrade to Pro — share decks privately, control downloads, hide ads and more …

<ビジネスでの価値創造> データサイエンスの基本概念と実践

ITANDI
June 01, 2023

<ビジネスでの価値創造> データサイエンスの基本概念と実践

ITANDI

June 01, 2023
Tweet

More Decks by ITANDI

Other Decks in Technology

Transcript

  1. 3

  2. 4

  3. 5

  4. 6

  5. 7

  6. 8

  7. 自己紹介
 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 (

    https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11
  8. CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business

    Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28
  9. CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築

    5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊
  10. CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築

    5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30
  11. ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題:

    - 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31
  12. データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう!

    具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32
  13. モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町

    1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36
  14. モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分

    I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37
  15. 建物や住所の検索はどう行っているか?
 1. 建物名の正規化
 • ノイズとなる文字列の削除
 ◦ 例:「リノシーマンション 301号室」→「リノシーマンション」 
 •

    表記ゆれの統一
 ◦ 例:「RENOSYマンション」→「リノシーマンション」 
 2. 建物マスターDB
 • 信頼性の高いデータを保持
 建物検索API 建物名 正規化API 建物DB 50