Slide 1

Slide 1 text

<ビジネスでの価値創造> データサイエンスの基本概念と実践 
 1


Slide 2

Slide 2 text

300 イタンジのDX推進への取り組みは、 DX銘柄2022の選定を通じて評価されてい ます。(3年連続) 2023年1月末 2

Slide 3

Slide 3 text

3

Slide 4

Slide 4 text

4

Slide 5

Slide 5 text

5

Slide 6

Slide 6 text

6

Slide 7

Slide 7 text

7

Slide 8

Slide 8 text

8

Slide 9

Slide 9 text

今後もさまざまな
 セミナーを実施予定です イタンジの情報は、Twitterをフォローお願いします✨
 @ItandiOfficial
 9

Slide 10

Slide 10 text

データサイエンス業務の
 進め方
 10


Slide 11

Slide 11 text

自己紹介
 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 ( https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11

Slide 12

Slide 12 text

目次 1. データサイエンスって何? 2. CRISP-DMとは? 3. データサイエンティスト業務の実例紹介 12

Slide 13

Slide 13 text

データサイエンスって何? 一言で言うと 13

Slide 14

Slide 14 text

データサイエンスって何? データをこねくり回して 成果を得るアプローチ 14

Slide 15

Slide 15 text

データサイエンスって何? データ 15

Slide 16

Slide 16 text

データサイエンスって何? データ エンジニアリング 16

Slide 17

Slide 17 text

データサイエンスって何? データ エンジニアリング 統計学 17

Slide 18

Slide 18 text

データサイエンスって何? データ エンジニアリング 統計学 機械学習 18

Slide 19

Slide 19 text

データサイエンスって何? データ エンジニアリング 統計学 機械学習 成果 19

Slide 20

Slide 20 text

データサイエンスって何? 20 成果の例 - 何かしらの知見 - 商品Aは商品Bよりたくさん売れるなぁ - 商品Cは夏より冬の方が売れるなぁ - 何かしらを予測するAI - 商品Dがいくらで売れるのかを予測するAI

Slide 21

Slide 21 text

事業会社におけるデータサイエンス 21

Slide 22

Slide 22 text

事業会社におけるデータサイエンス 面白い成果 22

Slide 23

Slide 23 text

事業会社におけるデータサイエンス 面白い成果 23

Slide 24

Slide 24 text

事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 24

Slide 25

Slide 25 text

事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 25

Slide 26

Slide 26 text

事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 26

Slide 27

Slide 27 text

事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 27

Slide 28

Slide 28 text

CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28

Slide 29

Slide 29 text

CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築 5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊

Slide 30

Slide 30 text

CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築 5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30

Slide 31

Slide 31 text

ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題: - 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31

Slide 32

Slide 32 text

データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう! 具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32

Slide 33

Slide 33 text

データ前処理 目的: - モデル構築ができるようにデータを加工・掃除する 例: - 外れ値・異常値処理(変なデータに対処する) - 欠損値処理(欠けているデータを補完する) - 新しいデータを作る - etc これが一番大変な工程! 33

Slide 34

Slide 34 text

データ前処理 外れ値・異常値の例 明らかにおかしい データ 34 合ってるけど 極端なデータ

Slide 35

Slide 35 text

データ前処理 異常値の例 明らかに 間違っている データ 35

Slide 36

Slide 36 text

モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町 1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36

Slide 37

Slide 37 text

モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分 I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37

Slide 38

Slide 38 text

モデルをビジネス展開する 自社サービスのマイページ画面にてAI査定額を表示 - モデルをAPI化し開発チームへ提供 38

Slide 39

Slide 39 text

モデルをビジネス展開する ユーザー側への効果 ● 査定額をすぐに知ることができるようになった ● 機械的で客観的な査定額を知ることができるようになった 会社側への効果 ● 業務効率化 ○ 顧客獲得単価を36%削減 ● 利用者の増加 ○ サイトからの離脱率を6ポイント削減 39

Slide 40

Slide 40 text

価格査定AIの開発で
 直面した課題と工夫した点
 40


Slide 41

Slide 41 text

自己紹介 2019年 GA technologiesに新卒入社 1. マンション価格予測AI・賃料予測AIの研究・API開発 2. 営業担当者のアサインの最適化を支援する推薦システム・アプリの開発 などに従事 41

Slide 42

Slide 42 text

価格査定AIの開発で直面した課題
 1. 使用可能な情報の制約
 2. 高級物件の査定の難しさ
 
 
 42

Slide 43

Slide 43 text

使用可能な情報の制約 43

Slide 44

Slide 44 text

使用可能な情報の制約
 価格査定AIは、物件に関する情報(竣工年、面積など)を用いて査定を行う
 価格査定AI 竣工年
 面積
 ︙
 査定額
 44

Slide 45

Slide 45 text

課題
 ● データ分析的には、多くの情報(特徴量)が欲しい ● ビジネス的には、最小限の入力項目だけに留めたい 45 RENOSYサービスサイト AI査定機能の入力欄

Slide 46

Slide 46 text

対処
 1. 使用する特徴量を厳選 2. 特徴量の増幅 46

Slide 47

Slide 47 text

対処1:使用する特徴量を厳選
 査定業務に詳しい社員にヒアリングを行い、優先度の高い特徴量を選別した
 
 次の6項目がユーザー入力項目の候補となった
 1. 物件名
 2. 住所
 3. 竣工年
 4. 総階数
 5. 部屋の階数
 6. 専有面積
 47

Slide 48

Slide 48 text

対処2:特徴量の増幅
 <例:最寄り駅の場合> 48

Slide 49

Slide 49 text

対処2:特徴量の増幅
 <例:最寄り駅の場合> マンション名 座標 最寄り駅 価格査定AI 建物検索 API 周辺施設 検索API 住所検索 API 住所 49

Slide 50

Slide 50 text

建物や住所の検索はどう行っているか?
 1. 建物名の正規化
 ● ノイズとなる文字列の削除
 ○ 例:「リノシーマンション 301号室」→「リノシーマンション」 
 ● 表記ゆれの統一
 ○ 例:「RENOSYマンション」→「リノシーマンション」 
 2. 建物マスターDB
 ● 信頼性の高いデータを保持
 建物検索API 建物名 正規化API 建物DB 50

Slide 51

Slide 51 text

建物や住所の検索はどう行っているか?
 1. 建物名の正規化 ← 自然言語処理チーム
 2. 建物マスターDB ← データマネジメントチーム、開発や取引に関わる部署等
 
 → 多くのメンバーの努力と技術やデータの蓄積により実現
 建物検索API 建物名 正規化API 建物DB 51

Slide 52

Slide 52 text

高級物件の査定の難しさ 52

Slide 53

Slide 53 text

高級物件の査定の難しさ
 課題
 ● 富裕層向けの高級物件への誤差が高い
 ● 高級物件は内装や設備のグレードが他の周辺物件よりも高い等の特徴があるが、 今回はそのような特徴量は使用できない
 
 53

Slide 54

Slide 54 text

高級物件の査定の難しさ
 対処
 1. 高級物件モデル
 2. ルールベースモデル
 
 
 54

Slide 55

Slide 55 text

対処1:高級物件モデルの切り出し
 ● 高級物件に特化した予測モデルを別途作る
 ● 「このマンションは高級物件」などの業界のドメイン知識 & データから判定
 
 
 
 高級物件 通常モデル 高級物件モデル 訓練データ 55

Slide 56

Slide 56 text

対処2:ルールベースモデルの構築
 課題
 ● 高級物件間の個体差が少なくない
 
 
 
 
 ● サンプルが少なく、機械学習でうまく解くことが難しい
 56

Slide 57

Slide 57 text

対処2:ルールベースモデルの構築
 対処
 ● ルールベースのアルゴリズムを考案
 ● 査定対象と同じマンション内の、査定対象と似た物件の過去の取引事例があれば それらの売買額の平均を使うようなアルゴリズムを導入
 
 通常モデル このマンションの過去の 取引事例があるか? 高級マンションか? No Yes 高級物件モデル 取引事例の平均をとる No Yes 57 価格査定AIの全体像

Slide 58

Slide 58 text

まとめ
 課題1:使用可能な情報(特徴量)の制約
 ● 対処1:業界のドメイン知識に基づき、使用する特徴量を厳選
 ● 対処2:社内の技術やデータを利用し、内部で特徴量を増幅
 
 課題2:高級物件の査定の難しさ
 ● 対処1:問題を分割し予測の難しい物件に特化した高級物件モデルを作る
 ● 対処2:機械学習にこだわりすぎずルールベースモデルも利用する
 58