<ビジネスでの価値創造> データサイエンスの基本概念と実践
by
ITANDI
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
<ビジネスでの価値創造> データサイエンスの基本概念と実践 1
Slide 2
Slide 2 text
300 イタンジのDX推進への取り組みは、 DX銘柄2022の選定を通じて評価されてい ます。(3年連続) 2023年1月末 2
Slide 3
Slide 3 text
3
Slide 4
Slide 4 text
4
Slide 5
Slide 5 text
5
Slide 6
Slide 6 text
6
Slide 7
Slide 7 text
7
Slide 8
Slide 8 text
8
Slide 9
Slide 9 text
今後もさまざまな セミナーを実施予定です イタンジの情報は、Twitterをフォローお願いします✨ @ItandiOfficial 9
Slide 10
Slide 10 text
データサイエンス業務の 進め方 10
Slide 11
Slide 11 text
自己紹介 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 ( https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11
Slide 12
Slide 12 text
目次 1. データサイエンスって何? 2. CRISP-DMとは? 3. データサイエンティスト業務の実例紹介 12
Slide 13
Slide 13 text
データサイエンスって何? 一言で言うと 13
Slide 14
Slide 14 text
データサイエンスって何? データをこねくり回して 成果を得るアプローチ 14
Slide 15
Slide 15 text
データサイエンスって何? データ 15
Slide 16
Slide 16 text
データサイエンスって何? データ エンジニアリング 16
Slide 17
Slide 17 text
データサイエンスって何? データ エンジニアリング 統計学 17
Slide 18
Slide 18 text
データサイエンスって何? データ エンジニアリング 統計学 機械学習 18
Slide 19
Slide 19 text
データサイエンスって何? データ エンジニアリング 統計学 機械学習 成果 19
Slide 20
Slide 20 text
データサイエンスって何? 20 成果の例 - 何かしらの知見 - 商品Aは商品Bよりたくさん売れるなぁ - 商品Cは夏より冬の方が売れるなぁ - 何かしらを予測するAI - 商品Dがいくらで売れるのかを予測するAI
Slide 21
Slide 21 text
事業会社におけるデータサイエンス 21
Slide 22
Slide 22 text
事業会社におけるデータサイエンス 面白い成果 22
Slide 23
Slide 23 text
事業会社におけるデータサイエンス 面白い成果 23
Slide 24
Slide 24 text
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 24
Slide 25
Slide 25 text
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 25
Slide 26
Slide 26 text
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 26
Slide 27
Slide 27 text
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 27
Slide 28
Slide 28 text
CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28
Slide 29
Slide 29 text
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築 5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊
Slide 30
Slide 30 text
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築 5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30
Slide 31
Slide 31 text
ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題: - 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31
Slide 32
Slide 32 text
データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう! 具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32
Slide 33
Slide 33 text
データ前処理 目的: - モデル構築ができるようにデータを加工・掃除する 例: - 外れ値・異常値処理(変なデータに対処する) - 欠損値処理(欠けているデータを補完する) - 新しいデータを作る - etc これが一番大変な工程! 33
Slide 34
Slide 34 text
データ前処理 外れ値・異常値の例 明らかにおかしい データ 34 合ってるけど 極端なデータ
Slide 35
Slide 35 text
データ前処理 異常値の例 明らかに 間違っている データ 35
Slide 36
Slide 36 text
モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町 1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36
Slide 37
Slide 37 text
モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分 I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37
Slide 38
Slide 38 text
モデルをビジネス展開する 自社サービスのマイページ画面にてAI査定額を表示 - モデルをAPI化し開発チームへ提供 38
Slide 39
Slide 39 text
モデルをビジネス展開する ユーザー側への効果 ● 査定額をすぐに知ることができるようになった ● 機械的で客観的な査定額を知ることができるようになった 会社側への効果 ● 業務効率化 ○ 顧客獲得単価を36%削減 ● 利用者の増加 ○ サイトからの離脱率を6ポイント削減 39
Slide 40
Slide 40 text
価格査定AIの開発で 直面した課題と工夫した点 40
Slide 41
Slide 41 text
自己紹介 2019年 GA technologiesに新卒入社 1. マンション価格予測AI・賃料予測AIの研究・API開発 2. 営業担当者のアサインの最適化を支援する推薦システム・アプリの開発 などに従事 41
Slide 42
Slide 42 text
価格査定AIの開発で直面した課題 1. 使用可能な情報の制約 2. 高級物件の査定の難しさ 42
Slide 43
Slide 43 text
使用可能な情報の制約 43
Slide 44
Slide 44 text
使用可能な情報の制約 価格査定AIは、物件に関する情報(竣工年、面積など)を用いて査定を行う 価格査定AI 竣工年 面積 ︙ 査定額 44
Slide 45
Slide 45 text
課題 ● データ分析的には、多くの情報(特徴量)が欲しい ● ビジネス的には、最小限の入力項目だけに留めたい 45 RENOSYサービスサイト AI査定機能の入力欄
Slide 46
Slide 46 text
対処 1. 使用する特徴量を厳選 2. 特徴量の増幅 46
Slide 47
Slide 47 text
対処1:使用する特徴量を厳選 査定業務に詳しい社員にヒアリングを行い、優先度の高い特徴量を選別した 次の6項目がユーザー入力項目の候補となった 1. 物件名 2. 住所 3. 竣工年 4. 総階数 5. 部屋の階数 6. 専有面積 47
Slide 48
Slide 48 text
対処2:特徴量の増幅 <例:最寄り駅の場合> 48
Slide 49
Slide 49 text
対処2:特徴量の増幅 <例:最寄り駅の場合> マンション名 座標 最寄り駅 価格査定AI 建物検索 API 周辺施設 検索API 住所検索 API 住所 49
Slide 50
Slide 50 text
建物や住所の検索はどう行っているか? 1. 建物名の正規化 ● ノイズとなる文字列の削除 ○ 例:「リノシーマンション 301号室」→「リノシーマンション」 ● 表記ゆれの統一 ○ 例:「RENOSYマンション」→「リノシーマンション」 2. 建物マスターDB ● 信頼性の高いデータを保持 建物検索API 建物名 正規化API 建物DB 50
Slide 51
Slide 51 text
建物や住所の検索はどう行っているか? 1. 建物名の正規化 ← 自然言語処理チーム 2. 建物マスターDB ← データマネジメントチーム、開発や取引に関わる部署等 → 多くのメンバーの努力と技術やデータの蓄積により実現 建物検索API 建物名 正規化API 建物DB 51
Slide 52
Slide 52 text
高級物件の査定の難しさ 52
Slide 53
Slide 53 text
高級物件の査定の難しさ 課題 ● 富裕層向けの高級物件への誤差が高い ● 高級物件は内装や設備のグレードが他の周辺物件よりも高い等の特徴があるが、 今回はそのような特徴量は使用できない 53
Slide 54
Slide 54 text
高級物件の査定の難しさ 対処 1. 高級物件モデル 2. ルールベースモデル 54
Slide 55
Slide 55 text
対処1:高級物件モデルの切り出し ● 高級物件に特化した予測モデルを別途作る ● 「このマンションは高級物件」などの業界のドメイン知識 & データから判定 高級物件 通常モデル 高級物件モデル 訓練データ 55
Slide 56
Slide 56 text
対処2:ルールベースモデルの構築 課題 ● 高級物件間の個体差が少なくない ● サンプルが少なく、機械学習でうまく解くことが難しい 56
Slide 57
Slide 57 text
対処2:ルールベースモデルの構築 対処 ● ルールベースのアルゴリズムを考案 ● 査定対象と同じマンション内の、査定対象と似た物件の過去の取引事例があれば それらの売買額の平均を使うようなアルゴリズムを導入 通常モデル このマンションの過去の 取引事例があるか? 高級マンションか? No Yes 高級物件モデル 取引事例の平均をとる No Yes 57 価格査定AIの全体像
Slide 58
Slide 58 text
まとめ 課題1:使用可能な情報(特徴量)の制約 ● 対処1:業界のドメイン知識に基づき、使用する特徴量を厳選 ● 対処2:社内の技術やデータを利用し、内部で特徴量を増幅 課題2:高級物件の査定の難しさ ● 対処1:問題を分割し予測の難しい物件に特化した高級物件モデルを作る ● 対処2:機械学習にこだわりすぎずルールベースモデルも利用する 58