Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
<ビジネスでの価値創造> データサイエンスの基本概念と実践
Search
ITANDI
June 01, 2023
Technology
0
600
<ビジネスでの価値創造> データサイエンスの基本概念と実践
ITANDI
June 01, 2023
Tweet
Share
More Decks by ITANDI
See All by ITANDI
ChatGPT Pluginからプロダクト応用まで 〜大規模言語モデルの力を引き出す方法〜
itandi
0
390
【ChatGPTの基礎と応用】自然言語処理の最新動向
itandi
0
950
Other Decks in Technology
See All in Technology
大規模言語モデルとそのソフトウェア開発に向けた応用 (2024年版)
kazato
1
160
[トレノケ雲の会 mod.13] 3回目のre:Inventで気づいたこと -CloudOperationsを添えて-
shintaro_fukatsu
0
110
プロダクト組織で取り組むアドベントカレンダー/Advent Calendar in Product Teams
mixplace
0
500
AI×医用画像の現状と可能性_2024年版/AI×medical_imaging_in_japan_2024
tdys13
0
430
Unlearn Product Development - Unleashed Edition
lemiorhan
PRO
2
130
AWS re:Invent 2024 Recap in ZOZO - Serverless で好きなものをしゃべってみた
chongmyungpark
0
460
watsonx.ai Dojo #5 ファインチューニングとInstructLAB
oniak3ibm
PRO
0
250
メンタル面でもつよつよエンジニアになる/登壇資料(井田 献一朗)
hacobu
0
150
ソフトウェア開発における「パーフェクトな意思決定」/Perfect Decision-Making in Software Development
yayoi_dd
2
2.3k
ISUCON、今年も参加してみた / ISUCON, I challenged it again this year.
dero1to
0
110
サイバー攻撃を想定したセキュリティガイドライン 策定とASM及びCNAPPの活用方法
syoshie
3
1.5k
多様なメトリックとシステムの健全性維持
masaaki_k
0
130
Featured
See All Featured
Bootstrapping a Software Product
garrettdimon
PRO
305
110k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
111
50k
Keith and Marios Guide to Fast Websites
keithpitt
410
22k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
27
1.5k
Faster Mobile Websites
deanohume
305
30k
Code Reviewing Like a Champion
maltzj
521
39k
Building Better People: How to give real-time feedback that sticks.
wjessup
366
19k
Embracing the Ebb and Flow
colly
84
4.5k
The Language of Interfaces
destraynor
155
24k
Building Adaptive Systems
keathley
38
2.3k
The Art of Programming - Codeland 2020
erikaheidi
53
13k
Sharpening the Axe: The Primacy of Toolmaking
bcantrill
38
1.9k
Transcript
<ビジネスでの価値創造> データサイエンスの基本概念と実践 1
300 イタンジのDX推進への取り組みは、 DX銘柄2022の選定を通じて評価されてい ます。(3年連続) 2023年1月末 2
3
4
5
6
7
8
今後もさまざまな セミナーを実施予定です イタンジの情報は、Twitterをフォローお願いします✨ @ItandiOfficial 9
データサイエンス業務の 進め方 10
自己紹介 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 (
https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11
目次 1. データサイエンスって何? 2. CRISP-DMとは? 3. データサイエンティスト業務の実例紹介 12
データサイエンスって何? 一言で言うと 13
データサイエンスって何? データをこねくり回して 成果を得るアプローチ 14
データサイエンスって何? データ 15
データサイエンスって何? データ エンジニアリング 16
データサイエンスって何? データ エンジニアリング 統計学 17
データサイエンスって何? データ エンジニアリング 統計学 機械学習 18
データサイエンスって何? データ エンジニアリング 統計学 機械学習 成果 19
データサイエンスって何? 20 成果の例 - 何かしらの知見 - 商品Aは商品Bよりたくさん売れるなぁ - 商品Cは夏より冬の方が売れるなぁ -
何かしらを予測するAI - 商品Dがいくらで売れるのかを予測するAI
事業会社におけるデータサイエンス 21
事業会社におけるデータサイエンス 面白い成果 22
事業会社におけるデータサイエンス 面白い成果 23
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 24
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 25
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 26
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 27
CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business
Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30
ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題:
- 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31
データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう!
具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32
データ前処理 目的: - モデル構築ができるようにデータを加工・掃除する 例: - 外れ値・異常値処理(変なデータに対処する) - 欠損値処理(欠けているデータを補完する) -
新しいデータを作る - etc これが一番大変な工程! 33
データ前処理 外れ値・異常値の例 明らかにおかしい データ 34 合ってるけど 極端なデータ
データ前処理 異常値の例 明らかに 間違っている データ 35
モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町
1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36
モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分
I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37
モデルをビジネス展開する 自社サービスのマイページ画面にてAI査定額を表示 - モデルをAPI化し開発チームへ提供 38
モデルをビジネス展開する ユーザー側への効果 • 査定額をすぐに知ることができるようになった • 機械的で客観的な査定額を知ることができるようになった 会社側への効果 • 業務効率化 ◦
顧客獲得単価を36%削減 • 利用者の増加 ◦ サイトからの離脱率を6ポイント削減 39
価格査定AIの開発で 直面した課題と工夫した点 40
自己紹介 2019年 GA technologiesに新卒入社 1. マンション価格予測AI・賃料予測AIの研究・API開発 2. 営業担当者のアサインの最適化を支援する推薦システム・アプリの開発 などに従事 41
価格査定AIの開発で直面した課題 1. 使用可能な情報の制約 2. 高級物件の査定の難しさ 42
使用可能な情報の制約 43
使用可能な情報の制約 価格査定AIは、物件に関する情報(竣工年、面積など)を用いて査定を行う 価格査定AI 竣工年 面積 ︙ 査定額 44
課題 • データ分析的には、多くの情報(特徴量)が欲しい • ビジネス的には、最小限の入力項目だけに留めたい 45 RENOSYサービスサイト AI査定機能の入力欄
対処 1. 使用する特徴量を厳選 2. 特徴量の増幅 46
対処1:使用する特徴量を厳選 査定業務に詳しい社員にヒアリングを行い、優先度の高い特徴量を選別した 次の6項目がユーザー入力項目の候補となった 1. 物件名 2. 住所 3. 竣工年
4. 総階数 5. 部屋の階数 6. 専有面積 47
対処2:特徴量の増幅 <例:最寄り駅の場合> 48
対処2:特徴量の増幅 <例:最寄り駅の場合> マンション名 座標 最寄り駅 価格査定AI 建物検索 API 周辺施設 検索API
住所検索 API 住所 49
建物や住所の検索はどう行っているか? 1. 建物名の正規化 • ノイズとなる文字列の削除 ◦ 例:「リノシーマンション 301号室」→「リノシーマンション」 •
表記ゆれの統一 ◦ 例:「RENOSYマンション」→「リノシーマンション」 2. 建物マスターDB • 信頼性の高いデータを保持 建物検索API 建物名 正規化API 建物DB 50
建物や住所の検索はどう行っているか? 1. 建物名の正規化 ← 自然言語処理チーム 2. 建物マスターDB ← データマネジメントチーム、開発や取引に関わる部署等
→ 多くのメンバーの努力と技術やデータの蓄積により実現 建物検索API 建物名 正規化API 建物DB 51
高級物件の査定の難しさ 52
高級物件の査定の難しさ 課題 • 富裕層向けの高級物件への誤差が高い • 高級物件は内装や設備のグレードが他の周辺物件よりも高い等の特徴があるが、 今回はそのような特徴量は使用できない 53
高級物件の査定の難しさ 対処 1. 高級物件モデル 2. ルールベースモデル 54
対処1:高級物件モデルの切り出し • 高級物件に特化した予測モデルを別途作る • 「このマンションは高級物件」などの業界のドメイン知識 & データから判定
高級物件 通常モデル 高級物件モデル 訓練データ 55
対処2:ルールベースモデルの構築 課題 • 高級物件間の個体差が少なくない • サンプルが少なく、機械学習でうまく解くことが難しい
56
対処2:ルールベースモデルの構築 対処 • ルールベースのアルゴリズムを考案 • 査定対象と同じマンション内の、査定対象と似た物件の過去の取引事例があれば それらの売買額の平均を使うようなアルゴリズムを導入 通常モデル このマンションの過去の
取引事例があるか? 高級マンションか? No Yes 高級物件モデル 取引事例の平均をとる No Yes 57 価格査定AIの全体像
まとめ 課題1:使用可能な情報(特徴量)の制約 • 対処1:業界のドメイン知識に基づき、使用する特徴量を厳選 • 対処2:社内の技術やデータを利用し、内部で特徴量を増幅 課題2:高級物件の査定の難しさ • 対処1:問題を分割し予測の難しい物件に特化した高級物件モデルを作る
• 対処2:機械学習にこだわりすぎずルールベースモデルも利用する 58