Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
<ビジネスでの価値創造> データサイエンスの基本概念と実践
Search
ITANDI
June 01, 2023
Technology
0
580
<ビジネスでの価値創造> データサイエンスの基本概念と実践
ITANDI
June 01, 2023
Tweet
Share
More Decks by ITANDI
See All by ITANDI
ChatGPT Pluginからプロダクト応用まで 〜大規模言語モデルの力を引き出す方法〜
itandi
0
370
【ChatGPTの基礎と応用】自然言語処理の最新動向
itandi
0
930
Other Decks in Technology
See All in Technology
Mini Tokyo 3D × PLATEAU - 公共交通デジタルツインにリアルな風景を
nagix
1
230
福岡新卒エンジニアの会
teba_eleven
1
190
Lambdaと地方とコミュニティ
miu_crescent
2
230
Intuneお役立ちツールのご紹介
sukank
3
750
OCI Data Integration技術情報 / ocidi_technical_jp
oracle4engineer
PRO
1
2.6k
Incident Response Practices: Waroom's Features and Future Challenges
rrreeeyyy
0
110
Microsoft Fabric OneLake の実体について
ryomaru0825
0
190
SREの前に
nwiizo
11
2.7k
徹底比較!HA Kubernetes ClusterにおけるControl Plane LoadBalancerの選択肢
logica0419
2
140
ISUCONに強くなるかもしれない日々の過ごしかた/Findy ISUCON 2024-11-14
fujiwara3
7
540
スクラムチームを立ち上げる〜チーム開発で得られたもの・得られなかったもの〜
ohnoeight
2
290
データの信頼性を支える仕組みと技術
chanyou0311
6
1.6k
Featured
See All Featured
Mobile First: as difficult as doing things right
swwweet
222
8.9k
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
356
29k
A better future with KSS
kneath
238
17k
Docker and Python
trallard
40
3.1k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
6
390
The Pragmatic Product Professional
lauravandoore
31
6.3k
Navigating Team Friction
lara
183
14k
The Cost Of JavaScript in 2023
addyosmani
45
6.7k
Responsive Adventures: Dirty Tricks From The Dark Corners of Front-End
smashingmag
250
21k
The Psychology of Web Performance [Beyond Tellerrand 2023]
tammyeverts
42
2.2k
The Invisible Side of Design
smashingmag
297
50k
Visualizing Your Data: Incorporating Mongo into Loggly Infrastructure
mongodb
42
9.2k
Transcript
<ビジネスでの価値創造> データサイエンスの基本概念と実践 1
300 イタンジのDX推進への取り組みは、 DX銘柄2022の選定を通じて評価されてい ます。(3年連続) 2023年1月末 2
3
4
5
6
7
8
今後もさまざまな セミナーを実施予定です イタンジの情報は、Twitterをフォローお願いします✨ @ItandiOfficial 9
データサイエンス業務の 進め方 10
自己紹介 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 (
https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11
目次 1. データサイエンスって何? 2. CRISP-DMとは? 3. データサイエンティスト業務の実例紹介 12
データサイエンスって何? 一言で言うと 13
データサイエンスって何? データをこねくり回して 成果を得るアプローチ 14
データサイエンスって何? データ 15
データサイエンスって何? データ エンジニアリング 16
データサイエンスって何? データ エンジニアリング 統計学 17
データサイエンスって何? データ エンジニアリング 統計学 機械学習 18
データサイエンスって何? データ エンジニアリング 統計学 機械学習 成果 19
データサイエンスって何? 20 成果の例 - 何かしらの知見 - 商品Aは商品Bよりたくさん売れるなぁ - 商品Cは夏より冬の方が売れるなぁ -
何かしらを予測するAI - 商品Dがいくらで売れるのかを予測するAI
事業会社におけるデータサイエンス 21
事業会社におけるデータサイエンス 面白い成果 22
事業会社におけるデータサイエンス 面白い成果 23
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 24
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 25
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 26
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 27
CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business
Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30
ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題:
- 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31
データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう!
具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32
データ前処理 目的: - モデル構築ができるようにデータを加工・掃除する 例: - 外れ値・異常値処理(変なデータに対処する) - 欠損値処理(欠けているデータを補完する) -
新しいデータを作る - etc これが一番大変な工程! 33
データ前処理 外れ値・異常値の例 明らかにおかしい データ 34 合ってるけど 極端なデータ
データ前処理 異常値の例 明らかに 間違っている データ 35
モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町
1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36
モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分
I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37
モデルをビジネス展開する 自社サービスのマイページ画面にてAI査定額を表示 - モデルをAPI化し開発チームへ提供 38
モデルをビジネス展開する ユーザー側への効果 • 査定額をすぐに知ることができるようになった • 機械的で客観的な査定額を知ることができるようになった 会社側への効果 • 業務効率化 ◦
顧客獲得単価を36%削減 • 利用者の増加 ◦ サイトからの離脱率を6ポイント削減 39
価格査定AIの開発で 直面した課題と工夫した点 40
自己紹介 2019年 GA technologiesに新卒入社 1. マンション価格予測AI・賃料予測AIの研究・API開発 2. 営業担当者のアサインの最適化を支援する推薦システム・アプリの開発 などに従事 41
価格査定AIの開発で直面した課題 1. 使用可能な情報の制約 2. 高級物件の査定の難しさ 42
使用可能な情報の制約 43
使用可能な情報の制約 価格査定AIは、物件に関する情報(竣工年、面積など)を用いて査定を行う 価格査定AI 竣工年 面積 ︙ 査定額 44
課題 • データ分析的には、多くの情報(特徴量)が欲しい • ビジネス的には、最小限の入力項目だけに留めたい 45 RENOSYサービスサイト AI査定機能の入力欄
対処 1. 使用する特徴量を厳選 2. 特徴量の増幅 46
対処1:使用する特徴量を厳選 査定業務に詳しい社員にヒアリングを行い、優先度の高い特徴量を選別した 次の6項目がユーザー入力項目の候補となった 1. 物件名 2. 住所 3. 竣工年
4. 総階数 5. 部屋の階数 6. 専有面積 47
対処2:特徴量の増幅 <例:最寄り駅の場合> 48
対処2:特徴量の増幅 <例:最寄り駅の場合> マンション名 座標 最寄り駅 価格査定AI 建物検索 API 周辺施設 検索API
住所検索 API 住所 49
建物や住所の検索はどう行っているか? 1. 建物名の正規化 • ノイズとなる文字列の削除 ◦ 例:「リノシーマンション 301号室」→「リノシーマンション」 •
表記ゆれの統一 ◦ 例:「RENOSYマンション」→「リノシーマンション」 2. 建物マスターDB • 信頼性の高いデータを保持 建物検索API 建物名 正規化API 建物DB 50
建物や住所の検索はどう行っているか? 1. 建物名の正規化 ← 自然言語処理チーム 2. 建物マスターDB ← データマネジメントチーム、開発や取引に関わる部署等
→ 多くのメンバーの努力と技術やデータの蓄積により実現 建物検索API 建物名 正規化API 建物DB 51
高級物件の査定の難しさ 52
高級物件の査定の難しさ 課題 • 富裕層向けの高級物件への誤差が高い • 高級物件は内装や設備のグレードが他の周辺物件よりも高い等の特徴があるが、 今回はそのような特徴量は使用できない 53
高級物件の査定の難しさ 対処 1. 高級物件モデル 2. ルールベースモデル 54
対処1:高級物件モデルの切り出し • 高級物件に特化した予測モデルを別途作る • 「このマンションは高級物件」などの業界のドメイン知識 & データから判定
高級物件 通常モデル 高級物件モデル 訓練データ 55
対処2:ルールベースモデルの構築 課題 • 高級物件間の個体差が少なくない • サンプルが少なく、機械学習でうまく解くことが難しい
56
対処2:ルールベースモデルの構築 対処 • ルールベースのアルゴリズムを考案 • 査定対象と同じマンション内の、査定対象と似た物件の過去の取引事例があれば それらの売買額の平均を使うようなアルゴリズムを導入 通常モデル このマンションの過去の
取引事例があるか? 高級マンションか? No Yes 高級物件モデル 取引事例の平均をとる No Yes 57 価格査定AIの全体像
まとめ 課題1:使用可能な情報(特徴量)の制約 • 対処1:業界のドメイン知識に基づき、使用する特徴量を厳選 • 対処2:社内の技術やデータを利用し、内部で特徴量を増幅 課題2:高級物件の査定の難しさ • 対処1:問題を分割し予測の難しい物件に特化した高級物件モデルを作る
• 対処2:機械学習にこだわりすぎずルールベースモデルも利用する 58