Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
<ビジネスでの価値創造> データサイエンスの基本概念と実践
Search
ITANDI
June 01, 2023
Technology
0
750
<ビジネスでの価値創造> データサイエンスの基本概念と実践
ITANDI
June 01, 2023
Tweet
Share
More Decks by ITANDI
See All by ITANDI
Rubyで実現する 不動産バーティカルSaaSのマルチプロダクト戦略
itandi
0
590
ChatGPT Pluginからプロダクト応用まで 〜大規模言語モデルの力を引き出す方法〜
itandi
0
470
【ChatGPTの基礎と応用】自然言語処理の最新動向
itandi
0
1.1k
Other Decks in Technology
See All in Technology
アプリにAIを正しく組み込むための アーキテクチャ── 国産LLMの現実と実践
kohju
0
200
Authlete で実装する MCP OAuth 認可サーバー #CIMD の実装を添えて
watahani
0
100
Amazon Connect アップデート! AIエージェントにMCPツールを設定してみた!
ysuzuki
0
130
通勤手当申請チェックエージェント開発のリアル
whisaiyo
3
380
半年で、AIゼロ知識から AI中心開発組織の変革担当に至るまで
rfdnxbro
0
120
Snowflake導入から1年、LayerXのデータ活用の現在 / One Year into Snowflake: How LayerX Uses Data Today
civitaspo
0
2.2k
【開発を止めるな】機能追加と並行して進めるアーキテクチャ改善/Keep Shipping: Architecture Improvements Without Pausing Dev
bitkey
PRO
1
120
mairuでつくるクレデンシャルレス開発環境 / Credential-less development environment using Mailru
mirakui
5
590
Microsoft Agent Frameworkの可観測性
tomokusaba
1
100
20251218_AIを活用した開発生産性向上の全社的な取り組みの進め方について / How to proceed with company-wide initiatives to improve development productivity using AI
yayoi_dd
0
620
[2025-12-12]あの日僕が見た胡蝶の夢 〜人の夢は終わらねェ AIによるパフォーマンスチューニングのすゝめ〜
tosite
0
140
たまに起きる外部サービスの障害に備えたり備えなかったりする話
egmc
0
390
Featured
See All Featured
CSS Pre-Processors: Stylus, Less & Sass
bermonpainter
359
30k
Color Theory Basics | Prateek | Gurzu
gurzu
0
150
Easily Structure & Communicate Ideas using Wireframe
afnizarnur
194
17k
Tips & Tricks on How to Get Your First Job In Tech
honzajavorek
0
400
Prompt Engineering for Job Search
mfonobong
0
120
Bash Introduction
62gerente
615
210k
Information Architects: The Missing Link in Design Systems
soysaucechin
0
710
Music & Morning Musume
bryan
46
7k
Performance Is Good for Brains [We Love Speed 2024]
tammyeverts
12
1.4k
Why You Should Never Use an ORM
jnunemaker
PRO
61
9.7k
AI: The stuff that nobody shows you
jnunemaker
PRO
1
8
DBのスキルで生き残る技術 - AI時代におけるテーブル設計の勘所
soudai
PRO
60
37k
Transcript
<ビジネスでの価値創造> データサイエンスの基本概念と実践 1
300 イタンジのDX推進への取り組みは、 DX銘柄2022の選定を通じて評価されてい ます。(3年連続) 2023年1月末 2
3
4
5
6
7
8
今後もさまざまな セミナーを実施予定です イタンジの情報は、Twitterをフォローお願いします✨ @ItandiOfficial 9
データサイエンス業務の 進め方 10
自己紹介 研究例: - セールス業務効率化 - 賃貸物件の空室日数予測 その他 - 電通大非常勤講師 (
https://de.uec.ac.jp/zero/lecturer/ ) - AISCブログ https://note.com/lucky_crocus255/n/nf948b7e7754b?magazine_key=m708 379e4bead 11
目次 1. データサイエンスって何? 2. CRISP-DMとは? 3. データサイエンティスト業務の実例紹介 12
データサイエンスって何? 一言で言うと 13
データサイエンスって何? データをこねくり回して 成果を得るアプローチ 14
データサイエンスって何? データ 15
データサイエンスって何? データ エンジニアリング 16
データサイエンスって何? データ エンジニアリング 統計学 17
データサイエンスって何? データ エンジニアリング 統計学 機械学習 18
データサイエンスって何? データ エンジニアリング 統計学 機械学習 成果 19
データサイエンスって何? 20 成果の例 - 何かしらの知見 - 商品Aは商品Bよりたくさん売れるなぁ - 商品Cは夏より冬の方が売れるなぁ -
何かしらを予測するAI - 商品Dがいくらで売れるのかを予測するAI
事業会社におけるデータサイエンス 21
事業会社におけるデータサイエンス 面白い成果 22
事業会社におけるデータサイエンス 面白い成果 23
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 24
事業会社におけるデータサイエンス 面白い成果 学術的に 意義ある成果 25
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 26
事業会社におけるデータサイエンス 面白い成果 ビジネスインパクトがあ る成果 学術的に 意義ある成果 27
CRISP-DM (Cross-industry standard process for data mining) データサイエンスの進め方 1. Business
Understanding 2. Data Understanding 3. Data Preparation 4. Modeling 5. Evaluation 6. Development 28
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する 29 モデル→計算式の塊
CRISP-DM データサイエンスの進め方 1. ビジネス理解 2. データ理解 3. データの前処理 4. モデル構築
5. モデル評価 6. モデルをビジネス展開する マンションの価格査定モデル構築プロジェクトを例に あげて解説します! 30
ビジネス理解 目的: - 取り組むべき課題を抽出する。 理解する対象: - マンションを買い取って再販する - お客様からマンションを買い取る業務に着目 得られた課題:
- 価格査定にすごく時間がかかる。→ お客様の離脱率が上がってしまう。 - 査定スキルが人によって異なる。→ 査定結果にばらつきが出る。 求める成果 - マンションの価格査定モデルを作って自動化する。 31
データ理解 目的: - モデル構築に使用するデータ決めの参考にする - 例:「広さ」データは価格と関係ありそうだから使おう! - どのようなデータ処理を行うかの参考にする - 例:入力ミスデータがあるから対処しよう!
具体的な操作: - データを眺める - データの量の確認 - データの質の確認(どれくらい抜け漏れがあるか等) - データのグラフ化 - データ同士の関係を調査(価格と広さの関係など) 32
データ前処理 目的: - モデル構築ができるようにデータを加工・掃除する 例: - 外れ値・異常値処理(変なデータに対処する) - 欠損値処理(欠けているデータを補完する) -
新しいデータを作る - etc これが一番大変な工程! 33
データ前処理 外れ値・異常値の例 明らかにおかしい データ 34 合ってるけど 極端なデータ
データ前処理 異常値の例 明らかに 間違っている データ 35
モデル構築 今回はモデル構築の手段として機械学習(+α)を用いる。 面積 駅徒歩 住所 間取り 価格 20m2 10分 A区B町
1K 2000万円 24m2 8分 C区D町 1K 3000万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 31m2 6分 E区F町 1LDK 4000万円 25m2 5分 G区H町 1K ? 36
モデル評価 モデルがどれくらいの性能を出すかを評価する。 面積 駅徒歩 住所 間取り 真の価格 モデル予測価格 23m2 9分
I区J町 1K 2000万円 2100万円 27m2 10分 K区L町 1DK 3000万円 3200万円 ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ ・ 22m2 2分 M区N町 1K 2100万円 2100万円 差が小さいほど 良いモデル 37
モデルをビジネス展開する 自社サービスのマイページ画面にてAI査定額を表示 - モデルをAPI化し開発チームへ提供 38
モデルをビジネス展開する ユーザー側への効果 • 査定額をすぐに知ることができるようになった • 機械的で客観的な査定額を知ることができるようになった 会社側への効果 • 業務効率化 ◦
顧客獲得単価を36%削減 • 利用者の増加 ◦ サイトからの離脱率を6ポイント削減 39
価格査定AIの開発で 直面した課題と工夫した点 40
自己紹介 2019年 GA technologiesに新卒入社 1. マンション価格予測AI・賃料予測AIの研究・API開発 2. 営業担当者のアサインの最適化を支援する推薦システム・アプリの開発 などに従事 41
価格査定AIの開発で直面した課題 1. 使用可能な情報の制約 2. 高級物件の査定の難しさ 42
使用可能な情報の制約 43
使用可能な情報の制約 価格査定AIは、物件に関する情報(竣工年、面積など)を用いて査定を行う 価格査定AI 竣工年 面積 ︙ 査定額 44
課題 • データ分析的には、多くの情報(特徴量)が欲しい • ビジネス的には、最小限の入力項目だけに留めたい 45 RENOSYサービスサイト AI査定機能の入力欄
対処 1. 使用する特徴量を厳選 2. 特徴量の増幅 46
対処1:使用する特徴量を厳選 査定業務に詳しい社員にヒアリングを行い、優先度の高い特徴量を選別した 次の6項目がユーザー入力項目の候補となった 1. 物件名 2. 住所 3. 竣工年
4. 総階数 5. 部屋の階数 6. 専有面積 47
対処2:特徴量の増幅 <例:最寄り駅の場合> 48
対処2:特徴量の増幅 <例:最寄り駅の場合> マンション名 座標 最寄り駅 価格査定AI 建物検索 API 周辺施設 検索API
住所検索 API 住所 49
建物や住所の検索はどう行っているか? 1. 建物名の正規化 • ノイズとなる文字列の削除 ◦ 例:「リノシーマンション 301号室」→「リノシーマンション」 •
表記ゆれの統一 ◦ 例:「RENOSYマンション」→「リノシーマンション」 2. 建物マスターDB • 信頼性の高いデータを保持 建物検索API 建物名 正規化API 建物DB 50
建物や住所の検索はどう行っているか? 1. 建物名の正規化 ← 自然言語処理チーム 2. 建物マスターDB ← データマネジメントチーム、開発や取引に関わる部署等
→ 多くのメンバーの努力と技術やデータの蓄積により実現 建物検索API 建物名 正規化API 建物DB 51
高級物件の査定の難しさ 52
高級物件の査定の難しさ 課題 • 富裕層向けの高級物件への誤差が高い • 高級物件は内装や設備のグレードが他の周辺物件よりも高い等の特徴があるが、 今回はそのような特徴量は使用できない 53
高級物件の査定の難しさ 対処 1. 高級物件モデル 2. ルールベースモデル 54
対処1:高級物件モデルの切り出し • 高級物件に特化した予測モデルを別途作る • 「このマンションは高級物件」などの業界のドメイン知識 & データから判定
高級物件 通常モデル 高級物件モデル 訓練データ 55
対処2:ルールベースモデルの構築 課題 • 高級物件間の個体差が少なくない • サンプルが少なく、機械学習でうまく解くことが難しい
56
対処2:ルールベースモデルの構築 対処 • ルールベースのアルゴリズムを考案 • 査定対象と同じマンション内の、査定対象と似た物件の過去の取引事例があれば それらの売買額の平均を使うようなアルゴリズムを導入 通常モデル このマンションの過去の
取引事例があるか? 高級マンションか? No Yes 高級物件モデル 取引事例の平均をとる No Yes 57 価格査定AIの全体像
まとめ 課題1:使用可能な情報(特徴量)の制約 • 対処1:業界のドメイン知識に基づき、使用する特徴量を厳選 • 対処2:社内の技術やデータを利用し、内部で特徴量を増幅 課題2:高級物件の査定の難しさ • 対処1:問題を分割し予測の難しい物件に特化した高級物件モデルを作る
• 対処2:機械学習にこだわりすぎずルールベースモデルも利用する 58