Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
Nsihika 中古マンション価格予測 2022春 Solution 共有会
Search
kazuki-komori
September 12, 2022
0
330
Nsihika 中古マンション価格予測 2022春 Solution 共有会
kazuki-komori
September 12, 2022
Tweet
Share
More Decks by kazuki-komori
See All by kazuki-komori
技育祭 2022 Do'er 紹介
kazuyan
1
120
StartDash_LT.pdf
kazuyan
1
120
CA tech Challenge
kazuyan
0
73
技育展_Profill
kazuyan
0
110
kansai-frontend-ug-2020
kazuyan
3
160
Featured
See All Featured
Fashionably flexible responsive web design (full day workshop)
malarkey
405
66k
Building an army of robots
kneath
302
44k
It's Worth the Effort
3n
183
28k
Code Review Best Practice
trishagee
65
17k
Building Flexible Design Systems
yeseniaperezcruz
327
38k
Optimising Largest Contentful Paint
csswizardry
33
3k
Improving Core Web Vitals using Speculation Rules API
sergeychernyshev
0
98
For a Future-Friendly Web
brad_frost
175
9.4k
Practical Orchestrator
shlominoach
186
10k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
Typedesign – Prime Four
hannesfritz
40
2.4k
A better future with KSS
kneath
238
17k
Transcript
Nsihika 中古マンション価格予測 2022 春 Solution 共有会 Presented by kazuyan 1
Speaker kazuyan (@D_kazuyan) フロントエンドエンジニア / 機械学習 Vue.js / React /
Golang / Python (最近はRust を勉強中) Presented by kazuyan 2
本日のお品書き 1. 機械学習コンペとは 2. コンペ概要 3. 探索的データ分析(EDA ) 4. 特徴量エンジニアリング
5. モデル構築 6. 入門者向けコンペの紹介 Presented by kazuyan 3
1. 機械学習コンペとは Presented by kazuyan 4
機械学習コンペとは 特定の社会問題や身の回りの問題の背景が与えられる タイタニック号の生存者予測 医療画像からの腫瘍検出 画像とボケから面白いか判定 etc... Presented by kazuyan 5
求められるタスク 評価指標に沿って精度を上げ,他のユーザと順位を競う 分類(タイタニック号の乗客が生存できた or できなかった) 回帰(マンションの価格予測) Presented by kazuyan 6
プラットフォーム Kaggle (海外・難易度 高) 問題が英語・つよつよが多い SIGNATE (国内・難易度 中) 国内最大のコンペ・学生向けコンペも開催 Nishika
(国内・難易度 低) 初心者向けコンペあり・易しめ Presented by kazuyan 7
2. コンペ概要 Presented by kazuyan 8
2. コンペ概要 中古マンション価格予測 物件ごとに与えられた属性情報を使って価格予測 都道府県名・市区町村名・地区名 最寄り駅(分) 面積 建築年 用途 etc...
Presented by kazuyan 9
中古マンションの価 格を予測 実際の価格との差が小さいほ ど良い Presented by kazuyan 10
3. 探索的データ分析(EDA ) Presented by kazuyan 11
探索的データ分析(EDA )Explanatory Data Analysis データの特徴や分析に使えそうなヒントを探す 分布 欠損値 ユーザの属性 etc... 要は「データを見る」ということ
個人的にはコンペで1 番重要なんじゃないかと感じている Presented by kazuyan 12
EDA の例 欠損値の割合 Presented by kazuyan 13
EDA の例 建築年ごとの物件数 Presented by kazuyan 14
EDA の例 変数間の相関 色が濃い部分ほど数値の傾 向が似ている Presented by kazuyan 15
4. 特徴量エンジニアリング Presented by kazuyan 16
特徴量エンジニアリング 各属性の要約統計量(最小値・最大値・平均・分散) Label Encoding Count Encoding Target Encoding (CV: 5
) 市区町村名を用いてgroup 化し,カウント 物件の所在地情報から緯度,経度を算出 緯度・経度からL1 距離とL2 距離を算出 Presented by kazuyan 17
Label Encoding 質的なデータ(カテゴリカル・データ)を数値に置き換える 男 => 0 ,女 => 1 数値的な意味は持たない
Count Encoding 質的データの出現回数を数値として置き換える ex: 男が 2 人,女が 4 人のデータの場合 男 => 2 ,女 => 4 Label Encoding と比較して数値的な意味がある Presented by kazuyan 18
Target Encoding 目的変数の平均をカテゴリカル変数ごとに取る カテゴリ数が多い場合に有効なことが多い(今回の市区町村な ど) Leak (訓練データの目的変数に過学習)する場合があるので,取 り扱いに注意 Cross Validation
して,平均を取るなど対策をする Presented by kazuyan 19
5. モデル構築 Presented by kazuyan 20
モデル構築 決定木をベースとしたモデルを使用 LightGBM 高速で分類・回帰のどちらにも適用できるので,Kaggle など で大人気 学習率: 0.05 GPU を使用して
2 時間程度 Optuna でパラメータチューニング(時間がかかる) Presented by kazuyan 21
モデル構築 交差検証 Cross Validation (CV ) 学習データと検証データのセットを複数作成 過学習を防ぐ 今回は CV
= 5 Strasified KFold (特定の要素を均等に分類)で市区町村とした Presented by kazuyan 22
6. 入門者向けコンペの紹介 Presented by kazuyan 23
入門者向けコンペの紹介 Nishika 中古マンション価格予測 2022 夏の部(回帰) https://www.nishika.com/competitions/34/summary SIGNATE クラウドファンディングの資金調達の成否を予測しよう!(分 類) https://signate.jp/competitions/754
Presented by kazuyan 24
入門者向けコンペの紹介 Kaggle Tabular Playground Series - Sep 2022 https://www.kaggle.com/competitions/tabular-playground- series-sep-2022
Spaceship Titanic https://www.kaggle.com/competitions/spaceship-titanic Presented by kazuyan 25