Slide 1

Slide 1 text

Rでお買得物件を探せ Gota Morishita TokyoR 2018.04.13

Slide 2

Slide 2 text

自己紹介 ● Gota Morishita ● 社会人3ヶ月、R歴3日 ● 経歴 ○ 慶應理工学部修士卒(ゲーム理論) ○ CyberAgent AI Lab | ADEcon Now! ● twitter: @GotaMorishita

Slide 3

Slide 3 text

モチベーション ● 一人暮らししたい ● なるべく割安な物件に住みたい ● 割安ってどう判断するの? ○ 賃貸情報サイトを目視で確認する? ○ 割安の判断基準は?

Slide 4

Slide 4 text

モチベーション ● 一人暮らししたい ● なるべく割安な物件に住みたい ● 割安ってどう判断するの? ○ 賃貸情報サイトを目視で確認する? ○ 割安の判断基準は? そうだ、機械学習を使って判断しよう!

Slide 5

Slide 5 text

モチベーション ● 賃料の予測モデル ○ 賃料 =(家賃+共済費)+ 敷金礼金 ÷ 12 ● 実際の賃料 < 予測の賃料 → お買い得なはず!!(本当か?)

Slide 6

Slide 6 text

予測までの”通常”のプロセス スクレイピング 学習データ 学習 予測 モデル テストデータ

Slide 7

Slide 7 text

学習データのジレンマ ● 学習に使ったデータは候補から外れる ● 学習データを減らすと・・・ → モデル自体の精度が悪化 学習デー タ テストデータ

Slide 8

Slide 8 text

ジレンマの解消 ● 学習データから住みたい地域のデータを 90%取り除く ● 取り除いたデータはお買い得物件候補 学習データの特徴量の分布が変化 学習データ テストデータ keep

Slide 9

Slide 9 text

Covariate shiftの発生 ● 家の特徴量と家賃の関係P(Y|X)は変わらない ● 学習データとテストデータの特徴量の分布P(X)は変わる ● Importance Weight(IW)で修正(*) ex) 三軒茶屋のデータの90%を学習データから抜き取る → 三軒茶屋のデータは10分の1に → 三軒茶屋のデータの重みを10倍にして学習 (*) M. Sugiyama and et al.Covariate Shift Adaptation by Importance Weighted Cross Validation Journal of Machine Learning Research 8(May):985--1005, 2007.

Slide 10

Slide 10 text

データの収集の範囲 ● 会社の住宅補助適用圏内のみ ○ 世田谷区 ○ 目黒区 ○ 渋谷区 ○ 港区 ○ 品川区 ● 家賃は20万以下の範囲内

Slide 11

Slide 11 text

分析モデル ● GBDT(xgboost) ● Importance Weightありとなしで比較 ● Group 5-fold CVで最適なハイパラをそれぞれ調整

Slide 12

Slide 12 text

RMSEの比較 三軒茶屋におけるデータのRMSE 全地区におけるデータのRMSE IWあり IWなし IWあり IWなし

Slide 13

Slide 13 text

お買い得物件No.1 IWありのモデル 賃料 111,200円 間取り 1DK 占有面積 30.82m2 築年数 41年 建物種別 マンション 階 4階 徒歩 6分 IWなしのモデル 賃料 84,000円 間取り 1R 占有面積 23.0m2 築年数 16年 建物種別 アパート 階 1階 徒歩 13分