Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Rでお買い得物件を探せ

 Rでお買い得物件を探せ

家賃予測を行う機械学習モデルを作り、予測家賃が実際の家賃より高い物件をお買い得と判断する。しかし、学習に使ったデータは学習に使わなかったデータよりもモデルにフィットしているので、予測賃金との誤差は小さい。よって、学習データはお買い得度合いを正確に測ることができない。そうすると、調べられる物件の数が減ってしまう。今回は、お買い得か調べたい地域のデータを学習に少ししか使わなくても、あたかも全てのデータを学習に使ったかのような状況を再現できるCovariate shift corretionを行って、行わなかった場合と制度を比較した。

morishita

April 13, 2019
Tweet

Other Decks in Programming

Transcript

  1. Rでお買得物件を探せ Gota Morishita TokyoR 2018.04.13

  2. 自己紹介 • Gota Morishita • 社会人3ヶ月、R歴3日 • 経歴 ◦ 慶應理工学部修士卒(ゲーム理論)

    ◦ CyberAgent AI Lab | ADEcon Now! • twitter: @GotaMorishita
  3. モチベーション • 一人暮らししたい • なるべく割安な物件に住みたい • 割安ってどう判断するの? ◦ 賃貸情報サイトを目視で確認する? ◦

    割安の判断基準は?
  4. モチベーション • 一人暮らししたい • なるべく割安な物件に住みたい • 割安ってどう判断するの? ◦ 賃貸情報サイトを目視で確認する? ◦

    割安の判断基準は? そうだ、機械学習を使って判断しよう!
  5. モチベーション • 賃料の予測モデル ◦ 賃料 =(家賃+共済費)+ 敷金礼金 ÷ 12 •

    実際の賃料 < 予測の賃料 → お買い得なはず!!(本当か?)
  6. 予測までの”通常”のプロセス スクレイピング 学習データ 学習 予測 モデル テストデータ

  7. 学習データのジレンマ • 学習に使ったデータは候補から外れる • 学習データを減らすと・・・ → モデル自体の精度が悪化 学習デー タ テストデータ

  8. ジレンマの解消 • 学習データから住みたい地域のデータを 90%取り除く • 取り除いたデータはお買い得物件候補 学習データの特徴量の分布が変化 学習データ テストデータ keep

  9. Covariate shiftの発生 • 家の特徴量と家賃の関係P(Y|X)は変わらない • 学習データとテストデータの特徴量の分布P(X)は変わる • Importance Weight(IW)で修正(*) ex)

    三軒茶屋のデータの90%を学習データから抜き取る → 三軒茶屋のデータは10分の1に → 三軒茶屋のデータの重みを10倍にして学習 (*) M. Sugiyama and et al.Covariate Shift Adaptation by Importance Weighted Cross Validation Journal of Machine Learning Research 8(May):985--1005, 2007.
  10. データの収集の範囲 • 会社の住宅補助適用圏内のみ ◦ 世田谷区 ◦ 目黒区 ◦ 渋谷区 ◦

    港区 ◦ 品川区 • 家賃は20万以下の範囲内
  11. 分析モデル • GBDT(xgboost) • Importance Weightありとなしで比較 • Group 5-fold CVで最適なハイパラをそれぞれ調整

  12. RMSEの比較 三軒茶屋におけるデータのRMSE 全地区におけるデータのRMSE IWあり IWなし IWあり IWなし

  13. お買い得物件No.1 IWありのモデル 賃料 111,200円 間取り 1DK 占有面積 30.82m2 築年数 41年

    建物種別 マンション 階 4階 徒歩 6分 IWなしのモデル 賃料 84,000円 間取り 1R 占有面積 23.0m2 築年数 16年 建物種別 アパート 階 1階 徒歩 13分