再考: お買い得物件を機械学習で見つける方法 / Rethink: Method to Find Cheap Rental Houses by Machine Learning

再考: お買い得物件を機械学習で見つける方法 @ill-identified 2019/6/29 1

自己紹介 • Twitter: @ill_identified • ブログ: http://ill-identified.hatenablog.com/ • LinkedIn: https://www.linkedin.com/in/satoshi-katagiri/
• Twitter: https://twitter.com/ill_Identified • github: https://github.com/Gedevan-Aleksizde • 現在の勤務先: Web 広告の会社 2

イントロダクション • Morishita (2019) https://speakerdeck.com/morishita/ rdeomai-ide-wu-jian-wotan-se (Tokyo.R 77 回) •
shokosaka (2017) (個人ブログ) http://www.analyze-world.com/entry/2017/11/09/061023 • 本当に機械学習でお買い得物件を求められるのか? 3

「マサカリ」を投げに来たわけではない Figure 1: Decapitation of Pedro I, public domain; Nicholas
of Myla at the Council of Nicaea, public domain • 機械学習が何をしているのか, どうやったら活用できるのかを建設的に議論したい 4

異常検知の教科書 • 今回は異常検知 (anomaly detection) のなかでも, 特に外れ値検出 (outlier detection)
分野の話 5

そもそも何がお買い得物件? • 家賃が高いよりも安いほうがいい • ただし留保条件もある • 広さはどれくらい • トイレと風呂は, ガスコンロはあるか,
電気調理器はあるか, • 条件を満たすもののなかで, なるべく安いものが欲しい 6

どうやって求めるか • shokosaka (2017), Morishita (2019) は不動産情報を特徴量に, 賃料を目的変数にして機械学習を適用 •
それぞれランダムフォレストと XGBoost • 賃料を目的変数 y, 物件情報による特徴量を x とおいて, 条件付き確率を仮定 y ∼p(y | x) • x に対する平均的な y を条件付き期待値関数 y = µ(x) :=Ey | x • 機械学習で µ(x) を近似した予測モデル ˆ y = ˆ µ(x) を作り, 残差の大きいものが外れ値 = お買得物件 ri :=yi − ˆ µ(x) 7

本当に? 本当に? 8

機械学習のしくみ再考 • 線形・3 次関数 + ノイズの疑似データ作成 9

単回帰と決定木で当てはめる • 単回帰/3 次多項式回帰と決定木 (ランダムフォレスト) で当てはめる. • ノイズがあるのでどうやっても一致しない •
ノイズのなかのどれが外れ値なのかわからない 10

モデルが先か外れ値が先か • 外れ値検出は正常状態を数式で正確に表せるのが前提 • 数式は機械学習でデータに当てはめて求める • データの外れ値は機械学習の数式から判定する • 数式は機械学習でデータに当てはめて求める •
データの外れ値は機械学習の数式から・数式は機械学習でデータに当ては・データの外れ値は機械学習の・数式は機械学習でデータ・データの外れ値は機械学・数式は機械学習でデ・データの外れ値は機・数式は機械学習・データの外れ値 11

ここまでのまとめ • 機械学習はデータの数値に当てはめているだけ • 単回帰でも XGBoost でも深層学習でも同じ • 交差検証 (CV)
をやるのはそのため • 検証データにも未知の外れ値があるとどうしようもない • 正常値・外れ値のラベルがないまま予測残差を見ても仕方がない • MSE・RMSE・MAE とにかく意味がない • 比較検証が難しい 12

補足: Morishita (2019) の方法 • 訓練データは物件を見つけたい地域以外の場所 • 訓練データを標準的な物件の情報とみなしていると明記している. •
偏りによる共変量シフトを Importance Weight で補正 • 訓練データにも外れ値はある • 地域によって重点される特徴量は違う. 共変量シフトの前提に疑問 13

論点 • もっと正確にお買得物件を見つける方法はないか? • 個人にとって実用的なものか? • 不動産情報サイトにとって実用的か? • 検証方法はどうすべきか? 14

代替手法 •「データだけドリブン」でやっても無理 • お買得物件に対する何らかの「仮説」がないと動けない • 以下の 2 通りを考えた 1. 偏差の大きなものを外れ値と考える
2. 正常値と外れ値が異なる分布に従うと考える 15

代替手法 1: Quantile Regression Forest • Random forest はいくつもの決定木のアンサンブル学習 •
R では ranger か randomForest パッケージで可能 (前者がおすすめ) • 簡単な解説は自分のブログ (ここ) とか • Meinshausen (2006) による qunatile regression forest • 平均ではなく分位点 (中央値) に合わせる • 分散の大きな外れ値ならこれで検知できる? • R では ranger または quantregForest パッケージで可能 16

代替手法 2: Gaussian Finite Mixture Model • ガウシアン有限混合回帰モデル • 複数の分布の合成でモデルを表現する.
• データが K 個の分布のどれかから発生している: y = K ∑ k=1 πkµk(y | x) • 各個体が k のどの分布に属したかの確率を計算できる. • おおざっぱに言うと本質的にはクラスタリングと同じ •「無限」混合はいわゆるノンパラベイズ • flexmix パッケージで可能 • 使い方は Leisch (2004) 参照 • 日本語ならここの解説が実用的でくわしい 17

どう検証するか • 正例/負例のラベルがない • 定量的な評価のしようがない • 疑似データを作るか • 生データと違う分布. 実用的ではない
• 苦肉の策 • 生データの一部を修正した疑似データを検出できるか判定する 18

処理の流れ • ソース: https://github.com/Gedevan-Aleksizde/ 20190615_bargain_detect 1. スクレイピング: rvest で suumo.jp
からスクレイピング 2. 整然化 (tidying): tidyverse で整形 3. 予測モデル作成: mlr, mlrCPO で前処理 & 学習のフロー作成 3.1 quantile regression forest 3.2 gaussian mixture model 4. 疑似データを外挿して評価 19

I. 内容解説: スクレイピング (1/4) • fetch_data.R の部分 • shokosaka (2017)
は Python なので rvest で書き直す • スクレイピングマナーや知財権には注意する. 1 install.packages( 2 setdiff("pacman", installed.packages()) 3 ) 4 pacman::p_load( 5 tidyverse, 6 robotstxt, 7 rvest, 8 stringr 9 ) 10 pacman::p_load_gh("franapoli/pbarETA") 20

I. 内容解説: スクレイピング (2/4) • rvest は xml データ (木構造)
をフィルタで抽出できる • タグ, 属性, CSS セレクタ, XML Path などを知っていれば簡単 • %>% も使える • 以下の関数で tidyr, purrr も駆使して tibble に収める 1 build_wise_page_to_tb <- function(query_result){ 2 data_html <- query_result %>% html_nodes("div.cassetteitem") 3 casset_info <- data_html %>% html_nodes("div.cassetteitem-de 4 casset_items <- data_html %>% html_nodes("div.cassetteitem-i 5 tb <- tibble( 6 title=casset_info %>% 7 html_node("div.cassetteitem_content-title") %>% html_tex 8 rent_category=casset_info %>% 21

I. 内容解説: スクレイピング (3/4) • これを suumo の検索結果ページから取得. • 取得したのは,
物件名, 間取り, 専有面積, 家賃, 管理費, 階数, 住所, 最寄り駅, 築年数など • 物件個別ページはスクレイピングしていない • ページ内から検索結果の全ページ数も取得 • これを 23 区それぞれの検索クエリ結果に対して実行 • 進捗がわかりづらいのでプログレスバーを使うと良い (pbarETA がおすすめ) 22

I. 内容解説: スクレイピング (4/4) Figure 2: スクレイピングしたデータ Figure 3: 入れ子部分の部屋別情報
23

II. 内容解説: 整然化 - tidying (1/2) • modeling.R の前半部分 •
スクレイピングの処理で結構整形してしまったのであまりやることがない • 本来は分けて書くほうがのちのちの改修で楽 • 整然化というより特徴量抽出の話 • 数値は「X.X 万円」「X 階」のような文字列で表されているので数値を取り出す (stringi, stringr が便利) • 階数はたまに地下 1 階とかあるので, cut() 関数で細かく離散化 1 cut(floor_int, breaks=c(-Inf, 1, 2, 4, ..., Inf)) 24

II. 内容解説: 整然化 - tidying (2/2) • 間取りは L, D,
K などそれぞれでダミー変数を立てる • 住所などテキストは feature hashing (hash tricking) で強制的に多次元の数値列にする (FeatureHashing が便利) • スコア勝負じゃないのでこの辺は手抜き 25

III. 内容解説: 予測モデル作成 (1/4) • mlr, mlrCPO を使う • mlr
の日本語の解説は以下を参照 • @nozma によるチュートリアル翻訳 + 補足説明 •『mlr パッケージチュートリアル - Quick Walkthrough 編』 •『R の機械学習パッケージ mlr のチュートリアル 3 (ベンチマーク試験から可視化まで)』 • kanamichi による『mlr チュートリアルの写経（その 1）』 (2015 年) • 『モデルを跨いでデータを見たい』(第 76 回 Tokyo.R) 26

III. 内容解説: 予測モデル作成 (2/4) • mlr では 1. データフレームと目的変数情報をタスク (task)
オブジェクトとして作成 tsk <- makeRegrTask( id="hoge", data=df, target="rent_price") 2. 学習器オブジェクト (learner) を作成 (listLearners() で使用できるものを一覧できる) 3. MODEL <- train(LEARNER, TASK) で学習結果を得る. 4. predict(MODEL, [DATA/TASK]) で予測値出力 27

III. 内容解説: 予測モデル作成 (3/4) • 登録されていないものは自作するしかない (resgist_mlr_learners.R の部分). • 今回は
flexmix も renger (quantreg バージョン) も登録されていなかった. • 以下を見れば作り方はだいたいわかる (たぶん) •『Integrating Another Learner』 • XGBoost の登録例 28

III. 内容解説: 予測モデル作成 (4/4) • mlrCPO (Composable Preprocessing Operators for
MLR) は名前通り前処理関係の機能を強化する • 前処理クラスは mlr にもあるけど数が少ない • cpoScale() %>>% makeLearner() のように %>>% で learner オブジェクトに前処理フローを付加できる • scikit-learn の PipeLine っぽい • ただしこちらもそこまで種類は豊富ではない tidyverse だけでいいんじゃね? • 目的変数を変換して, predict() 時に逆変換する cpoLogTrafoRegr() は便利 • さあいくぞ 29

しかしここでタイムアップ • 結果までまとめきれませんでした… 30

敗因分析 • 単純に作業量が多い • 未知の分野の先行研究の調査, モデリング, 検証を全部やろうとした • モデリングまでの作業でどのパッケージが使いやすいか比
較しながら進めていた • caret と mlr と tidymodels + parsnip どれが使いやすいかとか • これを全部 // 1 /// 週/// 間/// でやろうとした 31

いかがでしたか? • いかがでしたか? お買得物件を正確に発見する方法を調べてみましたが残念ながらよく分かりませんでした! • ill_identified 先生の今後の挽回に期待ですね! 32

次は時間内に終わる手堅いテーマを選ぶので許してください. Figure 4: Saint Peter of Verona, by Vecchietta, public
domain 33

今回のまとめ • 教師のない教師あり機械学習が行き場を見失う • 予測モデルの適切な評価をして使おう • tidyverse, mlr, mlrCPO あたりを組み合わせるととても便
利 • 研究は計画的に 34

参考文献 i Aggarwal, Charu C. (2017) Outlier Analysis, Cham: Springer
International Publishing, DOI: 10.1007/978-3-319-47578-3, DOI: 10.1007/978-3-319-47578-3. Chandola, Varun, Arindam Banerjee, and Vipin Kumar (2009) “Anomaly Detection: A Survey,” ACM Computing Surveys, Vol. 41, No. 3, pp. 1-58, July, DOI: 10.1145/1541880.1541882. Leisch, Friedrich (2004) “FlexMix: A General Framework for Finite Mixture Models and Latent Class Regression in R,” Journal of Statistical Software, Vol. 11, No. 8, DOI: 10.18637/jss.v011.i08. 35

参考文献 ii Meinshausen, Nicolai (2006) “Quantile Regression Forests,” Journal of
Machine Learning Research, Vol. 7, pp. 983-999. Morishita, Gota (2019) 「R でお買い得物件を探せ」，4 月． shokosaka (2017) 「機械学習を使って東京 23 区のお買い得賃貸物件を探してみた」，11 月．井出剛 (2015) 『入門機械学習による異常検知 - R による実践ガイド -』，コロナ社．井出剛・杉山将 (2015) 『異常検知と変化検知』，講談社． 36

再考: お買い得物件を機械学習で見つける方法 / Rethink: Method to Fin...

再考: お買い得物件を機械学習で見つける方法 / Rethink: Method to Find Cheap Rental Houses by Machine Learning

More Decks by S-Katagiri

Other Decks in Programming

Featured

Transcript