Upgrade to Pro — share decks privately, control downloads, hide ads and more …

訪問調査における面会率向上モデル導入の提案

 訪問調査における面会率向上モデル導入の提案

yoko_watanabe

March 08, 2020
Tweet

Other Decks in Research

Transcript

  1. 調査有効率の低下が続いている 有効率の低下 経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85

    ’90 ’95 ’00 ’05 ’10 ’15 ’20 % 年 5 調査結果の信頼性の低下 誤差増⼤による推定精度の低下 有効率低下を止めたい 有効率:指定サンプルのうち、データを集計できたサンプルの割合 今回扱う調査の 有効率推移
  2. 10 【時刻別 訪問件数】 (件) (時) (時) 【時刻別 本⼈・家族に会えた割合】 ・10時台:1回⽬の訪問のピーク ・15時以降:複数回⽬の訪問が増える

    ・7・8・21時台:⾯会率が⾼い ・9時→20時台:⾯会率が低下する傾向 訪問時刻と⾯会率の⾼い時刻がミスマッチ? 2019年6⽉サンプル(3,600⼈)での例
  3. 調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO

    本⼈・家族・第三者 YES NO 協⼒ YES 有効 NO 不能 YES NO YES NO YES 初回訪問 会えた 訪問② 訪問③ 訪問n 留置 1⼈の調査相⼿あたり 訪問数 平均 1.9 回 最⼤ 8 回
  4. 予測 モデル 予測 予測 モデル 学習 モデルの概要 14 調査相⼿別に 最適な

    訪問時刻を提案 ⼊⼒① 訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 過去の実績 ⼊⼒② 仮の訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 新規リスト 出⼒ 仮の訪問時刻 ごとの ⾯会確率
  5. モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ(学習・テスト)と検証⽤データ に分割 l

    モデル作成⽤データ(学習)で、モデルアルゴリズムを選択、 パラメーターを調整 l モデル作成⽤データ(テスト)で精度検証 l 検証⽤データで予測、アウトプットイメージ作成
  6. 予測モデルに使⽤する変数の候補 n ⽬的変数 調査依頼⽇の⾯会有無 19 訪問時刻1〜10から ⾯会相⼿が決定したn回⽬の訪問時刻を 最終訪問時刻とする変数を作成 n 説明変数の候補

    性、年齢 都市規模、都市圏、区市郡、県、地⽅など 訪問時刻1〜10 訪問時刻① 本⼈・家族・第三者 会えた YES NO 協⼒ YES 有効 NO 訪問時刻② 不能 YES NO 訪問時刻③ YES NO 訪問時刻n YES ⾯会あり(1):⾯会相⼿がA(本⼈) またはB(家族) ⾯会なし(0):それ以外 【訪問フロー】 不在の場合、再度訪問 A/B/C/D/0が決定するまで繰り返す
  7. 最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり ⾯会なし 【最終訪問時刻】 【男⼥年層】 -10 20 30 40

    50 60 70- -10 20 30 40 50 60 70- 男 ⼥ 時 ・ 15時以降、⾯会率が下がる ・男20・30代、 ⼥20代の⾯会率が低い ※⽇曜
  8. 23 【都市規模】 【都市圏】 【区市郡】 東京圏 ⼤阪圏 30万~ 10万~ 5万~ 5万未満

    区 市 郡 100万以上 30万以上 10万以上 5万以上 5万未満 都市規模・区市郡・都市圏と⾯会有無の関係 ⾯会あり ⾯会なし ・都市規模が⼤きいほど、 ⾯会率が低い ・東京圏、⼤阪圏の ⾯会率が低い
  9. 24 【県】 【地⽅】 北海道 東北 関東 甲信越 東海 近畿 中国

    四国 九州 県・地⽅と⾯会有無の関係 ⾯会あり ⾯会なし ・県によって⾯会率が異なる ・東北地⽅の⾯会率が⾼い ・北海道、近畿、四国の ⾯会率が低い
  10. モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年 (学習データ:2015〜18*0.8 テストデータ:2015〜18*0.2 )  M- M

    ,+1 2 3 ,+1 /*$ 1 4 2 - 4 2 - 4 2 4 2 - 2 ,+1 /0 9 - - 4 2 - 4 2 4 2 - 2 ,+1 & 6V- - ,+1  0 6V- - 7 - 5- S - 8 S - - ,+1 . - - ,+1 #'," ,+1 0   0()% -! 訪問記録 2019年 モデル作成 予測・検証
  11. 機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random

    Forest 0.70 理由:クロスバリデーションの結果、 Random Forestの精度がもっとも⾼かったため n 検討したモデル これ以降、予測モデルはRandom Forestを使う
  12. モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62

    1892 1 0.77 0.87 0.81 3225 Grid Search で 調整したパラメーター 'max_depth': 10 'max_features': 'auto' 'min_samples_leaf': 4 'n_estimators': 500 AUC:0.77 accuracy:0.77 Random Forest Random Forest ※閾値 0.5 precision recall f1-score support 0 0.73 0.48 0.58 2687 1 0.70 0.87 0.78 3709 AUC:0.76 accuracy:0.71 【テストデータ 2015〜2018*0.2 】 【検証データ 2019】 ※閾値 0.5
  13. No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79

    0.75 0.51 0.36 0.57 2 0.77 0.77 0.68 0.33 0.18 0.41 3 0.78 0.78 0.74 0.50 0.35 0.57 4 0.78 0.78 0.74 0.43 0.29 0.50 5 0.77 0.77 0.69 0.41 0.22 0.46 6 0.79 0.79 0.76 0.53 0.36 0.57 7 0.79 0.79 0.74 0.52 0.35 0.59 8 0.80 0.80 0.77 0.57 0.36 0.63 9 0.75 0.74 0.66 0.27 0.14 0.36 10 0.79 0.79 0.76 0.51 0.35 0.58 11 0.75 0.74 0.66 0.28 0.13 0.36 12 0.76 0.76 0.68 0.38 0.22 0.43 33 リストイメージ 【調査相⼿別 時間帯ごとの⾯会確率】 調査相⼿別に 最適な訪問時間 を提案 ※⽇曜