訪問調査における面会率向上モデル導入の提案

 訪問調査における面会率向上モデル導入の提案

C42851e02d6295ff0c6b576ef1cb886d?s=128

yoko_watanabe

March 08, 2020
Tweet

Transcript

  1. 訪問調査における⾯会率向上モデル 訪問留置調査の有効率改善に向けて 導⼊の提案 2019年8⽉期 渡辺洋⼦ 2020年3⽉

  2. n 資料制作者プロフィール 郵送、電話、訪問留置、訪問⾯会、WEBなどの 主に定量調査を扱う部署に所属 n 今回のテーマ 2 はじめに 訪問留置調査の⾯会率改善 今回扱う調査は、年1回6⽉に実施

  3. 3 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  4. 4 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  5. 調査有効率の低下が続いている 有効率の低下 経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85

    ’90 ’95 ’00 ’05 ’10 ’15 ’20 % 年 5 調査結果の信頼性の低下 誤差増⼤による推定精度の低下 有効率低下を止めたい 有効率:指定サンプルのうち、データを集計できたサンプルの割合 今回扱う調査の 有効率推移
  6. 有効率低下の主要因は、調査依頼時の脱落による 6 ⺟集団から抽出した 指定サンプル 3,600⼈ 調査依頼時脱落 拒否、不在、転居など 回収後脱落 対象違い、記⼊不備など 2019年6⽉サンプル(3,600⼈)での例

    2,330⼈ 1,270⼈ 2,324⼈ 6⼈ 近年増加
  7. ①全国から 300地点抽出 ②1地点ごと 12⼈抽出し、 リスト化 ③1⼈の調査員が1地点を担当 12⼈を訪問し、 調査協⼒を依頼 ★本ケースでは、該当⽇(⽇曜)に 1⽇で12⼈全員に依頼することが必須

    7 調査員がいかに多くの協⼒を得られるかが鍵
  8. 8 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  9. 調査依頼⽇の⾯会率向上が、有効率向上につながる 根拠:本⼈や家族に⾯会すると留置より有効率が⾼い 【⾯会相⼿別 調査有効数】 (⼈) 本⼈ 家族 第三者 留置 有効

    不能 9 % % 8 %9 6 % : 4 4 0 【⾯会相⼿別 調査有効率】 2019年6⽉サンプル(3,600⼈)での例
  10. 10 【時刻別 訪問件数】 (件) (時) (時) 【時刻別 本⼈・家族に会えた割合】 ・10時台:1回⽬の訪問のピーク ・15時以降:複数回⽬の訪問が増える

    ・7・8・21時台:⾯会率が⾼い ・9時→20時台:⾯会率が低下する傾向 訪問時刻と⾯会率の⾼い時刻がミスマッチ? 2019年6⽉サンプル(3,600⼈)での例
  11. 調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO

    本⼈・家族・第三者 YES NO 協⼒ YES 有効 NO 不能 YES NO YES NO YES 初回訪問 会えた 訪問② 訪問③ 訪問n 留置 1⼈の調査相⼿あたり 訪問数 平均 1.9 回 最⼤ 8 回
  12. 12 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  13. n モデルの特徴 ・訪問時間帯による⾯会確率を計算できる ・⾯会確率を上げることで、不在による取りこぼし リスクを減らせる n 期待される効果 ・無駄な訪問を減らすことで、調査員の負担を減らせる ・効率のよい訪問順を計算できる 13

    ⾯会率予測モデルを導⼊し、訪問時刻を最適化
  14. 予測 モデル 予測 予測 モデル 学習 モデルの概要 14 調査相⼿別に 最適な

    訪問時刻を提案 ⼊⼒① 訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 過去の実績 ⼊⼒② 仮の訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 新規リスト 出⼒ 仮の訪問時刻 ごとの ⾯会確率
  15. 15 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  16. モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ(学習・テスト)と検証⽤データ に分割 l

    モデル作成⽤データ(学習)で、モデルアルゴリズムを選択、 パラメーターを調整 l モデル作成⽤データ(テスト)で精度検証 l 検証⽤データで予測、アウトプットイメージ作成
  17. 利⽤データ n 過去の訪問記録データ 2015年・2016年・2017年・2018年・2019年の調査時の訪問記録 17 【データイメージ】 場所データ:都市規模、都市圏、県、地⽅、区市郡 ⼈データ :性、年齢、有効有無、配付相⼿、訪問時刻1〜10 など

       &  #    " $ !  C  6 1 : 3 3 4   70 1 : : 2A '  1 :   5 B9   D %
  18. 追加候補データ n 6⽉調査以外の調査員の訪問記録データ 18 n 市区町村コードで紐付けする場所データ(地点単位) 市区町村ごとのオートロック世帯率 ・総務省「住宅・⼟地統計調査報告」(2013) ・総務省「住⺠基本台帳に基づく⼈⼝、⼈⼝動態および世帯数調査」(各年) n

    性年齢で紐付けする個⼈データ 性年齢(10歳刻み)ごとの時間帯別起床在宅率 ・NHK「国⺠⽣活時間調査」(2015) 今回は適⽤なし 検証中 検証中
  19. 予測モデルに使⽤する変数の候補 n ⽬的変数 調査依頼⽇の⾯会有無 19 訪問時刻1〜10から ⾯会相⼿が決定したn回⽬の訪問時刻を 最終訪問時刻とする変数を作成 n 説明変数の候補

    性、年齢 都市規模、都市圏、区市郡、県、地⽅など 訪問時刻1〜10 訪問時刻① 本⼈・家族・第三者 会えた YES NO 協⼒ YES 有効 NO 訪問時刻② 不能 YES NO 訪問時刻③ YES NO 訪問時刻n YES ⾯会あり(1):⾯会相⼿がA(本⼈) またはB(家族) ⾯会なし(0):それ以外 【訪問フロー】 不在の場合、再度訪問 A/B/C/D/0が決定するまで繰り返す
  20. ⾯会率には、訪問時刻・年齢の影響が強い 20 【⾯会有無を⽬的変数とした決定⽊】 最終訪問時刻16時30分 最終訪問時刻14時30分 最終訪問時刻17時30分 年齢62歳 年齢38歳 東京圏⼤阪圏 北海道東北

  21. ⾯会率には、訪問時刻・年齢の影響が強い 21 【⾯会有無を⽬的変数としたRandom ForestによるFeature Importance】 最終訪問時刻 年齢 オートロック 市町村コード 県

    性 地点番号
  22. 最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり ⾯会なし 【最終訪問時刻】 【男⼥年層】 -10 20 30 40

    50 60 70- -10 20 30 40 50 60 70- 男 ⼥ 時 ・ 15時以降、⾯会率が下がる ・男20・30代、 ⼥20代の⾯会率が低い ※⽇曜
  23. 23 【都市規模】 【都市圏】 【区市郡】 東京圏 ⼤阪圏 30万~ 10万~ 5万~ 5万未満

    区 市 郡 100万以上 30万以上 10万以上 5万以上 5万未満 都市規模・区市郡・都市圏と⾯会有無の関係 ⾯会あり ⾯会なし ・都市規模が⼤きいほど、 ⾯会率が低い ・東京圏、⼤阪圏の ⾯会率が低い
  24. 24 【県】 【地⽅】 北海道 東北 関東 甲信越 東海 近畿 中国

    四国 九州 県・地⽅と⾯会有無の関係 ⾯会あり ⾯会なし ・県によって⾯会率が異なる ・東北地⽅の⾯会率が⾼い ・北海道、近畿、四国の ⾯会率が低い
  25. 25 【時刻ごとの⾯会率】 「訪問は朝から開始してください」 現状の指⽰:曖昧な時刻の設定 「夜間まで繰り返し訪問することが必要です」 明確な指⽰のために知りたいこと ・10時より前の訪問効果 ・19時以降の訪問効果 最終訪問時刻を下記のようにカテゴリ化する ことにより、具体的な指⽰の根拠とできる

    時刻ごとの⾯会率を加味 1:7〜9時、2:10〜11時、3:12〜16時、 4:17〜18時、5:19〜21時、6:22時台 最終訪問時刻のカテゴリ化 ❶ ❷ ❸ ❹ ❺ ❻
  26. モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年 (学習データ:2015〜18*0.8 テストデータ:2015〜18*0.2 )  M- M

    ,+1 2 3 ,+1 /*$ 1 4 2 - 4 2 - 4 2 4 2 - 2 ,+1 /0 9 - - 4 2 - 4 2 4 2 - 2 ,+1 & 6V- - ,+1  0 6V- - 7 - 5- S - 8 S - - ,+1 . - - ,+1 #'," ,+1 0   0()% -! 訪問記録 2019年 モデル作成 予測・検証
  27. 機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random

    Forest 0.70 理由:クロスバリデーションの結果、 Random Forestの精度がもっとも⾼かったため n 検討したモデル これ以降、予測モデルはRandom Forestを使う
  28. 28 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  29. モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62

    1892 1 0.77 0.87 0.81 3225 Grid Search で 調整したパラメーター 'max_depth': 10 'max_features': 'auto' 'min_samples_leaf': 4 'n_estimators': 500 AUC:0.77 accuracy:0.77 Random Forest Random Forest ※閾値 0.5 precision recall f1-score support 0 0.73 0.48 0.58 2687 1 0.70 0.87 0.78 3709 AUC:0.76 accuracy:0.71 【テストデータ 2015〜2018*0.2 】 【検証データ 2019】 ※閾値 0.5
  30. モデルによる予測【2019データ】 30 ・時間帯が早いほど、⾯会確率は⾼くなる傾向 ・19〜21時台が最も低く、22時台はやや上がる ・有効率が低い男20代も、傾向は全体と同様 【時間帯ごとの平均予測⾯会率】 注意: 19時以降は、留め置いてしまうため、 急激に⾯会率が低くなると考えられる。 実務への適⽤には、相対的な優先度を

    つけるなど⼯夫が必要。 全体 男20代 7-9h 0.80 0.75 10-12h 0.78 0.72 12-16h 0.75 0.69 17-18h 0.51 0.41 19-21h 0.26 0.22 22h 0.56 0.47 ※⽇曜
  31. 31 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  32. 予測モデルの訪問時間帯ごと⾯会率から 訪問時刻と訪問順を決定する 32 ①抽出したリストに、時間帯別の⾯会確率を付加 ②時間帯ごとの最⼤⼈数を加味し、 1地点の⾯会⼈数が最⼤になる時間帯を調査相⼿ごとに算出    

                      リストイメージ
  33. No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79

    0.75 0.51 0.36 0.57 2 0.77 0.77 0.68 0.33 0.18 0.41 3 0.78 0.78 0.74 0.50 0.35 0.57 4 0.78 0.78 0.74 0.43 0.29 0.50 5 0.77 0.77 0.69 0.41 0.22 0.46 6 0.79 0.79 0.76 0.53 0.36 0.57 7 0.79 0.79 0.74 0.52 0.35 0.59 8 0.80 0.80 0.77 0.57 0.36 0.63 9 0.75 0.74 0.66 0.27 0.14 0.36 10 0.79 0.79 0.76 0.51 0.35 0.58 11 0.75 0.74 0.66 0.28 0.13 0.36 12 0.76 0.76 0.68 0.38 0.22 0.43 33 リストイメージ 【調査相⼿別 時間帯ごとの⾯会確率】 調査相⼿別に 最適な訪問時間 を提案 ※⽇曜
  34. 34 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要

    ・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
  35. 今後に向けて 35 •精度向上 •応⽤可能性 モデルの向上(パラメータの調整、変数の改善) 外部データの連結 他の調査への適⽤ 調査以外の訪問業務(宅配など)への適⽤ •訪問効率の向上 調査相⼿ごとの場所データ(郵便番号など)の連結により、

    稼働時間も考慮する •実務上の課題 調査相⼿間の位置関係が考慮されていない
  36. 36 ・別のアルゴリズムモデルの試⾏、変数やパラメーターの探索 今回は3つのモデルしか試さなかったので他のモデルでも試してみたい ・最適ルートを出⼒するシミュレーションモデルの作成 ・外部データによる説明変数の追加 今回は訪問記録のみから、モデルを作成したが、場所データや在宅率データも追加したい 在宅率データは、モデルの向上にかなり寄与する可能性がある 今後さらに実施してみたいこと ・for⽂、関数、パイプラインなどを使って、すっきりしたわかりやすいコードにしたい ・調査データの内容についても機械学習を導⼊したい

    特に、⾃由回答分析(テキスト分析)を試したい ・データ取り込みや加⼯も含めて関数化して、新しいリストがでるたびに 簡単な仕組みで⼿間をかけずに、予測値をアウトプットできるようにしたい
  37. 難しかったこと・苦労したこと 37 ・エクセルファイルから取り込んだデータの変換 特に時刻情報をPythonで扱えるようにすること、ほか理由のわからないエラーに多々苦しめられた ・データの取り込みの煩雑さ 多⽅⾯に散らばっているファイルを⾒つけ出したり、外部データの探索と加⼯に⼿間がかかった ・Macでの作業 普段使っていないMacで作業したため、基本操作がわからず作業速度が著しく低下した ・作業時間の捻出 作業時間を作るため、仕事、育児、家事の時間配分の⾒直しと周囲への協⼒が不可⽋だった

    ・プログラミング初⼼者なので、すべての処理をいちいち調べるため時間がかかった 関数化、繰り返し処理に習熟していないため、無駄な処理が多い ・モデルの変数の選択・加⼯ ⾏ごとにデータ量(カラム数)の異なるデータをどう意味付けて、加⼯するかが難しく、 未だ探索中
  38. 38 END