訪問調査における面会率向上モデル導入の提案

訪問調査における⾯会率向上モデル訪問留置調査の有効率改善に向けて導⼊の提案 2019年8⽉期渡辺洋⼦ 2020年3⽉

n 資料制作者プロフィール郵送、電話、訪問留置、訪問⾯会、WEBなどの主に定量調査を扱う部署に所属 n 今回のテーマ 2 はじめに訪問留置調査の⾯会率改善今回扱う調査は、年１回６⽉に実施

3 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要
・モデルの構築・モデルの評価⽬次・モデルの導⼊例・今後に向けて

調査有効率の低下が続いている有効率の低下経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85
’90 ’95 ’00 ’05 ’10 ’15 ’20 % 年 5 調査結果の信頼性の低下誤差増⼤による推定精度の低下有効率低下を止めたい有効率：指定サンプルのうち、データを集計できたサンプルの割合今回扱う調査の有効率推移

有効率低下の主要因は、調査依頼時の脱落による 6 ⺟集団から抽出した指定サンプル 3,600⼈調査依頼時脱落拒否、不在、転居など回収後脱落対象違い、記⼊不備など 2019年6⽉サンプル（3,600⼈）での例
2,330⼈ 1,270⼈ 2,324⼈ 6⼈近年増加

①全国から 300地点抽出 ②1地点ごと 12⼈抽出し、リスト化 ③1⼈の調査員が1地点を担当 12⼈を訪問し、調査協⼒を依頼 ★本ケースでは、該当⽇（⽇曜）に 1⽇で12⼈全員に依頼することが必須
7 調査員がいかに多くの協⼒を得られるかが鍵

調査依頼⽇の⾯会率向上が、有効率向上につながる根拠：本⼈や家族に⾯会すると留置より有効率が⾼い【⾯会相⼿別調査有効数】（⼈）本⼈家族第三者留置有効
不能 9 % % 8 %9 6 % : 4 4 0 【⾯会相⼿別調査有効率】 2019年6⽉サンプル（3,600⼈）での例

10 【時刻別訪問件数】（件）（時）（時）【時刻別本⼈・家族に会えた割合】・10時台：１回⽬の訪問のピーク・15時以降：複数回⽬の訪問が増える
・7・8・21時台：⾯会率が⾼い・9時→20時台：⾯会率が低下する傾向訪問時刻と⾯会率の⾼い時刻がミスマッチ？ 2019年6⽉サンプル（3,600⼈）での例

調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO
本⼈・家族・第三者 YES NO 協⼒ YES 有効 NO 不能 YES NO YES NO YES 初回訪問会えた訪問② 訪問③ 訪問n 留置 1⼈の調査相⼿あたり訪問数平均 1.9 回最⼤８回

n モデルの特徴・訪問時間帯による⾯会確率を計算できる・⾯会確率を上げることで、不在による取りこぼしリスクを減らせる n 期待される効果・無駄な訪問を減らすことで、調査員の負担を減らせる・効率のよい訪問順を計算できる 13
⾯会率予測モデルを導⼊し、訪問時刻を最適化

予測モデル予測予測モデル学習モデルの概要 14 調査相⼿別に最適な
訪問時刻を提案⼊⼒① 訪問時刻性別年齢都市規模都市圏県地⽅区市郡過去の実績⼊⼒② 仮の訪問時刻性別年齢都市規模都市圏県地⽅区市郡新規リスト出⼒仮の訪問時刻ごとの⾯会確率

モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ（学習・テスト）と検証⽤データに分割 l
モデル作成⽤データ（学習）で、モデルアルゴリズムを選択、パラメーターを調整 l モデル作成⽤データ（テスト）で精度検証 l 検証⽤データで予測、アウトプットイメージ作成

利⽤データ n 過去の訪問記録データ 2015年・2016年・2017年・2018年・2019年の調査時の訪問記録 17 【データイメージ】場所データ：都市規模、都市圏、県、地⽅、区市郡⼈データ：性、年齢、有効有無、配付相⼿、訪問時刻1〜10 など
& # " $ ! C 6 1 : 3 3 4 70 1 : : 2A ' 1 : 5 B9 D %

追加候補データ n 6⽉調査以外の調査員の訪問記録データ 18 n 市区町村コードで紐付けする場所データ（地点単位）市区町村ごとのオートロック世帯率・総務省「住宅・⼟地統計調査報告」（2013）・総務省「住⺠基本台帳に基づく⼈⼝、⼈⼝動態および世帯数調査」（各年） n
性年齢で紐付けする個⼈データ性年齢（10歳刻み）ごとの時間帯別起床在宅率・NHK「国⺠⽣活時間調査」（2015）今回は適⽤なし検証中検証中

予測モデルに使⽤する変数の候補 n ⽬的変数調査依頼⽇の⾯会有無 19 訪問時刻1〜10から⾯会相⼿が決定したn回⽬の訪問時刻を最終訪問時刻とする変数を作成 n 説明変数の候補
性、年齢都市規模、都市圏、区市郡、県、地⽅など訪問時刻1〜10 訪問時刻① 本⼈・家族・第三者会えた YES NO 協⼒ YES 有効 NO 訪問時刻② 不能 YES NO 訪問時刻③ YES NO 訪問時刻n YES ⾯会あり（1）：⾯会相⼿がA（本⼈）またはB（家族）⾯会なし（0）：それ以外【訪問フロー】不在の場合、再度訪問 A/B/C/D/0が決定するまで繰り返す

⾯会率には、訪問時刻・年齢の影響が強い 20 【⾯会有無を⽬的変数とした決定⽊】最終訪問時刻16時30分最終訪問時刻14時30分最終訪問時刻17時30分年齢62歳年齢38歳東京圏⼤阪圏北海道東北

⾯会率には、訪問時刻・年齢の影響が強い 21 【⾯会有無を⽬的変数としたRandom ForestによるFeature Importance】最終訪問時刻年齢オートロック市町村コード県
性地点番号

最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり⾯会なし【最終訪問時刻】【男⼥年層】 -10 20 30 40
50 60 70- -10 20 30 40 50 60 70- 男⼥時・ 15時以降、⾯会率が下がる・男20・30代、⼥20代の⾯会率が低い ※⽇曜

23 【都市規模】【都市圏】【区市郡】東京圏⼤阪圏 30万~ 10万~ 5万~ 5万未満
区市郡 100万以上 30万以上 10万以上 5万以上 5万未満都市規模・区市郡・都市圏と⾯会有無の関係⾯会あり⾯会なし・都市規模が⼤きいほど、⾯会率が低い・東京圏、⼤阪圏の⾯会率が低い

24 【県】【地⽅】北海道東北関東甲信越東海近畿中国
四国九州県・地⽅と⾯会有無の関係⾯会あり⾯会なし・県によって⾯会率が異なる・東北地⽅の⾯会率が⾼い・北海道、近畿、四国の⾯会率が低い

25 【時刻ごとの⾯会率】「訪問は朝から開始してください」現状の指⽰：曖昧な時刻の設定「夜間まで繰り返し訪問することが必要です」明確な指⽰のために知りたいこと・10時より前の訪問効果・19時以降の訪問効果最終訪問時刻を下記のようにカテゴリ化することにより、具体的な指⽰の根拠とできる
時刻ごとの⾯会率を加味 1：7〜9時、2：10〜11時、3：12〜16時、 4：17〜18時、5：19〜21時、6：22時台最終訪問時刻のカテゴリ化 ❶ ❷ ❸ ❹ ❺ ❻

モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年（学習データ：2015〜18＊0.8 テストデータ：2015〜18＊0.2 ） M- M
,+1 2 3 ,+1 /*$ 1 4 2 - 4 2 - 4 2 4 2 - 2 ,+1 /0 9 - - 4 2 - 4 2 4 2 - 2 ,+1 & 6V- - ,+1 0 6V- - 7 - 5- S - 8 S - - ,+1 . - - ,+1 #'," ,+1 0 0()% -! 訪問記録 2019年モデル作成予測・検証

機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random
Forest 0.70 理由：クロスバリデーションの結果、 Random Forestの精度がもっとも⾼かったため n 検討したモデルこれ以降、予測モデルはRandom Forestを使う

モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62
1892 1 0.77 0.87 0.81 3225 Grid Search で調整したパラメーター 'max_depth': 10 'max_features': 'auto' 'min_samples_leaf': 4 'n_estimators': 500 AUC：0.77 accuracy：0.77 Random Forest Random Forest ※閾値 0.5 precision recall f1-score support 0 0.73 0.48 0.58 2687 1 0.70 0.87 0.78 3709 AUC：0.76 accuracy：0.71 【テストデータ 2015〜2018＊0.2 】【検証データ 2019】 ※閾値 0.5

モデルによる予測【2019データ】 30 ・時間帯が早いほど、⾯会確率は⾼くなる傾向・19〜21時台が最も低く、22時台はやや上がる・有効率が低い男20代も、傾向は全体と同様【時間帯ごとの平均予測⾯会率】注意： 19時以降は、留め置いてしまうため、急激に⾯会率が低くなると考えられる。実務への適⽤には、相対的な優先度を
つけるなど⼯夫が必要。全体男20代 7-9h 0.80 0.75 10-12h 0.78 0.72 12-16h 0.75 0.69 17-18h 0.51 0.41 19-21h 0.26 0.22 22h 0.56 0.47 ※⽇曜

予測モデルの訪問時間帯ごと⾯会率から訪問時刻と訪問順を決定する 32 ①抽出したリストに、時間帯別の⾯会確率を付加 ②時間帯ごとの最⼤⼈数を加味し、 1地点の⾯会⼈数が最⼤になる時間帯を調査相⼿ごとに算出
リストイメージ

No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79
0.75 0.51 0.36 0.57 2 0.77 0.77 0.68 0.33 0.18 0.41 3 0.78 0.78 0.74 0.50 0.35 0.57 4 0.78 0.78 0.74 0.43 0.29 0.50 5 0.77 0.77 0.69 0.41 0.22 0.46 6 0.79 0.79 0.76 0.53 0.36 0.57 7 0.79 0.79 0.74 0.52 0.35 0.59 8 0.80 0.80 0.77 0.57 0.36 0.63 9 0.75 0.74 0.66 0.27 0.14 0.36 10 0.79 0.79 0.76 0.51 0.35 0.58 11 0.75 0.74 0.66 0.28 0.13 0.36 12 0.76 0.76 0.68 0.38 0.22 0.43 33 リストイメージ【調査相⼿別時間帯ごとの⾯会確率】調査相⼿別に最適な訪問時間を提案 ※⽇曜

今後に向けて 35 •精度向上 •応⽤可能性モデルの向上（パラメータの調整、変数の改善）外部データの連結他の調査への適⽤調査以外の訪問業務（宅配など）への適⽤ •訪問効率の向上調査相⼿ごとの場所データ（郵便番号など）の連結により、
稼働時間も考慮する •実務上の課題調査相⼿間の位置関係が考慮されていない

36 ・別のアルゴリズムモデルの試⾏、変数やパラメーターの探索今回は3つのモデルしか試さなかったので他のモデルでも試してみたい・最適ルートを出⼒するシミュレーションモデルの作成・外部データによる説明変数の追加今回は訪問記録のみから、モデルを作成したが、場所データや在宅率データも追加したい在宅率データは、モデルの向上にかなり寄与する可能性がある今後さらに実施してみたいこと・for⽂、関数、パイプラインなどを使って、すっきりしたわかりやすいコードにしたい・調査データの内容についても機械学習を導⼊したい
特に、⾃由回答分析（テキスト分析）を試したい・データ取り込みや加⼯も含めて関数化して、新しいリストがでるたびに簡単な仕組みで⼿間をかけずに、予測値をアウトプットできるようにしたい

難しかったこと・苦労したこと 37 ・エクセルファイルから取り込んだデータの変換特に時刻情報をPythonで扱えるようにすること、ほか理由のわからないエラーに多々苦しめられた・データの取り込みの煩雑さ多⽅⾯に散らばっているファイルを⾒つけ出したり、外部データの探索と加⼯に⼿間がかかった・Macでの作業普段使っていないMacで作業したため、基本操作がわからず作業速度が著しく低下した・作業時間の捻出作業時間を作るため、仕事、育児、家事の時間配分の⾒直しと周囲への協⼒が不可⽋だった
・プログラミング初⼼者なので、すべての処理をいちいち調べるため時間がかかった関数化、繰り返し処理に習熟していないため、無駄な処理が多い・モデルの変数の選択・加⼯⾏ごとにデータ量（カラム数）の異なるデータをどう意味付けて、加⼯するかが難しく、未だ探索中

38 END

訪問調査における面会率向上モデル導入の提案

訪問調査における面会率向上モデル導入の提案

yoko_watanabe

Other Decks in Research

Featured

Transcript

訪問調査における⾯会率向上モデル訪問留置調査の有効率改善に向けて導⼊の提案 2019年8⽉期渡辺洋⼦ 2020年3⽉

n 資料制作者プロフィール郵送、電話、訪問留置、訪問⾯会、WEBなどの主に定量調査を扱う部署に所属 n 今回のテーマ 2 はじめに訪問留置調査の⾯会率改善今回扱う調査は、年１回６⽉に実施

3 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

4 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

調査有効率の低下が続いている有効率の低下経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85

有効率低下の主要因は、調査依頼時の脱落による 6 ⺟集団から抽出した指定サンプル 3,600⼈調査依頼時脱落拒否、不在、転居など回収後脱落対象違い、記⼊不備など 2019年6⽉サンプル（3,600⼈）での例

①全国から 300地点抽出 ②1地点ごと 12⼈抽出し、リスト化 ③1⼈の調査員が1地点を担当 12⼈を訪問し、調査協⼒を依頼 ★本ケースでは、該当⽇（⽇曜）に 1⽇で12⼈全員に依頼することが必須

8 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

調査依頼⽇の⾯会率向上が、有効率向上につながる根拠：本⼈や家族に⾯会すると留置より有効率が⾼い【⾯会相⼿別調査有効数】（⼈）本⼈家族第三者留置有効

10 【時刻別訪問件数】（件）（時）（時）【時刻別本⼈・家族に会えた割合】・10時台：１回⽬の訪問のピーク・15時以降：複数回⽬の訪問が増える

調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO

12 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

予測モデル予測予測モデル学習モデルの概要 14 調査相⼿別に最適な

15 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ（学習・テスト）と検証⽤データに分割 l

予測モデルに使⽤する変数の候補 n ⽬的変数調査依頼⽇の⾯会有無 19 訪問時刻1〜10から⾯会相⼿が決定したn回⽬の訪問時刻を最終訪問時刻とする変数を作成 n 説明変数の候補

⾯会率には、訪問時刻・年齢の影響が強い 20 【⾯会有無を⽬的変数とした決定⽊】最終訪問時刻16時30分最終訪問時刻14時30分最終訪問時刻17時30分年齢62歳年齢38歳東京圏⼤阪圏北海道東北

⾯会率には、訪問時刻・年齢の影響が強い 21 【⾯会有無を⽬的変数としたRandom ForestによるFeature Importance】最終訪問時刻年齢オートロック市町村コード県

最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり⾯会なし【最終訪問時刻】【男⼥年層】 -10 20 30 40

23 【都市規模】【都市圏】【区市郡】東京圏⼤阪圏 30万~ 10万~ 5万~ 5万未満

24 【県】【地⽅】北海道東北関東甲信越東海近畿中国

モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年（学習データ：2015〜18＊0.8 テストデータ：2015〜18＊0.2 ） M- M

機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random

28 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62

31 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

予測モデルの訪問時間帯ごと⾯会率から訪問時刻と訪問順を決定する 32 ①抽出したリストに、時間帯別の⾯会確率を付加 ②時間帯ごとの最⼤⼈数を加味し、 1地点の⾯会⼈数が最⼤になる時間帯を調査相⼿ごとに算出

No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79

34 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤・課題・打ち⼿の仮説・モデルの概要

38 END