Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
訪問調査における面会率向上モデル導入の提案
Search
yoko_watanabe
March 08, 2020
Research
1
33
訪問調査における面会率向上モデル導入の提案
yoko_watanabe
March 08, 2020
Tweet
Share
Other Decks in Research
See All in Research
Computational OT #1 - Monge and Kantorovitch
gpeyre
0
190
公立高校入試等に対する受入保留アルゴリズム(DA)導入の提言
shunyanoda
0
5.9k
SSII2025 [TS1] 光学・物理原理に基づく深層画像生成
ssii
PRO
4
3.7k
(NULLCON Goa 2025)Windows Keylogger Detection: Targeting Past and Present Keylogging Techniques
asuna_jp
2
540
Principled AI ~深層学習時代における課題解決の方法論~
taniai
3
1.2k
SSII2025 [SS2] 横浜DeNAベイスターズの躍進を支えたAIプロダクト
ssii
PRO
7
3.6k
なめらかなシステムと運用維持の終わらぬ未来 / dicomo2025_coherently_fittable_system
monochromegane
0
620
LLM-as-a-Judge: 文章をLLMで評価する@教育機関DXシンポ
k141303
3
830
2025年度 生成AIの使い方/接し方
hkefka385
1
710
90 分で学ぶ P 対 NP 問題
e869120
18
7.6k
Agentic AIとMCPを利用したサービス作成入門
mickey_kubo
0
280
AIによる画像認識技術の進化 -25年の技術変遷を振り返る-
hf149
6
3.6k
Featured
See All Featured
ReactJS: Keep Simple. Everything can be a component!
pedronauck
667
120k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
34
5.9k
The Art of Programming - Codeland 2020
erikaheidi
54
13k
The Art of Delivering Value - GDevCon NA Keynote
reverentgeek
15
1.5k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
Side Projects
sachag
455
42k
Principles of Awesome APIs and How to Build Them.
keavy
126
17k
GraphQLの誤解/rethinking-graphql
sonatard
71
11k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
281
13k
Building Applications with DynamoDB
mza
95
6.5k
How to Think Like a Performance Engineer
csswizardry
25
1.7k
Why You Should Never Use an ORM
jnunemaker
PRO
58
9.4k
Transcript
訪問調査における⾯会率向上モデル 訪問留置調査の有効率改善に向けて 導⼊の提案 2019年8⽉期 渡辺洋⼦ 2020年3⽉
n 資料制作者プロフィール 郵送、電話、訪問留置、訪問⾯会、WEBなどの 主に定量調査を扱う部署に所属 n 今回のテーマ 2 はじめに 訪問留置調査の⾯会率改善 今回扱う調査は、年1回6⽉に実施
3 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
4 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
調査有効率の低下が続いている 有効率の低下 経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85
’90 ’95 ’00 ’05 ’10 ’15 ’20 % 年 5 調査結果の信頼性の低下 誤差増⼤による推定精度の低下 有効率低下を止めたい 有効率:指定サンプルのうち、データを集計できたサンプルの割合 今回扱う調査の 有効率推移
有効率低下の主要因は、調査依頼時の脱落による 6 ⺟集団から抽出した 指定サンプル 3,600⼈ 調査依頼時脱落 拒否、不在、転居など 回収後脱落 対象違い、記⼊不備など 2019年6⽉サンプル(3,600⼈)での例
2,330⼈ 1,270⼈ 2,324⼈ 6⼈ 近年増加
①全国から 300地点抽出 ②1地点ごと 12⼈抽出し、 リスト化 ③1⼈の調査員が1地点を担当 12⼈を訪問し、 調査協⼒を依頼 ★本ケースでは、該当⽇(⽇曜)に 1⽇で12⼈全員に依頼することが必須
7 調査員がいかに多くの協⼒を得られるかが鍵
8 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
調査依頼⽇の⾯会率向上が、有効率向上につながる 根拠:本⼈や家族に⾯会すると留置より有効率が⾼い 【⾯会相⼿別 調査有効数】 (⼈) 本⼈ 家族 第三者 留置 有効
不能 9 % % 8 %9 6 % : 4 4 0 【⾯会相⼿別 調査有効率】 2019年6⽉サンプル(3,600⼈)での例
10 【時刻別 訪問件数】 (件) (時) (時) 【時刻別 本⼈・家族に会えた割合】 ・10時台:1回⽬の訪問のピーク ・15時以降:複数回⽬の訪問が増える
・7・8・21時台:⾯会率が⾼い ・9時→20時台:⾯会率が低下する傾向 訪問時刻と⾯会率の⾼い時刻がミスマッチ? 2019年6⽉サンプル(3,600⼈)での例
調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO
本⼈・家族・第三者 YES NO 協⼒ YES 有効 NO 不能 YES NO YES NO YES 初回訪問 会えた 訪問② 訪問③ 訪問n 留置 1⼈の調査相⼿あたり 訪問数 平均 1.9 回 最⼤ 8 回
12 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
n モデルの特徴 ・訪問時間帯による⾯会確率を計算できる ・⾯会確率を上げることで、不在による取りこぼし リスクを減らせる n 期待される効果 ・無駄な訪問を減らすことで、調査員の負担を減らせる ・効率のよい訪問順を計算できる 13
⾯会率予測モデルを導⼊し、訪問時刻を最適化
予測 モデル 予測 予測 モデル 学習 モデルの概要 14 調査相⼿別に 最適な
訪問時刻を提案 ⼊⼒① 訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 過去の実績 ⼊⼒② 仮の訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 新規リスト 出⼒ 仮の訪問時刻 ごとの ⾯会確率
15 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ(学習・テスト)と検証⽤データ に分割 l
モデル作成⽤データ(学習)で、モデルアルゴリズムを選択、 パラメーターを調整 l モデル作成⽤データ(テスト)で精度検証 l 検証⽤データで予測、アウトプットイメージ作成
利⽤データ n 過去の訪問記録データ 2015年・2016年・2017年・2018年・2019年の調査時の訪問記録 17 【データイメージ】 場所データ:都市規模、都市圏、県、地⽅、区市郡 ⼈データ :性、年齢、有効有無、配付相⼿、訪問時刻1〜10 など
& # " $ ! C 6 1 : 3 3 4 70 1 : : 2A ' 1 : 5 B9 D %
追加候補データ n 6⽉調査以外の調査員の訪問記録データ 18 n 市区町村コードで紐付けする場所データ(地点単位) 市区町村ごとのオートロック世帯率 ・総務省「住宅・⼟地統計調査報告」(2013) ・総務省「住⺠基本台帳に基づく⼈⼝、⼈⼝動態および世帯数調査」(各年) n
性年齢で紐付けする個⼈データ 性年齢(10歳刻み)ごとの時間帯別起床在宅率 ・NHK「国⺠⽣活時間調査」(2015) 今回は適⽤なし 検証中 検証中
予測モデルに使⽤する変数の候補 n ⽬的変数 調査依頼⽇の⾯会有無 19 訪問時刻1〜10から ⾯会相⼿が決定したn回⽬の訪問時刻を 最終訪問時刻とする変数を作成 n 説明変数の候補
性、年齢 都市規模、都市圏、区市郡、県、地⽅など 訪問時刻1〜10 訪問時刻① 本⼈・家族・第三者 会えた YES NO 協⼒ YES 有効 NO 訪問時刻② 不能 YES NO 訪問時刻③ YES NO 訪問時刻n YES ⾯会あり(1):⾯会相⼿がA(本⼈) またはB(家族) ⾯会なし(0):それ以外 【訪問フロー】 不在の場合、再度訪問 A/B/C/D/0が決定するまで繰り返す
⾯会率には、訪問時刻・年齢の影響が強い 20 【⾯会有無を⽬的変数とした決定⽊】 最終訪問時刻16時30分 最終訪問時刻14時30分 最終訪問時刻17時30分 年齢62歳 年齢38歳 東京圏⼤阪圏 北海道東北
⾯会率には、訪問時刻・年齢の影響が強い 21 【⾯会有無を⽬的変数としたRandom ForestによるFeature Importance】 最終訪問時刻 年齢 オートロック 市町村コード 県
性 地点番号
最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり ⾯会なし 【最終訪問時刻】 【男⼥年層】 -10 20 30 40
50 60 70- -10 20 30 40 50 60 70- 男 ⼥ 時 ・ 15時以降、⾯会率が下がる ・男20・30代、 ⼥20代の⾯会率が低い ※⽇曜
23 【都市規模】 【都市圏】 【区市郡】 東京圏 ⼤阪圏 30万~ 10万~ 5万~ 5万未満
区 市 郡 100万以上 30万以上 10万以上 5万以上 5万未満 都市規模・区市郡・都市圏と⾯会有無の関係 ⾯会あり ⾯会なし ・都市規模が⼤きいほど、 ⾯会率が低い ・東京圏、⼤阪圏の ⾯会率が低い
24 【県】 【地⽅】 北海道 東北 関東 甲信越 東海 近畿 中国
四国 九州 県・地⽅と⾯会有無の関係 ⾯会あり ⾯会なし ・県によって⾯会率が異なる ・東北地⽅の⾯会率が⾼い ・北海道、近畿、四国の ⾯会率が低い
25 【時刻ごとの⾯会率】 「訪問は朝から開始してください」 現状の指⽰:曖昧な時刻の設定 「夜間まで繰り返し訪問することが必要です」 明確な指⽰のために知りたいこと ・10時より前の訪問効果 ・19時以降の訪問効果 最終訪問時刻を下記のようにカテゴリ化する ことにより、具体的な指⽰の根拠とできる
時刻ごとの⾯会率を加味 1:7〜9時、2:10〜11時、3:12〜16時、 4:17〜18時、5:19〜21時、6:22時台 最終訪問時刻のカテゴリ化 ❶ ❷ ❸ ❹ ❺ ❻
モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年 (学習データ:2015〜18*0.8 テストデータ:2015〜18*0.2 ) M- M
,+1 2 3 ,+1 /*$ 1 4 2 - 4 2 - 4 2 4 2 - 2 ,+1 /0 9 - - 4 2 - 4 2 4 2 - 2 ,+1 & 6V- - ,+1 0 6V- - 7 - 5- S - 8 S - - ,+1 . - - ,+1 #'," ,+1 0 0()% -! 訪問記録 2019年 モデル作成 予測・検証
機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random
Forest 0.70 理由:クロスバリデーションの結果、 Random Forestの精度がもっとも⾼かったため n 検討したモデル これ以降、予測モデルはRandom Forestを使う
28 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62
1892 1 0.77 0.87 0.81 3225 Grid Search で 調整したパラメーター 'max_depth': 10 'max_features': 'auto' 'min_samples_leaf': 4 'n_estimators': 500 AUC:0.77 accuracy:0.77 Random Forest Random Forest ※閾値 0.5 precision recall f1-score support 0 0.73 0.48 0.58 2687 1 0.70 0.87 0.78 3709 AUC:0.76 accuracy:0.71 【テストデータ 2015〜2018*0.2 】 【検証データ 2019】 ※閾値 0.5
モデルによる予測【2019データ】 30 ・時間帯が早いほど、⾯会確率は⾼くなる傾向 ・19〜21時台が最も低く、22時台はやや上がる ・有効率が低い男20代も、傾向は全体と同様 【時間帯ごとの平均予測⾯会率】 注意: 19時以降は、留め置いてしまうため、 急激に⾯会率が低くなると考えられる。 実務への適⽤には、相対的な優先度を
つけるなど⼯夫が必要。 全体 男20代 7-9h 0.80 0.75 10-12h 0.78 0.72 12-16h 0.75 0.69 17-18h 0.51 0.41 19-21h 0.26 0.22 22h 0.56 0.47 ※⽇曜
31 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
予測モデルの訪問時間帯ごと⾯会率から 訪問時刻と訪問順を決定する 32 ①抽出したリストに、時間帯別の⾯会確率を付加 ②時間帯ごとの最⼤⼈数を加味し、 1地点の⾯会⼈数が最⼤になる時間帯を調査相⼿ごとに算出
リストイメージ
No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79
0.75 0.51 0.36 0.57 2 0.77 0.77 0.68 0.33 0.18 0.41 3 0.78 0.78 0.74 0.50 0.35 0.57 4 0.78 0.78 0.74 0.43 0.29 0.50 5 0.77 0.77 0.69 0.41 0.22 0.46 6 0.79 0.79 0.76 0.53 0.36 0.57 7 0.79 0.79 0.74 0.52 0.35 0.59 8 0.80 0.80 0.77 0.57 0.36 0.63 9 0.75 0.74 0.66 0.27 0.14 0.36 10 0.79 0.79 0.76 0.51 0.35 0.58 11 0.75 0.74 0.66 0.28 0.13 0.36 12 0.76 0.76 0.68 0.38 0.22 0.43 33 リストイメージ 【調査相⼿別 時間帯ごとの⾯会確率】 調査相⼿別に 最適な訪問時間 を提案 ※⽇曜
34 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
今後に向けて 35 •精度向上 •応⽤可能性 モデルの向上(パラメータの調整、変数の改善) 外部データの連結 他の調査への適⽤ 調査以外の訪問業務(宅配など)への適⽤ •訪問効率の向上 調査相⼿ごとの場所データ(郵便番号など)の連結により、
稼働時間も考慮する •実務上の課題 調査相⼿間の位置関係が考慮されていない
36 ・別のアルゴリズムモデルの試⾏、変数やパラメーターの探索 今回は3つのモデルしか試さなかったので他のモデルでも試してみたい ・最適ルートを出⼒するシミュレーションモデルの作成 ・外部データによる説明変数の追加 今回は訪問記録のみから、モデルを作成したが、場所データや在宅率データも追加したい 在宅率データは、モデルの向上にかなり寄与する可能性がある 今後さらに実施してみたいこと ・for⽂、関数、パイプラインなどを使って、すっきりしたわかりやすいコードにしたい ・調査データの内容についても機械学習を導⼊したい
特に、⾃由回答分析(テキスト分析)を試したい ・データ取り込みや加⼯も含めて関数化して、新しいリストがでるたびに 簡単な仕組みで⼿間をかけずに、予測値をアウトプットできるようにしたい
難しかったこと・苦労したこと 37 ・エクセルファイルから取り込んだデータの変換 特に時刻情報をPythonで扱えるようにすること、ほか理由のわからないエラーに多々苦しめられた ・データの取り込みの煩雑さ 多⽅⾯に散らばっているファイルを⾒つけ出したり、外部データの探索と加⼯に⼿間がかかった ・Macでの作業 普段使っていないMacで作業したため、基本操作がわからず作業速度が著しく低下した ・作業時間の捻出 作業時間を作るため、仕事、育児、家事の時間配分の⾒直しと周囲への協⼒が不可⽋だった
・プログラミング初⼼者なので、すべての処理をいちいち調べるため時間がかかった 関数化、繰り返し処理に習熟していないため、無駄な処理が多い ・モデルの変数の選択・加⼯ ⾏ごとにデータ量(カラム数)の異なるデータをどう意味付けて、加⼯するかが難しく、 未だ探索中
38 END