Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
訪問調査における面会率向上モデル導入の提案
Search
yoko_watanabe
March 08, 2020
Research
1
31
訪問調査における面会率向上モデル導入の提案
yoko_watanabe
March 08, 2020
Tweet
Share
Other Decks in Research
See All in Research
株式会社リクルートホールディングス 企業分析
frandle256
0
130
Breaking Tradeoffs: Extremely Scalable Multi-Agent Pathfinding Algorithms
kei18
0
150
時系列解析と疫学
kingqwert
2
930
Source Code Diff Revolution (JetBrains Open Reading Club)
tsantalis
0
260
第12回全日本コンピュータビジョン勉強会:画像の自己教師あり学習における大規模データセット
naok615
0
520
Introduction of NII S. Koyama's Lab (AY2024)
skoyamalab
0
110
Generative AI - practice and theory
gpeyre
1
570
SSII2023 医療支援における画像処理研究の動向と展望
moda0
0
110
訓練データ作成のためのCloudCompareを利用した点群の手動ラベリング
kentaitakura
0
540
Alternative Photographic Processes Reimagined: The Role of Digital Technology in Revitalizing Classic Printing Techniques【SIGGRAPH Asia 2023】
toremolo72
0
430
第4回ナレッジグラフ勉強会:ISWC2023論文読み会
kg_wakate
1
210
Combating Misinformation in the age of LLMs
teacherpeterpan
0
130
Featured
See All Featured
Building Better People: How to give real-time feedback that sticks.
wjessup
355
18k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
7
1k
Designing for humans not robots
tammielis
248
25k
GraphQLの誤解/rethinking-graphql
sonatard
50
9.2k
Facilitating Awesome Meetings
lara
42
5.6k
We Have a Design System, Now What?
morganepeng
43
6.8k
Art, The Web, and Tiny UX
lynnandtonic
289
19k
Being A Developer After 40
akosma
57
580k
How To Stay Up To Date on Web Technology
chriscoyier
782
250k
Music & Morning Musume
bryan
41
5.6k
Teambox: Starting and Learning
jrom
128
8.4k
It's Worth the Effort
3n
180
27k
Transcript
訪問調査における⾯会率向上モデル 訪問留置調査の有効率改善に向けて 導⼊の提案 2019年8⽉期 渡辺洋⼦ 2020年3⽉
n 資料制作者プロフィール 郵送、電話、訪問留置、訪問⾯会、WEBなどの 主に定量調査を扱う部署に所属 n 今回のテーマ 2 はじめに 訪問留置調査の⾯会率改善 今回扱う調査は、年1回6⽉に実施
3 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
4 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
調査有効率の低下が続いている 有効率の低下 経営判断を誤るリスクの増加 50 60 70 80 90 100 ’85
’90 ’95 ’00 ’05 ’10 ’15 ’20 % 年 5 調査結果の信頼性の低下 誤差増⼤による推定精度の低下 有効率低下を止めたい 有効率:指定サンプルのうち、データを集計できたサンプルの割合 今回扱う調査の 有効率推移
有効率低下の主要因は、調査依頼時の脱落による 6 ⺟集団から抽出した 指定サンプル 3,600⼈ 調査依頼時脱落 拒否、不在、転居など 回収後脱落 対象違い、記⼊不備など 2019年6⽉サンプル(3,600⼈)での例
2,330⼈ 1,270⼈ 2,324⼈ 6⼈ 近年増加
①全国から 300地点抽出 ②1地点ごと 12⼈抽出し、 リスト化 ③1⼈の調査員が1地点を担当 12⼈を訪問し、 調査協⼒を依頼 ★本ケースでは、該当⽇(⽇曜)に 1⽇で12⼈全員に依頼することが必須
7 調査員がいかに多くの協⼒を得られるかが鍵
8 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
調査依頼⽇の⾯会率向上が、有効率向上につながる 根拠:本⼈や家族に⾯会すると留置より有効率が⾼い 【⾯会相⼿別 調査有効数】 (⼈) 本⼈ 家族 第三者 留置 有効
不能 9 % % 8 %9 6 % : 4 4 0 【⾯会相⼿別 調査有効率】 2019年6⽉サンプル(3,600⼈)での例
10 【時刻別 訪問件数】 (件) (時) (時) 【時刻別 本⼈・家族に会えた割合】 ・10時台:1回⽬の訪問のピーク ・15時以降:複数回⽬の訪問が増える
・7・8・21時台:⾯会率が⾼い ・9時→20時台:⾯会率が低下する傾向 訪問時刻と⾯会率の⾼い時刻がミスマッチ? 2019年6⽉サンプル(3,600⼈)での例
調査員は⾯会できるまで訪問を繰り返し、効率が悪い ▶リストにある12⼈に全員を訪問し、調査協⼒を依頼 ▶不在の場合、再度訪問 → ⾯会できるまで繰り返す ▶最終訪問で⾯会できない → 留置 11 NO
本⼈・家族・第三者 YES NO 協⼒ YES 有効 NO 不能 YES NO YES NO YES 初回訪問 会えた 訪問② 訪問③ 訪問n 留置 1⼈の調査相⼿あたり 訪問数 平均 1.9 回 最⼤ 8 回
12 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
n モデルの特徴 ・訪問時間帯による⾯会確率を計算できる ・⾯会確率を上げることで、不在による取りこぼし リスクを減らせる n 期待される効果 ・無駄な訪問を減らすことで、調査員の負担を減らせる ・効率のよい訪問順を計算できる 13
⾯会率予測モデルを導⼊し、訪問時刻を最適化
予測 モデル 予測 予測 モデル 学習 モデルの概要 14 調査相⼿別に 最適な
訪問時刻を提案 ⼊⼒① 訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 過去の実績 ⼊⼒② 仮の訪問時刻 性別 年齢 都市規模 都市圏 県 地⽅ 区市郡 新規リスト 出⼒ 仮の訪問時刻 ごとの ⾯会確率
15 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
モデル構築の⼿順 16 l データ収集 l 変数の探索、選択、加⼯ l データをモデル作成⽤データ(学習・テスト)と検証⽤データ に分割 l
モデル作成⽤データ(学習)で、モデルアルゴリズムを選択、 パラメーターを調整 l モデル作成⽤データ(テスト)で精度検証 l 検証⽤データで予測、アウトプットイメージ作成
利⽤データ n 過去の訪問記録データ 2015年・2016年・2017年・2018年・2019年の調査時の訪問記録 17 【データイメージ】 場所データ:都市規模、都市圏、県、地⽅、区市郡 ⼈データ :性、年齢、有効有無、配付相⼿、訪問時刻1〜10 など
& # " $ ! C 6 1 : 3 3 4 70 1 : : 2A ' 1 : 5 B9 D %
追加候補データ n 6⽉調査以外の調査員の訪問記録データ 18 n 市区町村コードで紐付けする場所データ(地点単位) 市区町村ごとのオートロック世帯率 ・総務省「住宅・⼟地統計調査報告」(2013) ・総務省「住⺠基本台帳に基づく⼈⼝、⼈⼝動態および世帯数調査」(各年) n
性年齢で紐付けする個⼈データ 性年齢(10歳刻み)ごとの時間帯別起床在宅率 ・NHK「国⺠⽣活時間調査」(2015) 今回は適⽤なし 検証中 検証中
予測モデルに使⽤する変数の候補 n ⽬的変数 調査依頼⽇の⾯会有無 19 訪問時刻1〜10から ⾯会相⼿が決定したn回⽬の訪問時刻を 最終訪問時刻とする変数を作成 n 説明変数の候補
性、年齢 都市規模、都市圏、区市郡、県、地⽅など 訪問時刻1〜10 訪問時刻① 本⼈・家族・第三者 会えた YES NO 協⼒ YES 有効 NO 訪問時刻② 不能 YES NO 訪問時刻③ YES NO 訪問時刻n YES ⾯会あり(1):⾯会相⼿がA(本⼈) またはB(家族) ⾯会なし(0):それ以外 【訪問フロー】 不在の場合、再度訪問 A/B/C/D/0が決定するまで繰り返す
⾯会率には、訪問時刻・年齢の影響が強い 20 【⾯会有無を⽬的変数とした決定⽊】 最終訪問時刻16時30分 最終訪問時刻14時30分 最終訪問時刻17時30分 年齢62歳 年齢38歳 東京圏⼤阪圏 北海道東北
⾯会率には、訪問時刻・年齢の影響が強い 21 【⾯会有無を⽬的変数としたRandom ForestによるFeature Importance】 最終訪問時刻 年齢 オートロック 市町村コード 県
性 地点番号
最終訪問時刻・男⼥年層と⾯会有無の関係 22 ⾯会あり ⾯会なし 【最終訪問時刻】 【男⼥年層】 -10 20 30 40
50 60 70- -10 20 30 40 50 60 70- 男 ⼥ 時 ・ 15時以降、⾯会率が下がる ・男20・30代、 ⼥20代の⾯会率が低い ※⽇曜
23 【都市規模】 【都市圏】 【区市郡】 東京圏 ⼤阪圏 30万~ 10万~ 5万~ 5万未満
区 市 郡 100万以上 30万以上 10万以上 5万以上 5万未満 都市規模・区市郡・都市圏と⾯会有無の関係 ⾯会あり ⾯会なし ・都市規模が⼤きいほど、 ⾯会率が低い ・東京圏、⼤阪圏の ⾯会率が低い
24 【県】 【地⽅】 北海道 東北 関東 甲信越 東海 近畿 中国
四国 九州 県・地⽅と⾯会有無の関係 ⾯会あり ⾯会なし ・県によって⾯会率が異なる ・東北地⽅の⾯会率が⾼い ・北海道、近畿、四国の ⾯会率が低い
25 【時刻ごとの⾯会率】 「訪問は朝から開始してください」 現状の指⽰:曖昧な時刻の設定 「夜間まで繰り返し訪問することが必要です」 明確な指⽰のために知りたいこと ・10時より前の訪問効果 ・19時以降の訪問効果 最終訪問時刻を下記のようにカテゴリ化する ことにより、具体的な指⽰の根拠とできる
時刻ごとの⾯会率を加味 1:7〜9時、2:10〜11時、3:12〜16時、 4:17〜18時、5:19〜21時、6:22時台 最終訪問時刻のカテゴリ化 ❶ ❷ ❸ ❹ ❺ ❻
モデルに使⽤するデータと変数 26 訪問記録 2015年・2016年・2017年・2018年 (学習データ:2015〜18*0.8 テストデータ:2015〜18*0.2 ) M- M
,+1 2 3 ,+1 /*$ 1 4 2 - 4 2 - 4 2 4 2 - 2 ,+1 /0 9 - - 4 2 - 4 2 4 2 - 2 ,+1 & 6V- - ,+1 0 6V- - 7 - 5- S - 8 S - - ,+1 . - - ,+1 #'," ,+1 0 0()% -! 訪問記録 2019年 モデル作成 予測・検証
機会学習アルゴリズムとしてRandom Forestを採⽤ 27 検討モデル AUC ロジスティック回帰 0.54 SVM 0.54 Random
Forest 0.70 理由:クロスバリデーションの結果、 Random Forestの精度がもっとも⾼かったため n 検討したモデル これ以降、予測モデルはRandom Forestを使う
28 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
モデルの精度検証 29 precision recall f1-score support 0 0.71 0.55 0.62
1892 1 0.77 0.87 0.81 3225 Grid Search で 調整したパラメーター 'max_depth': 10 'max_features': 'auto' 'min_samples_leaf': 4 'n_estimators': 500 AUC:0.77 accuracy:0.77 Random Forest Random Forest ※閾値 0.5 precision recall f1-score support 0 0.73 0.48 0.58 2687 1 0.70 0.87 0.78 3709 AUC:0.76 accuracy:0.71 【テストデータ 2015〜2018*0.2 】 【検証データ 2019】 ※閾値 0.5
モデルによる予測【2019データ】 30 ・時間帯が早いほど、⾯会確率は⾼くなる傾向 ・19〜21時台が最も低く、22時台はやや上がる ・有効率が低い男20代も、傾向は全体と同様 【時間帯ごとの平均予測⾯会率】 注意: 19時以降は、留め置いてしまうため、 急激に⾯会率が低くなると考えられる。 実務への適⽤には、相対的な優先度を
つけるなど⼯夫が必要。 全体 男20代 7-9h 0.80 0.75 10-12h 0.78 0.72 12-16h 0.75 0.69 17-18h 0.51 0.41 19-21h 0.26 0.22 22h 0.56 0.47 ※⽇曜
31 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
予測モデルの訪問時間帯ごと⾯会率から 訪問時刻と訪問順を決定する 32 ①抽出したリストに、時間帯別の⾯会確率を付加 ②時間帯ごとの最⼤⼈数を加味し、 1地点の⾯会⼈数が最⼤になる時間帯を調査相⼿ごとに算出
リストイメージ
No. 7-9h 10-12h 12-16h 17-18h 19-21h 22h 1 0.80 0.79
0.75 0.51 0.36 0.57 2 0.77 0.77 0.68 0.33 0.18 0.41 3 0.78 0.78 0.74 0.50 0.35 0.57 4 0.78 0.78 0.74 0.43 0.29 0.50 5 0.77 0.77 0.69 0.41 0.22 0.46 6 0.79 0.79 0.76 0.53 0.36 0.57 7 0.79 0.79 0.74 0.52 0.35 0.59 8 0.80 0.80 0.77 0.57 0.36 0.63 9 0.75 0.74 0.66 0.27 0.14 0.36 10 0.79 0.79 0.76 0.51 0.35 0.58 11 0.75 0.74 0.66 0.28 0.13 0.36 12 0.76 0.76 0.68 0.38 0.22 0.43 33 リストイメージ 【調査相⼿別 時間帯ごとの⾯会確率】 調査相⼿別に 最適な訪問時間 を提案 ※⽇曜
34 1 訪問調査の現状把握 2 ⾯会率向上モデルの提案 3 調査へのモデルの適⽤ ・課題 ・打ち⼿の仮説 ・モデルの概要
・モデルの構築 ・モデルの評価 ⽬次 ・モデルの導⼊例 ・今後に向けて
今後に向けて 35 •精度向上 •応⽤可能性 モデルの向上(パラメータの調整、変数の改善) 外部データの連結 他の調査への適⽤ 調査以外の訪問業務(宅配など)への適⽤ •訪問効率の向上 調査相⼿ごとの場所データ(郵便番号など)の連結により、
稼働時間も考慮する •実務上の課題 調査相⼿間の位置関係が考慮されていない
36 ・別のアルゴリズムモデルの試⾏、変数やパラメーターの探索 今回は3つのモデルしか試さなかったので他のモデルでも試してみたい ・最適ルートを出⼒するシミュレーションモデルの作成 ・外部データによる説明変数の追加 今回は訪問記録のみから、モデルを作成したが、場所データや在宅率データも追加したい 在宅率データは、モデルの向上にかなり寄与する可能性がある 今後さらに実施してみたいこと ・for⽂、関数、パイプラインなどを使って、すっきりしたわかりやすいコードにしたい ・調査データの内容についても機械学習を導⼊したい
特に、⾃由回答分析(テキスト分析)を試したい ・データ取り込みや加⼯も含めて関数化して、新しいリストがでるたびに 簡単な仕組みで⼿間をかけずに、予測値をアウトプットできるようにしたい
難しかったこと・苦労したこと 37 ・エクセルファイルから取り込んだデータの変換 特に時刻情報をPythonで扱えるようにすること、ほか理由のわからないエラーに多々苦しめられた ・データの取り込みの煩雑さ 多⽅⾯に散らばっているファイルを⾒つけ出したり、外部データの探索と加⼯に⼿間がかかった ・Macでの作業 普段使っていないMacで作業したため、基本操作がわからず作業速度が著しく低下した ・作業時間の捻出 作業時間を作るため、仕事、育児、家事の時間配分の⾒直しと周囲への協⼒が不可⽋だった
・プログラミング初⼼者なので、すべての処理をいちいち調べるため時間がかかった 関数化、繰り返し処理に習熟していないため、無駄な処理が多い ・モデルの変数の選択・加⼯ ⾏ごとにデータ量(カラム数)の異なるデータをどう意味付けて、加⼯するかが難しく、 未だ探索中
38 END