2022/05/13(金)に開催したExploratory データサイエンス勉強会#23の株式会社プレステージ・インターナショナル様のご登壇資料です。
© PRESTIGE International Inc. All Rights Reserved.自動車トラブルと気象条件などの探索的データ分析株式会社プレステージ・インターナショナル山口 重朗2022.5.13Exploratory データサイエンス勉強会 #231
View Slide
© PRESTIGE International Inc. All Rights Reserved.自己紹介氏名 山口 重朗(しげお)会社概要 株式会社プレステージ・インターナショナル事業内容:BPO(ビジネス・プロセス・アウトソーシング)事業従業員数:4,192人(連結) ※拠点 :世界18ヵ国26拠点 ※※ 2021年3月31日時点職歴 前職でSE歴11年。2013年、当社へ入社後はデータ抽出業務や受付現場業務を経験し、本業務を担当する。分析経験は4年弱で、前任者はおらず独学で取り組む。運用効率化の提案や、入電数予測、ロードサービスアンケートのNPSの不満要因調査などを実施している。趣味 カラオケ/ゲーム/ドライブ2Exploratory社の様々な情報が非常に役立っている
© PRESTIGE International Inc. All Rights Reserved.ロードアシストとはプレステージ・インターナショナルお客様(契約者)連 絡専門スタッフ出動依頼トラブル解決クライアント企業(自動車保険会社)業務委託契約自動車保険契約3
© PRESTIGE International Inc. All Rights Reserved.背景と目的、課題車両トラブルに合われるお客様が想定以上に発生した際、対応完了までにお客様をお待たせしてしまうことがある。背景クリティカルな車両トラブルを円滑に対応するため、予防できる車両トラブルの発生を減らしたい。目的データを元に分析したことがないので、経験として各個人が季節によるトラブル発生傾向の違いは感じている状態で、具体化されていない。課題4
© PRESTIGE International Inc. All Rights Reserved.そもそも・・・5天気が悪いと本当にトラブルが発生するのだろうか?
© PRESTIGE International Inc. All Rights Reserved.トラブルと気象の関係性を見つけたい6パンクトラブル発生率気温バッテリートラブル発生率気温もしトラブルと気象の関係を見つけることができたら、具体的な傾向を示せる。
© PRESTIGE International Inc. All Rights Reserved.解決方法と効果探索的データ分析を利用してトラブル発生と気象データや時系列情報との因果関係を調査し、関係の強いデータをピックアップして関係性を具体化する。解決方法予防型ロードサービス商品を提案し、お客様のトラブル低減を図る。効果最強の探索的データ分析ツールExploratoryを活用し、ロジスティック回帰で探る!7
© PRESTIGE International Inc. All Rights Reserved.収集データの説明◆車両トラブルデータ(※一部加工済み)◆気象データトラブル発生日:2018年1月1日~2019年12月31日(2年間)トラブル場所都道府県:一都三県トラブル内容:バッテリー、パンク、事故など観測日:トラブル発生日と同様観測地点:6箇所東京、熊谷、千葉、勝浦、横浜、三島8
© PRESTIGE International Inc. All Rights Reserved.気象データのWebスクレイピング最初にExploratoryのエクステンションデータにある「Weather」の利用を試みた。➡「Weather」の取得元データが降水量を取れていなかったので断念。Pythonを使って気象庁HPから気象データをスクレイピングした。・1日単位で取得し、6地点2年間で所要時間は2時間強(※)。・日単位で1時~翌日24時の取得なので、集計範囲初日-1日のデータも取得する必要がある。※取得毎に1秒程度のインターバル必須気象庁(過去の気象データ検索)https://www.data.jma.go.jp/obd/stats/etrn/index.php9
© PRESTIGE International Inc. All Rights Reserved.気象データとトラブルデータの結合①入電日時と観測日時をキーにして結合する。その後、トラブル単位でグループ化する。トラブル毎に全観測地点と結合した状態になる。この場合は観測地点が6箇所なのでレコード数も6倍。10
© PRESTIGE International Inc. All Rights Reserved.気象データとトラブルデータの結合②トラブル場所に一番近い観測地点の気象データと紐付けたいな。。そのためには2地点の距離が必要!関数:distGeo(geosphereパッケージ)機能:2地点間の距離をメートルで返す・データフレームの情報をmatrixに変換する必要がある。・メートルで返ってくるので、キロメートルにするなら1,000で割る。11
© PRESTIGE International Inc. All Rights Reserved.気象データとトラブルデータの結合③トラブル場所と観測地点の緯度経度を元に、distGeo関数で距離を算出する。12先頭のトラブルでは、東京が一番近い。
© PRESTIGE International Inc. All Rights Reserved.気象データとトラブルデータの結合④13フィルタで距離の最小値を指定すると、グループ単位で最短距離だけを残せる。先頭のトラブルは、東京だけが紐づいた。最短距離の観測所との紐付け完了!
© PRESTIGE International Inc. All Rights Reserved.各トラブルの仮説14・バッテリートラブル仮説:気温が低い時に発生しやすいのではないか。・パンクトラブル仮説:気温が高い時に発生しやすいのではないか。・事故トラブル仮説:悪天候の時に発生しやすいのではないか。
© PRESTIGE International Inc. All Rights Reserved.ロジスティック回帰分析①(バッテリートラブル)15目的変数isバッテリー(TRUE/FALSE)トラブル内容がバッテリーならTRUE、それ以外はFALSE◆使用する変数予測変数気象データ↑今回はこちらに注目する気温(℃)降水量(mm)降雪量(cm)積雪量(cm)風速(m/s)時系列データ トラブル発生日時(月)トラブル発生日時(時間帯)トラブル発生日時(曜日)トラブル発生日時(祝日フラグ)◆分析モデルの選定 今回は、他の変数を固定した状態で各予測変数の影響を知りたい。↓ロジスティック回帰モデルを選択。
© PRESTIGE International Inc. All Rights Reserved.ロジスティック回帰分析② (バッテリートラブル)16◆「変数重要度」タブの確認トラブル発生の曜日、時間帯に続いて気温が重要との結果が出た。トラブル発生月よりも重要度が高いので、同じ月であっても気温による影響が大きいことを示している。他の気象条件はそれほど重要とは出ていないが、有意な関係がある。
© PRESTIGE International Inc. All Rights Reserved.ロジスティック回帰分析③ (バッテリートラブル)17◆「予測」タブの確認バッテリートラブルの発生率は・・・①平日よりも休日の方が上がるようだ。②気温は低い方が上がるようだ。③降水量、降雪量は少ない方が上がるようだ。①~③を合わせると、「休日で気温が低く天気が良い日」がバッテリートラブルの発生率が上がると考えられる。関係が強い変数を確認する。②③③①
© PRESTIGE International Inc. All Rights Reserved.結果の視覚化(バッテリートラブル)18◆気温 ◆降雪量◆気温が下がるほどトラブルが増える。➡同じ月でも、気温が低いとトラブルが増える。◆降雪量は少ない方がトラブルが増える(降水量も同様だった)。仮説に近い
© PRESTIGE International Inc. All Rights Reserved.結果の視覚化(パンクトラブル)19◆風速 ◆気温◆気象データとの強い関係は見つからなかった。※有意な差ではない仮説と異なる
© PRESTIGE International Inc. All Rights Reserved.結果の視覚化(パンクトラブル)※気象以外では・・20◆トラブル発生月 ◆トラブル発生曜日◆トラブルが発生する月や曜日と関係が強かった。初夏~初秋、平日にトラブルが多い。➡同じ気温でも月や曜日が違うとトラブル発生率が変わる。
© PRESTIGE International Inc. All Rights Reserved.結果の視覚化(事故トラブル)21◆降水量 ◆降雪量◆降水量や降雪量が多いとトラブルが増える。 仮説に近い
© PRESTIGE International Inc. All Rights Reserved.© Prestige International Inc. All Rights Reserved.各トラブルの仮説と検証結果22・バッテリートラブル仮説:気温が低い時に発生しやすいのではないか。結果:仮説と同じく、気温が低い時に発生しやすいと確認できた。・パンクトラブル仮説:気温が高い時に発生しやすいのではないか。結果:仮説と違い、気象条件はあまり関係ないようだった。・事故トラブル仮説:悪天候の時に発生しやすいのではないか。結果:仮説と同じく、悪天候時に発生しやすいと確認できた。
© PRESTIGE International Inc. All Rights Reserved.Exploratoryで分析することのメリット23【Exploratory導入前】Rを利用しての分析は一部で行っていた。メンバー間での習熟度にバラつきがあるため、ラングリングでのエラー対応などに時間を要し、作業効率があまり良くなかった。また、プロジェクトの引継ぎが困難だった。【Exploratory導入後】UIが充実していて処理の流れが見やすいので習熟度のバラつきが減り、エラーが大幅に減った。➡作業効率アップ!作業の流れが見やすいので、引継ぎが容易になった。(実際にこのプロジェクトは2回引継ぎを経ている)➡引継ぎ簡易化!
© PRESTIGE International Inc. All Rights Reserved.今後の課題24◆全国を対象に調査を実施したい。(今回は一都三県)→観測地点との結合に問題あり。この方法では、北海道のトラブルに沖縄の観測地点までも一度結合しなくてはならない。→地方別に結合して結果をマージする??◆トラブルの件数を対象とした分析方法を見つけたい。(今回は全トラブルに対する比率が対象)→トラブルが発生していないデータを持っていないので、対象トラブルのみで分析しようとしてもTRUEのデータしかない。→そこで全トラブルをベースに分析を開始した。全トラブルに対する比率なので、対象トラブルが増えれば比率も増えるが、他のトラブルが減っても相対的に比率は増えてしまう。
© PRESTIGE International Inc. All Rights Reserved.今回の勉強会の取り組みにおきまして、Exploratory社の白戸さんには大変お世話になりました。テーマ選定からストーリーライン、分析作業やプレゼン資料作成まで、全てのステップで適切なアドバイスを頂けました。非常に多くのことを学べました。ご対応いただき、本当にありがとうございました。おわりに25
© PRESTIGE International Inc. All Rights Reserved.ご清聴ありがとうございました26