Upgrade to Pro — share decks privately, control downloads, hide ads and more …

自動車トラブルと気象条件などの探索的データ分析

 自動車トラブルと気象条件などの探索的データ分析

2022/05/13(金)に開催したExploratory データサイエンス勉強会#23の株式会社プレステージ・インターナショナル様のご登壇資料です。

Ikuya Murasato

May 13, 2022
Tweet

More Decks by Ikuya Murasato

Other Decks in Business

Transcript

  1. © PRESTIGE International Inc. All Rights Reserved.
    自動車トラブルと気象条件などの
    探索的データ分析
    株式会社プレステージ・インターナショナル
    山口 重朗
    2022.5.13
    Exploratory データサイエンス勉強会 #23
    1

    View Slide

  2. © PRESTIGE International Inc. All Rights Reserved.
    自己紹介
    氏名 山口 重朗(しげお)
    会社概要 株式会社プレステージ・インターナショナル
    事業内容:BPO(ビジネス・プロセス・アウトソーシング)事業
    従業員数:4,192人(連結) ※
    拠点 :世界18ヵ国26拠点 ※
    ※ 2021年3月31日時点
    職歴 前職でSE歴11年。
    2013年、当社へ入社後はデータ抽出業務や受付現場業務を経験し、本
    業務を担当する。分析経験は4年弱で、前任者はおらず独学で取り組む。
    運用効率化の提案や、入電数予測、ロードサービスアンケートのNPS
    の不満要因調査などを実施している。
    趣味 カラオケ/ゲーム/ドライブ
    2
    Exploratory社の様々な
    情報が非常に役立っている

    View Slide

  3. © PRESTIGE International Inc. All Rights Reserved.
    ロードアシストとは
    プレステージ・インターナショナル
    お客様(契約者)
    連 絡
    専門スタッフ
    出動依頼
    トラブル解決
    クライアント企業
    (自動車保険会社)
    業務委託契約
    自動車保険契約
    3

    View Slide

  4. © PRESTIGE International Inc. All Rights Reserved.
    背景と目的、課題
    車両トラブルに合われるお客様が想定以上に発生した際、
    対応完了までにお客様をお待たせしてしまうことがある。
    背景
    クリティカルな車両トラブルを円滑に対応するため、
    予防できる車両トラブルの発生を減らしたい。
    目的
    データを元に分析したことがないので、
    経験として各個人が季節によるトラブル発生傾向の違い
    は感じている状態で、具体化されていない。
    課題
    4

    View Slide

  5. © PRESTIGE International Inc. All Rights Reserved.
    そもそも・・・
    5
    天気が悪いと本当にトラブルが発生するのだろうか?

    View Slide

  6. © PRESTIGE International Inc. All Rights Reserved.
    トラブルと気象の関係性を見つけたい
    6
    パンクトラブル発生率
    気温
    バッテリートラブル発生率
    気温
    もしトラブルと気象の関係を見つけることができ
    たら、具体的な傾向を示せる。

    View Slide

  7. © PRESTIGE International Inc. All Rights Reserved.
    解決方法と効果
    探索的データ分析を利用してトラブル発生と気象デー
    タや時系列情報との因果関係を調査し、関係の強い
    データをピックアップして関係性を具体化する。
    解決方法
    予防型ロードサービス商品を提案し、お客様のトラブ
    ル低減を図る。
    効果
    最強の探索的データ分析ツール
    Exploratoryを活用し、
    ロジスティック回帰で探る!
    7

    View Slide

  8. © PRESTIGE International Inc. All Rights Reserved.
    収集データの説明
    ◆車両トラブルデータ(※一部加工済み)
    ◆気象データ
    トラブル発生日:
    2018年1月1日~2019年12月31日(2年間)
    トラブル場所都道府県:一都三県
    トラブル内容:
    バッテリー、パンク、事故など
    観測日:
    トラブル発生日と同様
    観測地点:6箇所
    東京、熊谷、千葉、
    勝浦、横浜、三島
    8

    View Slide

  9. © PRESTIGE International Inc. All Rights Reserved.
    気象データのWebスクレイピング
    最初にExploratoryのエクステンションデー
    タにある「Weather」の利用を試みた。
    ➡「Weather」の取得元データが降水量を取
    れていなかったので断念。
    Pythonを使って気象庁HPから気象
    データをスクレイピングした。
    ・1日単位で取得し、6地点2年間で
    所要時間は2時間強(※)。
    ・日単位で1時~翌日24時の取得な
    ので、集計範囲初日-1日のデータ
    も取得する必要がある。
    ※取得毎に1秒程度のインターバル必須
    気象庁(過去の気象データ検索)
    https://www.data.jma.go.jp/obd/stats/etrn/index.php
    9

    View Slide

  10. © PRESTIGE International Inc. All Rights Reserved.
    気象データとトラブルデータの結合①
    入電日時と観測日時をキーにして結合する。
    その後、トラブル単位でグループ化する。
    トラブル毎に全観測地点と結合した状態になる。
    この場合は観測地点が6箇所なのでレコード数も6倍。
    10

    View Slide

  11. © PRESTIGE International Inc. All Rights Reserved.
    気象データとトラブルデータの結合②
    トラブル場所に一番近い観測地点
    の気象データと紐付けたいな。。
    そのためには2地点の距離が必要!
    関数:distGeo(geosphereパッケージ)
    機能:2地点間の距離をメートルで返す
    ・データフレームの情報をmatrixに
    変換する必要がある。
    ・メートルで返ってくるので、キロ
    メートルにするなら1,000で割る。
    11

    View Slide

  12. © PRESTIGE International Inc. All Rights Reserved.
    気象データとトラブルデータの結合③
    トラブル場所と観測地
    点の緯度経度を元に、
    distGeo関数で距離を算
    出する。
    12
    先頭のトラブルでは、
    東京が一番近い。

    View Slide

  13. © PRESTIGE International Inc. All Rights Reserved.
    気象データとトラブルデータの結合④
    13
    フィルタで距離の最小値を指定すると、
    グループ単位で最短距離だけを残せる。
    先頭のトラブルは、
    東京だけが紐づいた。
    最短距離の観測所との
    紐付け完了!

    View Slide

  14. © PRESTIGE International Inc. All Rights Reserved.
    各トラブルの仮説
    14
    ・バッテリートラブル
    仮説:気温が低い時に発生しやすいのではないか。
    ・パンクトラブル
    仮説:気温が高い時に発生しやすいのではないか。
    ・事故トラブル
    仮説:悪天候の時に発生しやすいのではないか。

    View Slide

  15. © PRESTIGE International Inc. All Rights Reserved.
    ロジスティック回帰分析①(バッテリートラブル)
    15
    目的変

    isバッテリー(TRUE/FALSE)
    トラブル内容がバッテリーならTRUE、それ以外はFALSE
    ◆使用する変数
    予測変

    気象データ

    今回はこちら
    に注目する
    気温(℃)
    降水量(mm)
    降雪量(cm)
    積雪量(cm)
    風速(m/s)
    時系列データ トラブル発生日時(月)
    トラブル発生日時(時間帯)
    トラブル発生日時(曜日)
    トラブル発生日時(祝日フラグ)
    ◆分析モデルの選定 今回は、他の変数を固定した状態で各予測変数の影響を知りたい。

    ロジスティック回帰モデルを選択。

    View Slide

  16. © PRESTIGE International Inc. All Rights Reserved.
    ロジスティック回帰分析② (バッテリートラブル)
    16
    ◆「変数重要度」タブの確認
    トラブル発生の曜日、時間帯に続いて
    気温が重要との結果が出た。
    トラブル発生月よりも重要度が高いの
    で、同じ月であっても気温による影響
    が大きいことを示している。
    他の気象条件はそれほど重要とは出て
    いないが、有意な関係がある。

    View Slide

  17. © PRESTIGE International Inc. All Rights Reserved.
    ロジスティック回帰分析③ (バッテリートラブル)
    17
    ◆「予測」タブの確認
    バッテリートラブルの発生率は・・・
    ①平日よりも休日の方が上がるようだ。
    ②気温は低い方が上がるようだ。
    ③降水量、降雪量は少ない方が上がる
    ようだ。
    ①~③を合わせると、
    「休日で気温が低く天気が良い日」が
    バッテリートラブルの発生率が上がる
    と考えられる。
    関係が強い変数を確認する。




    View Slide

  18. © PRESTIGE International Inc. All Rights Reserved.
    結果の視覚化(バッテリートラブル)
    18
    ◆気温 ◆降雪量
    ◆気温が下がるほどトラブルが増える。
    ➡同じ月でも、気温が低いとトラブルが増える。
    ◆降雪量は少ない方がトラブルが増える(降水量も同様だった)。
    仮説に近い

    View Slide

  19. © PRESTIGE International Inc. All Rights Reserved.
    結果の視覚化(パンクトラブル)
    19
    ◆風速 ◆気温
    ◆気象データとの強い関係は見つからなかった。
    ※有意な差ではない
    仮説と異なる

    View Slide

  20. © PRESTIGE International Inc. All Rights Reserved.
    結果の視覚化(パンクトラブル)※気象以外では・・
    20
    ◆トラブル発生月 ◆トラブル発生曜日
    ◆トラブルが発生する月や曜日と関係が強かった。
    初夏~初秋、平日にトラブルが多い。
    ➡同じ気温でも月や曜日が違うとトラブル発生率が変わる。

    View Slide

  21. © PRESTIGE International Inc. All Rights Reserved.
    結果の視覚化(事故トラブル)
    21
    ◆降水量 ◆降雪量
    ◆降水量や降雪量が多いとトラブルが増える。 仮説に近い

    View Slide

  22. © PRESTIGE International Inc. All Rights Reserved.
    © Prestige International Inc. All Rights Reserved.
    各トラブルの仮説と検証結果
    22
    ・バッテリートラブル
    仮説:気温が低い時に発生しやすいのではないか。
    結果:仮説と同じく、気温が低い時に発生しやすいと確認できた。
    ・パンクトラブル
    仮説:気温が高い時に発生しやすいのではないか。
    結果:仮説と違い、気象条件はあまり関係ないようだった。
    ・事故トラブル
    仮説:悪天候の時に発生しやすいのではないか。
    結果:仮説と同じく、悪天候時に発生しやすいと確認できた。

    View Slide

  23. © PRESTIGE International Inc. All Rights Reserved.
    Exploratoryで分析することのメリット
    23
    【Exploratory導入前】
    Rを利用しての分析は一部で行っていた。
    メンバー間での習熟度にバラつきがあるため、ラングリングでの
    エラー対応などに時間を要し、作業効率があまり良くなかった。
    また、プロジェクトの引継ぎが困難だった。
    【Exploratory導入後】
    UIが充実していて処理の流れが見やすいので習熟度のバラつきが減り、
    エラーが大幅に減った。
    ➡作業効率アップ!
    作業の流れが見やすいので、引継ぎが容易になった。
    (実際にこのプロジェクトは2回引継ぎを経ている)
    ➡引継ぎ簡易化!

    View Slide

  24. © PRESTIGE International Inc. All Rights Reserved.
    今後の課題
    24
    ◆全国を対象に調査を実施したい。(今回は一都三県)
    →観測地点との結合に問題あり。
    この方法では、北海道のトラブルに沖縄の観測地点
    までも一度結合しなくてはならない。
    →地方別に結合して結果をマージする??
    ◆トラブルの件数を対象とした分析方法を見つけたい。
    (今回は全トラブルに対する比率が対象)
    →トラブルが発生していないデータを持っていないので、
    対象トラブルのみで分析しようとしてもTRUEのデータしかない。
    →そこで全トラブルをベースに分析を開始した。
    全トラブルに対する比率なので、
    対象トラブルが増えれば比率も増えるが、
    他のトラブルが減っても相対的に比率は増えてしまう。

    View Slide

  25. © PRESTIGE International Inc. All Rights Reserved.
    今回の勉強会の取り組みにおきまして、
    Exploratory社の白戸さんには大変お世話になりました。
    テーマ選定からストーリーライン、分析作業やプレゼン資料作成まで、
    全てのステップで適切なアドバイスを頂けました。
    非常に多くのことを学べました。
    ご対応いただき、本当にありがとうございました。
    おわりに
    25

    View Slide

  26. © PRESTIGE International Inc. All Rights Reserved.
    ご清聴ありがとうございました
    26

    View Slide