AutoMLを利用した機械学習モデル構築時に意識すること

by SoftBank Tech Night

Slide 1

Slide 1 text

AutoMLを利用した機械学習  モデル構築時に意識すること  2022/7/28 ソフトバンク株式会社法人事業統括ｿﾘｭｰｼｮﾝｴﾝｼﾞﾆｱﾘﾝｸﾞ本部田中陸生 SB Tech Night #8  

Slide 2

Slide 2 text

● 2018年ソフトバンク入社 ● デジタルマーケティング /オートメーションに関連した製品のご提案と導入支援を担当 ● 本日お話するAutoMLもその1つ自己紹介  田中陸生(Rikuo Tanaka)

Slide 3

Slide 3 text

本日お話しする内容  AutoMLとは機械学習を用いたデータ分析のプロセスと AutoMLの範囲 01 AutoMLがあると何が嬉しいのか AutoMLを利用したモデル構築時にヒトがケアすべきポイント 02 終わりに 03 特徴量エンジニアリング AutoMLがあればデータサイエンティストは要らないのか？パーティショニングリーク (leakage)の対応

Slide 4

Slide 4 text

AutoMLとは機械学習を用いたデータ分析のプロセスを自動化する技術

Slide 5

Slide 5 text

機械学習を用いたデータ分析のプロセスとAutoMLの範囲  CRISP-DM ( 画像引用元： Wikipedia - Cross-industry standard process for data mining ) Business Understanding（ビジネス理解）ビジネスの背景の理解、課題の明確化、分析の対象と目標値の決定 Data Understanding（データ理解）分析に必要なデータの収集とその中身(項目・量・質）の理解 Data Preparation（データ準備）形式の変更、新たな項目の追加、テーブル結合 Modeling（モデル構築）アルゴリズム選択、検証の構築、パラメータ最適化、モデルの評価 Evalution（評価）モデルがビジネスに与える効果を評価し、展開可能か判断 Deployment（展開）利用者に向けて展開を行い、計画に基づいた運用/監視を実行 AutoMLによる主な自動化対象

Slide 6

Slide 6 text

AutoMLがあると何が嬉しいのか？  効率化簡易化 ● 多数のアルゴリズムの試行 ● パラメータチューニング ● 試行結果の精度記録、比較用の可視化 ● ノーコード/ローコードでの実行 ● エラーを起こさないためのデータ前処理 START 時間のかかる反復作業を任せることができる点と専門知識を持ったエンジニアでなくともモデル構築が可能になる点

Slide 7

Slide 7 text

AutoMLがあればデータサイエンティストは要らないのか？  AutoMLによってデータ分析プロセスが完全に自動化される訳ではないためヒト(データサイエンティスト )の価値は残る課題設定・業務適用予測モデル構築 AutoMLの自動化範囲とヒトがケアすべき範囲を理解して、協力することが必要 ● 機械的/統計的処理はAutoML ● 業務知見が必要な処理はヒトヒトにしかできない仕事 ● 機械学習で何を分析したいのか ● 分析結果をどのように活かすのか Data Understanding（データ理解） Data Preparation（データ準備） Modeling（モデル構築） Deployment（展開） Evalution（評価） Bussiness Understanding（業務理解）本日のテーマ

Slide 8

Slide 8 text

AutoMLを利用したモデル構築時にヒトがケアすべきポイント ①特徴量エンジニアリング ②パーティショニング ③リーク (leakage)の対応ビジネス上で既知の事柄をデータで表現することが重要統計的数学的な処理は可能だが、ドメイン知識が必要な範囲では AutoMLの対応は限られる未知データに対する性能を測るため、データセットを分割すること。適切な手法はデータによって異なるため、完全な自動化は難しい本来得られるはずのないデータをモデルの学習時に使用すること絶対的な対策はなく、ドメイン知識を必要とするため、AutoMLでの対応も限られる

Slide 9

Slide 9 text

Slide 10

Slide 10 text

特徴量エンジニアリングとは  機械学習モデルのパフォーマンスと精度を向上させるため、追加の変数（特徴量）の構築やデータの形式を変更すること元データ項目追加形式変換・エンコーディング・標準化/対数変換・欠損値埋め・列同士の四則演算・集計・日付の分解

Slide 11

Slide 11 text

特徴量エンジニアリングの例  居住地年齢東京 15 大阪 28 55 福岡居住地年齢 1 15 2 28 -999 55 3 33 機械的な処理はAutoMLで対応可能前回機種変更日 2022/3/1 2021/12/24 2017/6/2 2020/6/1 前回機種変更年前回機種変更月前回機種変更日 2022 3 1 2021 12 24 2017 6 2 2020 6 1 契約月数累計支払金額 13 60000 29 156440 5 20050 50 354060 累計支払金額÷契約月数 4615 5394 4010 7081 性別利用機種男性 iPhone 女性 iPhone 男性ガラケー女性 Android 性別利用機種 1 1 2 1 1 2 2 3 カテゴリ値→数値変換欠損値埋め日付型の自動分割数値列同士の計算例：機種変更有無の予測

Slide 12

Slide 12 text

特徴量エンジニアリングの例  利用プランミニプラン無制限従量性家族シェア利用プラン 1 10 1 5 業務知見に基づいた処理はヒトが対応前回機種変更日 2022/3/1 2021/12/24 2017/6/2 2020/6/1 現機種利用月数 3 8 60 24 利用機種利用機種発売開始年 iPhone 2021 iPhone 2021 ガラケー 2015 Android 2020 利用機種世代 0 0 -3 -2 年齢 15 28 55 33 年代学年 1 9 2 0 5 0 2.4 0 年齢から年代と学年を派生業務知見に基づいた重み付けの実施経過月を表す列を作成機種の世代を表す列を作成例：機種変更有無の予測

Slide 13

Slide 13 text

Slide 14

Slide 14 text

パーティショニングとは  予測モデルの汎化性能を高く保つため、データセットを学習 /検定/テストに分割すること未来のデータ予測モデル構築に利用予測対象過去~現在のデータ学習検定テスト参考書の問題過去問模試例：学習検定テスト (hold-out) hold-out法：与えられた比率に沿ってランダム分割 k-fold法：hold-out法の手続きをk回繰り返す学習学習学習検定学習学習検定学習学習検定学習学習検定学習学習学習 fold1 fold2 fold3 fold4 考え方基本的な手法

Slide 15

Slide 15 text

A パーティショニングにおける注意  予測対象の偏り時系列性グループ性時間軸学習検定 B C D E 顧客IDを記憶して購買傾向を学習しないよう、学習データと検定データに同じ IDを混在させない対応が必要 →Group-k-fold法で対応例：新規顧客の商品購入有無 (A~Eは顧客IDを表す) ランダム分割では、学習時に本来知り得ない未来が見えてしまうため、時系列に沿った分割が必要 →日付パーティションで対応検定学習検定 2017~2020 2021 例：店舗の売上予測例：解約予測 95人 fold1 fold2 fold3 60人 23人 5人 40人 77人学習検定解約者数予測対象の割合に偏りがあると fold毎の精度が安定しないため、割合を揃えた状態での分割が必要 →Stratiﬁed-k-fold法で対応予測する問題に応じて適切な手法を選択する必要があり業務知見を持ったヒトが対応する範囲

Slide 16

Slide 16 text

Slide 17

Slide 17 text

リーク (leakage)とは  本来得られるはずのないデータをモデルの学習時に使用することモデル構築時の精度が不当に高くなるが、実際の予測に利用すると精度は低い日付曜日天気最寄り駅乗降客数来店者数 2022/7/25 月雨 45000 200 2022/7/26 火曇り 50000 220 2022/7/27 水曇り 52000 235 2022/7/28 木晴れ 60000 342 例：店舗の来店者予測学習学習用データ（過去 ~現在）日付曜日天気最寄り駅乗降客数来店者数 2022/8/1 月 2022/8/2 火 2022/8/3 水 2022/8/4 木予測予測用データ（未来）本来は知り得ない情報を利用 (7/25の乗降客数は7/25以前には分からないはず) ● 天気や乗降客数と来店者の関係を学習 ● モデルの予測精度は高い未来の値のため不明 ● 来店者に大きく関係していた天気や乗降客数が分からない状態での予測 ● 現実と離れた予測値

Slide 18

Slide 18 text

リーク (leakage)を防ぐには？  既知の未来情報（曜日、祝日）と予測対象より前に観測された（発生した）事柄を利用することデータの成り立ちが分かるヒトの力が必要日付曜日天気最寄り駅乗降客数来店者数 2022/7/25 月雨 45000 200 2022/7/26 火曇り 50000 220 2022/7/27 水曇り 52000 235 2022/7/28 木晴れ 60000 342 日付曜日 1週間前の天気 1週間前の最寄り駅乗降客数来店者数 2022/7/25 月雨 43000 200 2022/7/26 火晴れ 62100 220 2022/7/27 水晴れ 63200 235 2022/7/28 木晴れ 59000 342 学習用データ学習用データ 1週間前の値を採用することで事前に分かる情報とする対応例

Slide 19

Slide 19 text

終わりに ● AutoMLを利用した機械学習モデル構築時に意識することは主に3つ ○ 特徴量エンジニアリング ○ パーティショニング ○ リークの対応 ● 3つとも業務知見に基づいたヒトの判断が必要 ● 上記ポイントを押さえつつ、可能な限りAutoMLに任せることで効率的に予測モデル構築を進めることが可能

Slide 20

Slide 20 text

EOF