Upgrade to Pro — share decks privately, control downloads, hide ads and more …

特徴量エンジニアリングの自動化

Sponsored · Your Podcast. Everywhere. Effortlessly. Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
Avatar for SALT2 SALT2
June 09, 2026

 特徴量エンジニアリングの自動化

機械学習において極めて重要な役割を持つ特徴量エンジニアリングについて、従来の人手による設計が抱える「組み合わせの爆発」「属人化」「多大な工数」といった限界を浮き彫りにし、その課題を突破するために登場した「自動特徴量エンジニアリング(AutoFE)」の10年にわたる進化の系譜を網羅しています。2015年のDFSによる網羅的生成から、2022年のOpenFEによる高速な選別、そして最新のLLMを用いた意味的・知識的な特徴量生成(LLM-FE)に至るまで、各手法が前者の弱点をどのように克服してきたかを体系的に比較・解説しています。データ分析には決して「万能な一手」が存在するわけではなく、人手による確実なベースライン構築を土台としつつ、最新の自動化技術を特性に応じて賢く組み合わせて使い分けるという、実務に即した重要なアプローチを提示しています。

Avatar for SALT2

SALT2

June 09, 2026

More Decks by SALT2

Other Decks in Technology

Transcript

  1. 記事の紹介 連載記事「特徴量エンジニアリングの自動化」全5回 基礎から最前線まで、論文ベースで体系的に解説したシリーズ 回 テーマ 主なトピック 第1回 特徴量エンジニアリングとは 特徴量の役割 /

    人手設計の4カテゴリ / 自動化への動機 第2回 Deep Feature Synthesis エンティティセット / 深さ優先集約 / featuretools 第3回 特徴選択の3手法 フィルタ法 / Wrapper法 / 埋め込み法(LASSO 等) 第4回 AutoFEの進化 強化学習 / グラフ / Transformer・LLM 第5回 Feature Store × LLM 特徴量基盤の運用 / LLM-FE / 使い分け 本日は、この5回分のエッセンスを「概要・手法・効果」の観点から1本にまとめてお話しします。 © 2026 Boost Consulting, Inc. 2
  2. 本日の進め方 アジェンダ ― ディスカッションを2回挟みます 「覚える」ことがゴールではなく、「こういう世界がある」を持ち帰る 時間 内容 8分 特徴量エンジニアリングとは・なぜ重要か 5分

    人手設計とその限界 10分 ディスカッション① 18分 AutoFEの紹介(概要・手法・効果) 10分 ディスカッション② 4分 まとめ • 手法名(DFS・OpenFE…)は 覚えなくてOK • 数式は「気持ち」が伝われば十分 • ディスカッションに 正解はありません 専門知識がなくても大丈夫です。 © 2026 Boost Consulting, Inc. 3
  3. 特徴量エンジニアリングとは 特徴量とは何か 生データを、モデルが学びやすい「形」へ変換する作業 特徴量(Feature) = モデルへの入力となる数値たち。生データ(日 付・ログ・文字列…)は、多くのアルゴリズムには そのままでは扱いにくい。 木の年齢を当てたいとき、直径そのものより 断面積

    を渡すほうが学びやす い: この「断面積を計算する」行為こそが特徴量エンジニアリング。 直感的には… 「データとモデルの間の通訳者を設計する作業」 • • • データサイエンティストの作業時間の約 80% はこうしたデータ準備に費やされる。 © 2026 Boost Consulting, Inc. 4
  4. 特徴量エンジニアリングとは なぜ重要か ― その重要性 「モデルを良くする」より「特徴量を良くする」ほうが効くことがある 実証されている事実 • 強力な深層学習を表形式データに使っても、決定木に 必ずしも勝て ない(Gorishniy+

    2021) • モデルを変えず特徴量だけ整えると、木系・NN・線形すべてで新記録 (TabPrep, 2025) 特徴量が効く3つの理由 1. アルゴリズムの 前提を満たす(数値化・スケール統一) 2. 関係性を 学びやすい形に(日付→曜日・月末フラグ) 3. ドメイン知識を注入(検査値の比率・財務指標) 例え ― 「速い車(モデル)」を探すより「良い道(特徴量)」を整えるほうが、早く目的地に着くことがある。 © 2026 Boost Consulting, Inc. 5
  5. 特徴量エンジニアリングとは 具体例 ― 人手設計の4カテゴリ 人が手で作る特徴量は、おおよそ4種類に分けられる カテゴリ 何をするか 具体例 ① 数値変換

    スケール統一・非線形変換・かけ算 標準化、log(x+1)、面積 = 縦 × 横 ② エンコーディング カテゴリ(文字)を数値に One-Hot、Target Encoding、埋め込み ③ 集約 複数行をまとめて1値に count(G)、mean(G)、max(G) ④ ドメイン知識 専門知識を特徴量の形に 負債比率 = 総負債 ÷ 総資産、TF-IDF ④ は最も強力だが、最も人手と専門知識に依存する。担当者が変わるたびにゼロから作り直しになりがち。 © 2026 Boost Consulting, Inc. 6
  6. 人手とその限界 人手で作り続けると、3つの壁にぶつかる ここまでが土台。では、人が手で作り続けると何が起きるか︖ 壁① スケール(組み合わせ爆発) 特徴量 n 個から k 個ずつ・演算子を組み合わせた候補数︓

    2つの掛け算だけで O(n²)、3つで O(n³) ── 人手で全部試すのは不 可能。 壁② 属人化 壁③ 時間 • どの変換を試すかは 担当者の勘 に依存 → 見落とし・再現性なし • 実務では前処理・特徴量設計に 大半の時間 が消える • 複数テーブルをまたぐ集約は試行錯誤が膨大 この「大変さ」を機械に肩代わりさせよう ── これが自動特徴量エンジニアリング(AutoFE)の出発点。 © 2026 Boost Consulting, Inc. 7
  7. グループディスカッション ディスカッション① 問い ― あなたが店長なら、どんな「手がかり」を使いますか︖ シナリオ ― あなたなら、どんな特徴量を作る︖ あなたは小さな カフェの店長。「明日の売上」をAIに予測させたい。手元にあるのは、こんな

    生のデータ だけ ── この表から、明日の売上を当てる 新しい「手がかり」(=特徴量) を、思いつくだけ作ってみてください。 日付 売上 客数 天気 気温 湿度 曜日 祝日 近隣イベント 6/1 8.2万 145 晴 26℃ 55% 土 × 商店街セール 6/2 7.5万 132 雨 22℃ 78% 日 × なし 6/3 4.1万 70 曇 24℃ 65% 月 ◦ なし 進め方 ① 3人1組でグループを作る ② 5分間、自由に意見を交わす ③ 各グループから1分程度で発表 ポイント • 正解はありません。「自分ならこう考える」でOK • いくつ作れたか、グループで数えてみてください • 専門知識は不要です © 2026 Boost Consulting, Inc. 8
  8. AutoFEの紹介 AutoFEを「3つの観点」で捉える いま挙げた「手がかり」は ── 無限に作れる・人によって違う・効くか分からない。これを解くのがAutoFE 観点① 概要 何を自動化するか 特徴量づくりは3方向に分かれる: •

    生成 … 候補を作る • 選択 … 効くものを選ぶ • 管理 … 再利用・運用 「組み合わせが多すぎる」→生成、「どれが効くか 不明」→選択 で解く。 観点② 手法 どう自動化するか 代表的な3手法を時代順に︓ DFS ↓ OpenFE ↓ LLM-FE (次ページから1つずつ) 観点③ 効果 どれだけ効くか 実データの数値で確認する: • 詐欺検知で 偽陽性 −54% • Kaggle 上位99% 超 • ROC AUC 0.798→0.822 この後、観点②(手法3つ)→観点③(効果)の順に見ていきます。 © 2026 Boost Consulting, Inc. 9
  9. AutoFEの紹介 ― 手法① DFS ― 自動生成の原点(2015年・MIT) 複数テーブルを自動でたどり、集約特徴量を大量に生み出す "Deep" は AIの深さでなく

    テーブルを何段たどるか の深さ。関係を辿っ て再帰的に集約: 顧客 → 注文 → 注文明細 「総購入金額」「注文ごとの平均単価の合計」などを 自動で網羅生成。 実績(詐欺検知) 約185万件の取引から 237個 の特徴量を自動生成。 偽陽性 −54% (19万ユーロのコスト削減) OSS featuretools で誰でも試せる。 限界 ― 深さを増やすと候補が爆発。意味があるかは判断できず、生成後の「選択」が別途必要。 © 2026 Boost Consulting, Inc. 10
  10. AutoFEの紹介 ― 手法② OpenFE ― 実用の決定版(2022年) 大量に作った候補から「本当に効くもの」を高速に見極める 2つの工夫 ① Feature

    Boosting … モデルの "外れ(残差)" を使い、再学習せず に効果を推定 ② 粗→細の2段階ふるい分け … まず軽い指標で大量に絞り、残りを精密評 価 衝撃の実績(Kaggle) 数千チームが競うコンペ2件で、単純なモデルに OpenFE の特徴量を足す だけで ── 上位 99.3% / 99.6% のチームを上回った。論文の「エキスパートレベルの性能」は誇張ではなかった 。 例え ― オーディションの一次・二次審査。まず大量に絞り、有望株だけをじっくり見る。 限界 ― 統計的に効くものを選ぶだけで、「なぜ効くか」という意味は理解していない。 © 2026 Boost Consulting, Inc. 11
  11. AutoFEの紹介 ― 手法③ LLM-FE ― 最前線(2023~2025年) LLMが「ドメイン知識」を使って、意味のある特徴量を考え出す 統計手法は「何が効きそうか」の 知識 を持たない。LLM

    は事前学習で 医療・金融など広範な知識 を持つ。 タスク説明をLLMに入 力 → 特徴量を作るコード生 成 → 精度UPのみ採用・進化 「コレステロール値は対数変換が有効」のような知識を活かして生成する。 効果(ablation)― 両輪が効く 正規化精度(フル機能 = 1.00) フル機能 1.00 ドメイン知識なし 0.63 進化的改良なし 0.59 CAAFE では ROC AUC が 0.798 → 0.822 に改善。 限界 ― API費用がかかる/毎回結果が変わる(再現性)/列名に意味が必要(feature_1 では機能しない)。 © 2026 Boost Consulting, Inc. 12
  12. AutoFEの紹介 ― 効果と使い分け 3手法の比較 ― 万能の一手はない 「探す賢さ」と「コスト・知識」のトレードオフで使い分ける 手法 登場 やっていること

    代表的な効果 弱み 人手 ― 専門家が設計 知識・解釈性が最高 工数・属人化・見落とし DFS 2015 関係を辿って網羅生成 詐欺検知で偽陽性 −54% 組み合わせ爆発・意味なし OpenFE 2022 効く候補を高速選別 Kaggle 上位99%超 意味理解はない LLM-FE 2025 知識で意味的に生成 ROC AUC 0.798→0.822 コスト・再現性・列名依存 実務の原則 ― まず人手でベースラインを作り、その上に AutoFE / LLM を「上乗せ」して試す。 © 2026 Boost Consulting, Inc. 13
  13. AutoFEの紹介 ― 効果と使い分け 進化の系譜 ― 10年で「網羅生成」から「知識生成」へ 各手法は、前の手法の限界を埋める形で発展してきた 2015 DFS 関係を辿る

    網羅的生成 → 2022 OpenFE / GRFG 高速な選別 強化学習 → 2024 CAAFE LLMで 意味的生成 → 2025 LLM-FE / TCTO 進化的最適化 グラフ管理 統計的アプローチの軸 「下流タスクの精度を直接最適化」 ─ DFS→OpenFE→GRFG→TCTO。課題は評価コストとスケール。 LLMアプローチの軸 「意味・知識を持ち込む」 ─ CAAFE→LLM-FE。課題は列名依存・コ スト・再現性。 © 2026 Boost Consulting, Inc. 14
  14. グループディスカッション ディスカッション② 問い ― 一番「へえ」と思ったこと・使えそうな場面は︖ 問い 今日知った特徴量エンジニアリングの世界で、一番「へえ」と思ったこと・意 外だったこと は何ですか︖ また、あなたの興味のある分野や仕事で、自動化が使えそうな場面

    は ありそうですか︖ 進め方 ① 再び3人1組でグループを作る ② 5分間、自由に意見を交わす ③ 各グループから1分程度で発表 ポイント • 「意外だった」「面白かった」「よく分からなかった」どんな感想でも大歓迎 • 他のグループの「へえ」で理解が深まる © 2026 Boost Consulting, Inc. 15
  15. まとめ 今日の5つのメッセージ 特徴量エンジニアリングの世界は、今も進化の途中 ① 精度は「特徴量」で決まる モデルより、データの作り方が効くことがある(作業時間の8割はデータ準 備) ② 人手には構造的な限界 組み合わせ爆発・属人化・時間

    ── これが自動化(AutoFE)を生ん だ ③ AutoFEは3観点で捉える 生成・選択・管理。手法は DFS→OpenFE→LLM-FE ④ 効果は実データで証明済み 詐欺検知 −54% / Kaggle 上位99% / ROC AUC 改善 ⑤ 万能な一手はない 最新=最良ではない。まず人手、その上に AutoFE/LLM を賢く使い 分ける 「この手法はどの課題を解いているか」と問う視点が、変わり続ける手法に向き合う武器になる。 © 2026 Boost Consulting, Inc. 16