特徴量エンジニアリングの自動化

特徴量エンジニアリングの自動化 2026年6月9日

記事の紹介連載記事「特徴量エンジニアリングの自動化」全5回基礎から最前線まで、論文ベースで体系的に解説したシリーズ回テーマ主なトピック第1回特徴量エンジニアリングとは特徴量の役割 /
人手設計の4カテゴリ / 自動化への動機第2回 Deep Feature Synthesis エンティティセット / 深さ優先集約 / featuretools 第3回特徴選択の3手法フィルタ法 / Wrapper法 / 埋め込み法（LASSO 等）第4回 AutoFEの進化強化学習 / グラフ / Transformer・LLM 第5回 Feature Store × LLM 特徴量基盤の運用 / LLM-FE / 使い分け本日は、この5回分のエッセンスを「概要・手法・効果」の観点から1本にまとめてお話しします。 © 2026 Boost Consulting, Inc. 2

本日の進め方アジェンダ ― ディスカッションを2回挟みます「覚える」ことがゴールではなく、「こういう世界がある」を持ち帰る時間内容 8分特徴量エンジニアリングとは・なぜ重要か 5分
人手設計とその限界 10分ディスカッション① 18分 AutoFEの紹介（概要・手法・効果） 10分ディスカッション② 4分まとめ • 手法名（DFS・OpenFE…）は覚えなくてOK • 数式は「気持ち」が伝われば十分 • ディスカッションに正解はありません専門知識がなくても大丈夫です。 © 2026 Boost Consulting, Inc. 3

特徴量エンジニアリングとは特徴量とは何か生データを、モデルが学びやすい「形」へ変換する作業特徴量（Feature） = モデルへの入力となる数値たち。生データ（日付・ログ・文字列…）は、多くのアルゴリズムにはそのままでは扱いにくい。木の年齢を当てたいとき、直径そのものより断面積
を渡すほうが学びやすい：この「断面積を計算する」行為こそが特徴量エンジニアリング。直感的には… 「データとモデルの間の通訳者を設計する作業」 • • • データサイエンティストの作業時間の約 80% はこうしたデータ準備に費やされる。 © 2026 Boost Consulting, Inc. 4

特徴量エンジニアリングとはなぜ重要か ― その重要性「モデルを良くする」より「特徴量を良くする」ほうが効くことがある実証されている事実 • 強力な深層学習を表形式データに使っても、決定木に必ずしも勝てない（Gorishniy+
2021） • モデルを変えず特徴量だけ整えると、木系・NN・線形すべてで新記録（TabPrep, 2025）特徴量が効く3つの理由 1. アルゴリズムの前提を満たす（数値化・スケール統一） 2. 関係性を学びやすい形に（日付→曜日・月末フラグ） 3. ドメイン知識を注入（検査値の比率・財務指標）例え ― 「速い車（モデル）」を探すより「良い道（特徴量）」を整えるほうが、早く目的地に着くことがある。 © 2026 Boost Consulting, Inc. 5

特徴量エンジニアリングとは具体例 ― 人手設計の4カテゴリ人が手で作る特徴量は、おおよそ4種類に分けられるカテゴリ何をするか具体例 ① 数値変換
スケール統一・非線形変換・かけ算標準化、log(x+1)、面積 = 縦 × 横 ② エンコーディングカテゴリ（文字）を数値に One-Hot、Target Encoding、埋め込み ③ 集約複数行をまとめて1値に count(G)、mean(G)、max(G) ④ ドメイン知識専門知識を特徴量の形に負債比率 = 総負債 ÷ 総資産、TF-IDF ④ は最も強力だが、最も人手と専門知識に依存する。担当者が変わるたびにゼロから作り直しになりがち。 © 2026 Boost Consulting, Inc. 6

人手とその限界人手で作り続けると、3つの壁にぶつかるここまでが土台。では、人が手で作り続けると何が起きるか︖ 壁① スケール（組み合わせ爆発）特徴量 n 個から k 個ずつ・演算子を組み合わせた候補数︓
2つの掛け算だけで O(n²)、3つで O(n³) ── 人手で全部試すのは不可能。壁② 属人化壁③ 時間 • どの変換を試すかは担当者の勘に依存 → 見落とし・再現性なし • 実務では前処理・特徴量設計に大半の時間が消える • 複数テーブルをまたぐ集約は試行錯誤が膨大この「大変さ」を機械に肩代わりさせよう ── これが自動特徴量エンジニアリング（AutoFE）の出発点。 © 2026 Boost Consulting, Inc. 7

グループディスカッションディスカッション① 問い ― あなたが店長なら、どんな「手がかり」を使いますか︖ シナリオ ― あなたなら、どんな特徴量を作る︖ あなたは小さなカフェの店長。「明日の売上」をAIに予測させたい。手元にあるのは、こんな
生のデータだけ ── この表から、明日の売上を当てる新しい「手がかり」（＝特徴量）を、思いつくだけ作ってみてください。日付売上客数天気気温湿度曜日祝日近隣イベント 6/1 8.2万 145 晴 26℃ 55% 土 × 商店街セール 6/2 7.5万 132 雨 22℃ 78% 日 × なし 6/3 4.1万 70 曇 24℃ 65% 月 ◦ なし進め方 ① 3人1組でグループを作る ② 5分間、自由に意見を交わす ③ 各グループから1分程度で発表ポイント • 正解はありません。「自分ならこう考える」でOK • いくつ作れたか、グループで数えてみてください • 専門知識は不要です © 2026 Boost Consulting, Inc. 8

AutoFEの紹介 AutoFEを「3つの観点」で捉えるいま挙げた「手がかり」は ── 無限に作れる・人によって違う・効くか分からない。これを解くのがAutoFE 観点① 概要何を自動化するか特徴量づくりは3方向に分かれる： •
生成 … 候補を作る • 選択 … 効くものを選ぶ • 管理 … 再利用・運用「組み合わせが多すぎる」→生成、「どれが効くか不明」→選択で解く。観点② 手法どう自動化するか代表的な3手法を時代順に︓ DFS ↓ OpenFE ↓ LLM-FE （次ページから1つずつ）観点③ 効果どれだけ効くか実データの数値で確認する： • 詐欺検知で偽陽性 −54% • Kaggle 上位99% 超 • ROC AUC 0.798→0.822 この後、観点②（手法3つ）→観点③（効果）の順に見ていきます。 © 2026 Boost Consulting, Inc. 9

AutoFEの紹介 ― 手法① DFS ― 自動生成の原点（2015年・MIT）複数テーブルを自動でたどり、集約特徴量を大量に生み出す "Deep" は AIの深さでなく
テーブルを何段たどるかの深さ。関係を辿って再帰的に集約：顧客 → 注文 → 注文明細「総購入金額」「注文ごとの平均単価の合計」などを自動で網羅生成。実績（詐欺検知）約185万件の取引から 237個の特徴量を自動生成。偽陽性 −54% （19万ユーロのコスト削減） OSS featuretools で誰でも試せる。限界 ― 深さを増やすと候補が爆発。意味があるかは判断できず、生成後の「選択」が別途必要。 © 2026 Boost Consulting, Inc. 10

AutoFEの紹介 ― 手法② OpenFE ― 実用の決定版（2022年）大量に作った候補から「本当に効くもの」を高速に見極める 2つの工夫 ① Feature
Boosting … モデルの "外れ（残差）" を使い、再学習せずに効果を推定 ② 粗→細の2段階ふるい分け … まず軽い指標で大量に絞り、残りを精密評価衝撃の実績（Kaggle）数千チームが競うコンペ2件で、単純なモデルに OpenFE の特徴量を足すだけで ── 上位 99.3% / 99.6% のチームを上回った。論文の「エキスパートレベルの性能」は誇張ではなかった。例え ― オーディションの一次・二次審査。まず大量に絞り、有望株だけをじっくり見る。限界 ― 統計的に効くものを選ぶだけで、「なぜ効くか」という意味は理解していない。 © 2026 Boost Consulting, Inc. 11

AutoFEの紹介 ― 手法③ LLM-FE ― 最前線（2023～2025年） LLMが「ドメイン知識」を使って、意味のある特徴量を考え出す統計手法は「何が効きそうか」の知識を持たない。LLM
は事前学習で医療・金融など広範な知識を持つ。タスク説明をLLMに入力 → 特徴量を作るコード生成 → 精度UPのみ採用・進化「コレステロール値は対数変換が有効」のような知識を活かして生成する。効果（ablation）― 両輪が効く正規化精度（フル機能 = 1.00）フル機能 1.00 ドメイン知識なし 0.63 進化的改良なし 0.59 CAAFE では ROC AUC が 0.798 → 0.822 に改善。限界 ― API費用がかかる／毎回結果が変わる（再現性）／列名に意味が必要（feature_1 では機能しない）。 © 2026 Boost Consulting, Inc. 12

AutoFEの紹介 ― 効果と使い分け 3手法の比較 ― 万能の一手はない「探す賢さ」と「コスト・知識」のトレードオフで使い分ける手法登場やっていること
代表的な効果弱み人手 ― 専門家が設計知識・解釈性が最高工数・属人化・見落とし DFS 2015 関係を辿って網羅生成詐欺検知で偽陽性 −54% 組み合わせ爆発・意味なし OpenFE 2022 効く候補を高速選別 Kaggle 上位99%超意味理解はない LLM-FE 2025 知識で意味的に生成 ROC AUC 0.798→0.822 コスト・再現性・列名依存実務の原則 ― まず人手でベースラインを作り、その上に AutoFE / LLM を「上乗せ」して試す。 © 2026 Boost Consulting, Inc. 13

AutoFEの紹介 ― 効果と使い分け進化の系譜 ― 10年で「網羅生成」から「知識生成」へ各手法は、前の手法の限界を埋める形で発展してきた 2015 DFS 関係を辿る
網羅的生成 → 2022 OpenFE / GRFG 高速な選別強化学習 → 2024 CAAFE LLMで意味的生成 → 2025 LLM-FE / TCTO 進化的最適化グラフ管理統計的アプローチの軸「下流タスクの精度を直接最適化」 ─ DFS→OpenFE→GRFG→TCTO。課題は評価コストとスケール。 LLMアプローチの軸「意味・知識を持ち込む」 ─ CAAFE→LLM-FE。課題は列名依存・コスト・再現性。 © 2026 Boost Consulting, Inc. 14

グループディスカッションディスカッション② 問い ― 一番「へえ」と思ったこと・使えそうな場面は︖ 問い今日知った特徴量エンジニアリングの世界で、一番「へえ」と思ったこと・意外だったことは何ですか︖ また、あなたの興味のある分野や仕事で、自動化が使えそうな場面
はありそうですか︖ 進め方 ① 再び3人1組でグループを作る ② 5分間、自由に意見を交わす ③ 各グループから1分程度で発表ポイント • 「意外だった」「面白かった」「よく分からなかった」どんな感想でも大歓迎 • 他のグループの「へえ」で理解が深まる © 2026 Boost Consulting, Inc. 15

まとめ今日の5つのメッセージ特徴量エンジニアリングの世界は、今も進化の途中 ① 精度は「特徴量」で決まるモデルより、データの作り方が効くことがある（作業時間の8割はデータ準備） ② 人手には構造的な限界組み合わせ爆発・属人化・時間
── これが自動化（AutoFE）を生んだ ③ AutoFEは3観点で捉える生成・選択・管理。手法は DFS→OpenFE→LLM-FE ④ 効果は実データで証明済み詐欺検知 −54% / Kaggle 上位99% / ROC AUC 改善 ⑤ 万能な一手はない最新＝最良ではない。まず人手、その上に AutoFE/LLM を賢く使い分ける「この手法はどの課題を解いているか」と問う視点が、変わり続ける手法に向き合う武器になる。 © 2026 Boost Consulting, Inc. 16

Strictly confidential CONFIDENTIAL 本文書（添付資料を含む）は、ブーストコンサルティング株式会社が著作権その他の権利を有する営業秘密（含サプライヤ等第三者が権利を有するもの）です。当社の許可なく複製し利用すること、また漏洩することは「著作権法」「不正競争防止法」によって禁じられております。本資料内の社名・製品名は各社の登録商標です。また、本資料はブーストコンサルティング株式会社による口頭の説明を補助するために使用されるものであって、本件に関する検討内容や議論の過程を網羅的に掲載しているものではありません。
17 © 2026 Boost Consulting, Inc.

Strictly confidential End of File

特徴量エンジニアリングの自動化

特徴量エンジニアリングの自動化

SALT2

More Decks by SALT2

Other Decks in Technology

Featured

Transcript

特徴量エンジニアリングの自動化 2026年6月9日

記事の紹介連載記事「特徴量エンジニアリングの自動化」全5回基礎から最前線まで、論文ベースで体系的に解説したシリーズ回テーマ主なトピック第1回特徴量エンジニアリングとは特徴量の役割 /

本日の進め方アジェンダ ― ディスカッションを2回挟みます「覚える」ことがゴールではなく、「こういう世界がある」を持ち帰る時間内容 8分特徴量エンジニアリングとは・なぜ重要か 5分

特徴量エンジニアリングとは具体例 ― 人手設計の4カテゴリ人が手で作る特徴量は、おおよそ4種類に分けられるカテゴリ何をするか具体例 ① 数値変換

人手とその限界人手で作り続けると、3つの壁にぶつかるここまでが土台。では、人が手で作り続けると何が起きるか︖ 壁① スケール（組み合わせ爆発）特徴量 n 個から k 個ずつ・演算子を組み合わせた候補数︓

AutoFEの紹介 AutoFEを「3つの観点」で捉えるいま挙げた「手がかり」は ── 無限に作れる・人によって違う・効くか分からない。これを解くのがAutoFE 観点① 概要何を自動化するか特徴量づくりは3方向に分かれる： •

AutoFEの紹介 ― 手法① DFS ― 自動生成の原点（2015年・MIT）複数テーブルを自動でたどり、集約特徴量を大量に生み出す "Deep" は AIの深さでなく

AutoFEの紹介 ― 手法② OpenFE ― 実用の決定版（2022年）大量に作った候補から「本当に効くもの」を高速に見極める 2つの工夫 ① Feature

AutoFEの紹介 ― 手法③ LLM-FE ― 最前線（2023～2025年） LLMが「ドメイン知識」を使って、意味のある特徴量を考え出す統計手法は「何が効きそうか」の知識を持たない。LLM

AutoFEの紹介 ― 効果と使い分け 3手法の比較 ― 万能の一手はない「探す賢さ」と「コスト・知識」のトレードオフで使い分ける手法登場やっていること

AutoFEの紹介 ― 効果と使い分け進化の系譜 ― 10年で「網羅生成」から「知識生成」へ各手法は、前の手法の限界を埋める形で発展してきた 2015 DFS 関係を辿る

Strictly confidential End of File