u 予測に使えるデータ項目 p 髪の長さ p 身長,体重 p 今日コンビニで買った物 p 家にある本の一覧 ? もちろん,髪が長くてお化粧品をよく買い, ファッション雑誌をたくさん持っている男性 や, 短髪でプロテインをよく買い筋トレの本を持ってる女性も。 但し,データとしてそれが多数派ではないはず。
クラスタリング手法,系統図のような形でクラスタを生成する n ナイーブベイズ u ベイズの定理に基づいて分類を行う n LightGBM u XGBoostの弟くらいの認識でOK n CatBoost u LightGBMの弟くらいの認識でOK p 分類尺度の扱いが上手らしい n k-Shape u 波形のクラスタリング n ARIMA u 時系列データの予測 n Prophet u 時系列データの予測 ※ これらはごく一例で他にも様々な手法が存在。目的やデータの種類,手法の長短に照らして適切な手法を選ぶ。 53
多次元尺度法(データ数が数百までならこれ) p t-SNE(データ数が数万などでも余裕,だが非推奨) p UMAP(数千万などでも大丈夫。多次元尺度法がダメならこれ) n 異常値検知・変化点抽出 u 外れ値の検出や,時系列データの変化点を見つける n 因果推論 u ベイジアンネットワーク,LinGAM 55
u L1距離(マンハッタン距離とも。格子上で左に3,上に1のようなもの) u L2距離(ユークリッド距離とも。普通にいうところの最短距離) u チュエビシェフ距離,ミンコフスキー距離,マハラノビス距離 u … ここではこれ以上踏み込まないが, 距離を測る前に,そもそも適切な距離の種類も考える必要 67
は 知能 とどう関係するのか? u 機械学習はむしろ 数学とか,統計の問題なのでは?? n そのとおり u 機械学習は必ずしも人工知能だけのテーマではない p 統計数理などの分野の問題でもある u “記号は世界を同値類に分けるもの” であるとか, 知能は “環境との相互作用” という面からは人工知能 69