Upgrade to Pro — share decks privately, control downloads, hide ads and more …

AIF勉強会

nakamura.shogo
October 06, 2024
2.6k

 AIF勉強会

nakamura.shogo

October 06, 2024
Tweet

Transcript

  1. 簡単に自己紹介 • 中村 • ハラショ- (社内通称) • @nokomoro3 (ブログ, SNS)

    • 所属 • データ事業本部 インテグレーション部 機械学習チーム • 東京オフィス • 仕事 元組み込み信号処理エンジニア 浅く機械学習をさわりはじめて10年程度 いまも機械学習案件に従事 • 近況 お高めの酒を少量のむことを覚えた
  2. AIってそもそも何? AI(人工知能) ML(機械学習) DL(深層学習) GENAI (生成AI) • AI • 人間の行動を模擬したもの

    • アシスタント、医療診断、将棋AI • ML • 明示的な判断手続きを定義することなくデータからパ ターンや傾向を学習して予測や決定を行うアルゴリズ ムの総称 • 画像認識、音声認識、自然言語処理、推薦システム • DL • 機械学習技術の一つで、特徴量抽出を自動化し、より 大規模で複雑なタスクにスケールできるよう、シンプ ルなニューラルネットの組み合わせで実現 • その構造でCNNやTransformerなど様々な種類がある • 生成AI • より広範なタスクや大規模なデータセットで Transformerを学習することで学習データに類似したコ ンテンツを生成できるようにしたもの • 主に自然言語で処理可能な汎用的なタスクに対応でき るため学習をせずに様々な用途に使用できる
  3. 主要なMLパイプライン データ 収集 前処理・ 特徴量変換 モデルの 学習 モデル評価 デプロイ モニタリング

    参考 ・https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/ml-lifecycle-architecture-diagram.html
  4. 深層学習の用語 • データの分割 • データセットは3つに分けられる • 学習データ:深層学習モデル内のパラメータの更新に使用される • 検証データ:学習時に過学習が起きないかどうかを検証するために用いる •

    テストデータ:学習終了後の評価に使用される • 検証データを用いないケースも存在する 学習データ 検証データ テストデータ 広義の学習データ (学習過程で使用されるため)
  5. 深層学習の用語 • 学習過程とミニバッチとエポック数 学習データ ミニバッチに分割 ミニバッチ内に入力と正解のペアが バッチサイズ分(ex. 12個)ある GPUなどの ハードウェアに読み込み

    学習中の モデル 12個の予測が得られるので、 12個の正解と誤差を計算 この誤差が小さくなるようにモデルを更新 ・各パラメータの微分に負の符号を掛けて、 さらにある学習係数をかけて更新 ・この更新方法を再急降下法のミニバッチ版、 確率的勾配降下法と呼ぶ この処理を各ミニバッチについて 繰り返し実施 さらに学習データをミニバッチに分割し なおして、再度全学習データを繰り返し 処理する この繰り返し回数をエポック数と呼ぶ。 予測 更新
  6. 深層学習の用語 • 学習過程における損失(誤差)の推移 • 誤差計算において、学習データと検証データ双方の誤差を計算 損失(誤差) エポック数 検証データの誤差 学習データの誤差 検証データの誤差が最小のエポックで

    学習を打ち切ることをearly-stoppingという ここだと検証データの結果が悪いため 過学習(オーバーフィッティング) ここだと学習データの誤差が十分に 低下していないため、 アンダーフィッティング
  7. 深層学習の用語 • 学習におけるトラブルシューティング お困りごと 原因 対策 損失が減少しない、または発散する 損失が途中で急増する 学習係数が大きすぎる ・学習率を小さくする(例:0.01

    → 0.001) ・学習率スケジューリングを導入して、段階的に減少させる バッチサイズが小さすぎる ・バッチサイズを大きくして、勾配の推定をより安定させる(例:32 → 128) 学習が遅い、収束に時間がかかる 学習係数が小さすぎる ・学習率を大きくする(例:0.0001 → 0.001) ・AdamやRMSPropなどの動的学習率を持つオプティマイザを使用 バッチサイズが小さすぎる ・バッチサイズを大きくする(例:32 → 128) ハードウェアの性能不足 ・ハードウェアの性能(GPU/TPU)を見直す モデルが過学習している (訓練データには高精度、テストデータには低精度) エポック数が多すぎる ・早期終了(Early Stopping)を導入して、検証データの損失が 改善しなくなった時点で学習を停止 正規化が不足している ・ドロップアウトやL2正則化を適用して汎化性能を向上させる データが不十分 ・データ拡張を行い、訓練データを増やす モデルが未学習 (訓練データにもテストデータにも低精度) 学習係数が小さすぎる ・学習率を大きくする エポック数が少なすぎる ・エポック数を増やす(例:50 → 100) モデルが複雑すぎる ・モデルの層を減らす、またはより単純なアーキテクチャを使用する モデルが単純すぎる ・モデルの層を増やす、またはより複雑なアーキテクチャを使用する データが不十分 ・データ拡張を行い、訓練データを増やす 局所最適解に陥っている ・モデルの初期化方法を工夫する(例:Xavier初期化、He初期化) 勾配消失や勾配爆発が発生している ・バッチ正規化(Batch Normalization)を導入して、各層で正規化する メモリ不足(Out of Memory)エラーが発生する バッチサイズが大きすぎる ・バッチサイズを小さくする(例:512 → 64) ・メモリ効率の良いデータローディング方法を検討する データの不均衡により、特定のクラスに偏った予測をする データセットが不均衡 (特定のクラスが少なすぎる) ・クラスのバランスを取るために、オーバーサンプリングや アンダーサンプリングを行う ・データの少ないクラスのデータを集める ・重み付け損失関数を使用する
  8. • テーブルデータに対する教師あり学習モデル 主要なMLモデル アルゴリズム/フレームワーク 説明 用途 Linear Learner (線形回帰、ロジスティック回帰) 回帰のために線形関数を、分類のために線形しきい値関数(ロジスティッ

    ク回帰)を学習するアルゴリズム。 線形回帰や線形分類タスクに対して、シンプルかつ 解釈可能なモデルを構築する。 K-Nearest Neighbors (k-NN) k個の最も近いラベル付きポイントを使用して値を割り当てる非パラメト リック手法。分類ではラベル、回帰では平均値を算出。 分類や回帰タスクにおいて、特に小規模なデータ セットに対して簡単に適用可能なアルゴリズム。 Factorization Machines 高次元のスパースなデータセット内で特徴間の相互作用を経済的に捉える ために設計された、線形モデルの拡張。 レコメンデーションシステムや広告のクリック予測 など、スパースなデータセットにおける特徴間の相 互作用を捉える。 XGBoost より単純で弱いモデルのセットからの推定値をアンサンブルする、勾配 ブースト決定木アルゴリズムの実装。 高精度な分類や回帰タスクに対して、効率的かつ強 力なモデルを構築する。 LightGBM 勾配ブースト決定木アルゴリズムの実装で、Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB) という効率的な技 術を導入。 大規模データセットに対して、効率的かつ高速な分 類や回帰モデルを構築する。 CatBoost 順序付きブースティングとカテゴリカル特徴を処理する革新的なアルゴリ ズムを導入した、勾配ブースト決定木アルゴリズム。 カテゴリカルデータを含むデータセットに対して、 高精度な分類や回帰モデルを構築する。 AutoGluon-Tabular モデルのアンサンブリングと複数レイヤーでのスタッキングにより成功す る、オープンソースのAutoMLフレームワーク。 自動機械学習(AutoML)を通じて、表形式データに 対して最適なモデルを自動的に構築し、予測を行う。 TabTransformer 自己注意(Self-Attention)に基づくトランスフォーマーを使用して構築さ れた、新しい深層学習による表形式データモデリングアーキテクチャ。 表形式データ(タブラー形式)に対して深層学習を 適用し、高度なパターンを捉える。 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-tabular.html
  9. 主要なMLモデル 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-text.html ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-time-series.html アルゴリズム/フレームワーク 説明 用途 BlazingText Word2vecおよびテキスト分類アルゴリズムの高度に最適化された実装で、 大規模なデータセットにスケール可能。

    自然言語処理(NLP)タスク、特に単語埋め込みや テキスト分類に使用される。 Latent Dirichlet Allocation (LDA) ドキュメントのセット内のトピックを特定するための教師なしアルゴリズ ム。 文書のトピックモデリングに使用され、ニュース記 事やレポートなどのトピック分析に適している。 Neural Topic Model (NTM) ニューラルネットワークを使用してトピックを特定するための教師なし手 法。 トピックモデリングに使用され、LDAとは異なる ニューラルネットワークアプローチを採用している。 Object2Vec 高次元オブジェクトの低次元埋め込みを学習し、下流モデルのトレーニン グ効率を向上させる特徴を生成する多目的アルゴリズム。 高次元データの埋め込みを学習し、特徴エンジニア リングや類似性分析に使用される。 Sequence-to-Sequence ニューラル機械翻訳に一般的に使用される教師ありアルゴリズム。 機械翻訳や文書生成など、シーケンスデータの変換 タスクに使用される。 Text Classification - TensorFlow 事前学習済みモデルを使用した転移学習をサポートするテキスト分類のた めの教師ありアルゴリズム。 テキスト分類タスクに使用され、転移学習を活用し て効率的にモデルを構築できる。 • テキスト分析 • 時系列分析 アルゴリズム/フレームワーク 説明 用途 DeepAR Forecasting 再帰型ニューラルネットワーク(RNN)を使用して、スカラー(一次元) 時系列を予測するための教師あり学習アルゴリズム。 時系列データの予測に特化し、需要予測や売上予測 などに応用される。
  10. 主要なMLモデル 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-unsupervised.html ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-vision.html アルゴリズム/フレームワーク 説明 用途 IP Insights IPv4アドレスの使用パターンを学習し、IPv4アドレスとユーザーIDやアカ

    ウント番号などのエンティティ間の関連を捉える。 不正検出や異常なIPアドレスの使用パターンを特定 するために使用される。 K-Means データ内の離散的なグループを見つけ、グループ内のメンバーが互いに似 ており、他のグループとは異なるようにする。 クラスタリングに使用され、データポイントをk個の グループに分けるために使用される。 Principal Component Analysis (PCA) データセット内の次元を削減し、データポイントを主成分に投影して、で きるだけ多くの情報や変動を保持する。 次元削減を行い、データの可視化や、モデルの計算 効率を向上させるために使用される。 Random Cut Forest (RCF) 規則的またはパターン化されたデータから逸脱する異常なデータポイント を検出する。 異常検知に使用され、特に異常なデータ点や外れ値 を検出するタスクに適している。 • 教師なし学習(Unsupervised learning) • 画像分析 アルゴリズム/フレームワーク 説明 用途 Image Classification - MXNet 解答付きのデータを使用する教師ありアルゴリズム。画像を分類するため に使用される。 画像分類タスクに使用され、特定のクラスに画像を 分類する。 Image Classification - TensorFlow 事前学習済みのTensorFlow Hubモデルを使用して特定のタスクに微調整す る教師ありアルゴリズム。 画像分類タスクに使用され、転移学習を活用して効 率的にモデルを構築できる。 Semantic Segmentation コンピュータビジョンアプリケーションを開発するための、細かいピクセ ルレベルでのアプローチを提供する。 画像内の各ピクセルを分類し、物体の輪郭や領域を 詳細に識別するタスクに使用される。 Object Detection - MXNet 単一の深層ニューラルネットワークを使用して、画像内のオブジェクトを 検出し分類する教師ありアルゴリズム。 画像内の複数のオブジェクトを検出し、それぞれに ラベルを付ける。 Object Detection - TensorFlow 画像内のバウンディングボックスとオブジェクトラベルを検出する教師あ りアルゴリズム。事前学習済みモデルを使用した転移学習をサポート。 画像内のオブジェクトを検出し、バウンディング ボックスとラベルを生成する。
  11. 主要なMLメトリクス 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html メトリクス 説明 用途 Recall 実際の正解の中で、どれだけ正しく予測できたかを示す。0から1の値をとり、1が最高のRecallを示す。 バイナリ分類で、特に見逃し(False Negative)のコストが高い場

    合に重要。例:がん検査。 Precision 真陽性(TP)の予測の中で、実際に正しかった割合。0から1の値をとり、1が最高の精度を示す。 バイナリ分類で、特に誤検知(False Positive)のコストが高い場 合に重要。例:安全システムの誤検知。 Accuracy 正しく分類された項目の数と、正しくない分類も含めた全項目数の比率。0から1までの値を取り、1が完全 な正確性を示し、0が完全な不正確性を示す。 バイナリおよび多クラス分類に使用され、予測されたクラス値が実 際の値にどれだけ近いかを測定する。 BalancedAccuracy 正解率を、真陽性(TP)と真陰性(TN)をそれぞれ正規化した後に計算する。特に、データセットが不均 衡な場合に、より正確な精度を示す。0から1の値をとる。 不均衡なデータセット(例:スパム検出)でのバイナリおよび多ク ラス分類に使用される。 AUC バイナリ分類モデルの性能を評価するために使用される、ROC曲線の下の面積。値は0から1の間で、1が完 全な予測精度を示し、0.5がランダム予測と同等であることを示す。 バイナリ分類で、特に確率を返すアルゴリズム(例:ロジスティッ ク回帰)の評価に使用される。 F1 PrecisionとRecallの調和平均。0から1の値をとり、1が最高の性能を示す。 バイナリ分類に使用され、特にクラス間の不均衡がある場合に、モ デルの全体的な性能を評価する。 • クラス分類で汎用的に使用されるメトリクス • 多クラス分類用のメトリクス メトリクス 説明 用途 F1macro F1スコアを多クラス分類に適用し、各クラスのF1スコアを平均して計算する。0から1の値をとり、1が最 高の性能を示す。 多クラス分類に使用され、各クラスに対するモデルの全体的な性能 を評価する。 PrecisionMacro 各クラスのPrecisionを計算し、それを平均して算出する。0から1の値をとり、1が最高の精度を示す。 多クラス分類で、モデルの全体的なPrecisionを評価する。 RecallMacro 各クラスのRecallを計算し、それを平均して算出する。0から1の値をとり、1が最高のRecallを示す。 多クラス分類で、モデルの全体的なRecallを評価する。 LogLoss 予測確率の品質を評価するためのメトリクス。値は0から無限大までで、0が完全予測を示す。 バイナリおよび多クラス分類で、確率出力の精度を評価する。特に、 ロジスティック回帰やニューラルネットワークで使用される。
  12. 主要なMLメトリクス 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html メトリクス 説明 用途 MAE (Mean Absolute Error)

    予測値と実際の値の平均絶対誤差。値は0から無限大までで、値が小さいほどモデルの精度が高い。 回帰分析で使用され、予測誤差の平均を評価する。 MSE (Mean Squared Error) 予測値と実際の値の二乗誤差の平均。値は常に正で、値が小さいほどモデルの精度が高い。 回帰分析で使用され、モデルの予測精度を評価する。 R2 (Coefficient of Determination) 回帰モデルが従属変数の分散をどれだけ説明できるかを定量化する。値は1から-1の間で、1に近いほどモ デルが良好であることを示す。0に近いとモデルがほとんど説明できないことを示す。 回帰分析で、モデルがどの程度データの変動を説明できるかを評価 する。 RMSE (Root Mean Squared Error) 予測値と実際の値の二乗誤差の平方根。値は0から無限大までで、値が小さいほどモデルの精度が高い。 回帰分析で、特に大きな誤差や外れ値を評価するために使用される。 • 回帰問題で汎用的に使用されるメトリクス • その他のメトリクス メトリクス 説明 用途 InferenceLatency モデルのリアルタイム予測リクエストに対する応答時間を秒単位で測定。 モデルの推論速度を評価し、特にエンドポイントでのリアルタイム 推論において使用される。
  13. 主要なMLメトリクス 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/timeseries-objective-metric.html メトリクス 説明 用途 RMSE (Root Mean Squared

    Error) 予測値と実際の値の二乗誤差の平方根を測定し、全ての値で平均化します。大きなモデ ル誤差や外れ値の存在を示す重要な指標です。値は0から無限大までで、小さいほどモ デルの適合性が良いことを示します。 回帰分析で、特に大きな誤差や外れ値があるかどうか を評価するために使用されます。 wQL (Weighted Quantile Loss) 予測されたP10、P50、P90の分位点と実際の値との加重絶対誤差を測定し、値が小さ いほど性能が良いことを示します。 予測モデルの精度を評価するために使用され、特に異 なる分位点に対する予測精度を測定します。 Average wQL P10、P50、P90の分位点における精度を平均して評価します。値が小さいほどモデル の精度が高いことを示します。 予測モデルの全体的な精度を評価するために使用され、 特に異なる分位点における予測のバランスを評価しま す。 MASE (Mean Absolute Scaled Error) 予測の平均絶対誤差を、単純なベースライン予測方法の平均絶対誤差で正規化したもの。 MASE < 1 はベースラインよりも優れたモデルを示し、MASE > 1 はベースラインより も劣ることを示します。 予測モデルがベースライン予測と比較してどれだけ優 れているかを評価するために使用されます。 MAPE (Mean Absolute Percent Error) 予測値と実際の値のパーセント誤差を全ての時点で平均化したもの。MAPE = 0 は誤差 がないモデルを示し、値が小さいほどモデルの精度が高いことを示します。 時系列予測で、予測値と実際の値のパーセント差を評 価するために使用されます。 WAPE (Weighted Absolute Percent Error) 予測値と実際の値の絶対誤差の合計を、実際のターゲット値の絶対値の合計で正規化し たもの。値が小さいほど予測値が実際の値に近いことを示します。 予測モデルの全体的な誤差を評価し、実際の値からの 予測値の偏差を測定するために使用されます。 • 時系列予測で使用されるメトリクス
  14. 主要なMLメトリクス メトリクス 説明 用途 Perplexity Loss テキストシーケンスにおいて、次の単語をどれだけ正確に予測できるかを測定するメト リクス。値が低いほど、言語と文脈をよりよく理解していることを示します。 言語モデルの性能評価に使用され、特に次の単語を予 測するタスク(例:文章生成)でモデルの理解度を測

    定します。 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 自然言語処理(NLP)や機械学習で、機械生成テキスト(例:要約や生成されたテキス ト)の品質を評価するために使用されるメトリクスのセット。生成されたテキストと人 間が作成した参照テキストとの類似性を評価します。 テキスト生成や要約タスクで、生成されたテキストが 参照テキストとどれだけ一致しているかを評価します。 ROUGE-1, ROUGE-2 ROUGE-Nは、システム生成テキストと参照テキストのn-gramの重複を測定します。n の値を1や2に設定して、生成されたテキストがn-gramをどれだけ正確に捉えているか を評価します。 生成されたテキストと参照テキストのn-gramの一致度 を評価します。 ROUGE-L システム生成テキストと参照テキストの間で、最長の共通部分列(Longest Common Subsequence)を計算します。このメトリクスは、内容の重複に加えて単語の順序も 考慮します。 単語の順序を考慮したテキスト生成タスク(例:文章 生成)の評価に使用されます。 ROUGE-L-Sum テキスト要約システムの評価に特化したメトリクスで、システム生成の要約と参照要約 の間で最長の共通部分列を計算します。単語の順序を考慮し、要約タスクにおける精度 を評価します。 テキスト要約タスクにおいて、生成された要約が参照 要約とどれだけ一致しているかを評価します。 BLEU (Bilingual Evaluation Understudy) BLEUは、機械翻訳やテキスト生成の評価に使用されるメトリクスで、システムが生成 したテキストと参照テキスト(人間が作成したテキスト)との間でn-gramの一致を測 定します。BLEUスコアは、生成されたテキストがどれだけ参照テキストに似ているか を評価し、0から1の範囲で示され、1に近いほど一致度が高いことを示します。 - 機械翻訳やテキスト生成(例:自動要約、対話シス テム)の評価に使用されます。<br>- 特に、生成され た文が参照文とどれだけ一致しているかを評価する際 に有効です。 BERTScore BERTScoreは、BERT(Bidirectional Encoder Representations from Transformers) を使用して、システム生成のテキストと参照テキストの単語埋め込みを比較します。 BLEUのようにn-gramの一致ではなく、文の意味的な類似性を考慮するため、文の意味 的な一致度をより正確に評価することができます。BERTScoreは、各単語の埋め込み ベクトルの類似度を基にスコアを計算します。 - 意味的な類似性を評価するため、機械翻訳、テキス ト生成、要約などのNLPタスクで使用されます。 <br>- 特に、文の意味が重要な場合にBLEUよりも優 れた評価を提供します。 • LLMのファインチューニングに使用されるメトリクス 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-llms-finetuning-metrics.html
  15. バイアスについて • バイアスとは多数種類があり、人間だけでなく機械学習モデルでも同様に問題になる バイアス名 説明 例 サンプリングバイアス 収集したデータが母集団全体を正確に反映していない ことに起因するバイアス ex)インターネット上でインターネット上のサー

    ビスに関するアンケートを取る 除外バイアス 特定のデータポイントやサンプルを意図的または無意 識に除外することで生じるバイアス ex)学校での成績調査で、欠席が多い生徒を除外 して成績の平均を計算する 測定バイアス 誤った方法や不正確な手段でデータを取得することに よるバイアス ex)腕の太さに合わない血圧計を使用すると血圧 が高めに測定される 想起バイアス 参加者が過去の出来事や経験を不正確に思い出すこと によって生じるバイアス ex)過去の食生活や生活習慣を自己申告で回答さ せる場合、病気にかかっている者の方が悪く回 答する 観察者バイアス データを収集・評価する際に、観察者の期待や先入観 が結果に影響を与えるバイアス ex)臨床試験で患者がわずかに良くなっただけで も、医師が「期待通りの結果だ」と解釈する 人種バイアス 人種に基づく偏見や差別的な態度が、意思決定や行動、 評価に影響を与えるバイアス ex)無意識に特定の人種の生徒に対して低い期待 を持ち、その結果、成績評価に影響を与える 連想バイアス ある特定の事象や人物に対して、無意識に関連性のな い特徴や行動を結びつけてしまうバイアス ex) 「看護師」という職業を聞いたときに、多く の人が無意識に「女性」を連想する 参考 ・https://note.com/lionbridge/n/n117331f3e7a8
  16. AWSにおけるAI/MLサービスの全体像 • 代表的なものはおおきく3つに分かれる • 生成AI系 • Bedrock:有効化すればすぐAPIとして使える • Amazon Q:よりマネージドだが、ちょっと毛色が違い、種類も色々あるので後述

    • SageMaker系 • SageMaker Canvas: 技術的な専門知識を持たない人でも利用可能な、 GUIでモデルトレーニング、デプロイまでできるノーコードツール • SageMaker JumpStart: エンジニアが使うことを想定した目的別テンプレート • SageMaker その他機能:別途一覧スライド参照 • 用途特化なマネージドサービス • Rekognition、Comprehend、Personalize、Transcribeなど • 別途こちらも一覧スライド参照
  17. 生成AIとは • 生成(Generative)とは • ユーザの質問(プロンプト)に基づいて、文章・画像などを生成(Generate)する • 指示はおおむね文章がメインで、サブ的に画像も使える • Amazon Bedrockとは

    • 平たく言うとAWSで使えるChatGPT(のAPI) • 実際には、AWS含む様々な企業のモデルがAPIとして使える環境 • これらを基盤モデル(FM)と言ったりもするので、Bedrockと呼称 • 主にはテキスト生成、画像生成、ベクトル化など 生成AI ・文章 ・画像 ・文章 ・画像
  18. 生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ • 入力と正解のペアで学習するため、データにない回答はできない • 根拠はないため、表現が自然であれば、間違った内容を返すことも(ハルシネーション/幻覚) Bedrock Superとは何です か?

    Bedrock Superは、Amazon Web Services (AWS)が提供する新しい サービスです。これは、AWSのフ ルマネージド型AIサービスである Amazon Bedrockの拡張版または高 性能版と考えられます。 ユーザの質問 予測された自然な続きの文章 存在しない機能!!
  19. 生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか? Bedrockは、AWSが提供する生成AI サービスです。 指示(プロンプト) 回答(レスポンス) ? 次に来そうな回答を予想する

    生成AI 参考 ・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザの リクエスト本体
  20. 生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか? Bedrockは、AWSが提供する生成AI サービスですにゃん。 指示(プロンプト) 回答(レスポンス) ? 次に来そうな回答を予想する

    生成AI 参考 ・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザの リクエスト本体 あなたはクラスメソッドの キャラクターくらにゃんです。 語尾に「にゃん」を付けてください システム プロンプト
  21. 生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか? Bedrockは、AWSが提供する生成AI サービスですにゃん。 指示(プロンプト) 回答(レスポンス) ? 次に来そうな回答を予想する

    生成AI 参考 ・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザの リクエスト本体 あなたはクラスメソッドの キャラクターくらにゃんです。 語尾に「にゃん」を付けてください システム プロンプト ここを試行錯誤することを プロンプトエンジニアリングという ここを試行錯誤することを プロンプトエンジニアリングという
  22. 生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか? Bedrockは、AWSが提供する生成AI サービスですにゃん。 指示(プロンプト) 回答(レスポンス) ? 次に来そうな回答を予想する

    生成AI 参考 ・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザの リクエスト本体 あなたはクラスメソッドの キャラクターくらにゃんです。 語尾に「にゃん」を付けてください システム プロンプト ここを試行錯誤することを プロンプトエンジニアリングという ここを試行錯誤することを プロンプトエンジニアリングという バリエーションを制御するパラメータが複数ある ・temperature(温度) ・top-k ・top-p いずれも小さくすればランダム性が下がる
  23. 生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか? Bedrockは、AWSが提供する生成AI サービスですにゃん。 指示(プロンプト) 回答(レスポンス) ? 次に来そうな回答を予想する

    生成AI 参考 ・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザの リクエスト本体 あなたはクラスメソッドの キャラクターくらにゃんです。 語尾に「にゃん」を付けてください システム プロンプト ここを試行錯誤することを プロンプトエンジニアリングという ここを試行錯誤することを プロンプトエンジニアリングという バリエーションを制御するパラメータが複数ある ・temperature(温度) ・top-k ・top-p いずれも小さくすればランダム性が下がる ここの文字数(トークン数)で課金される ・max_tokensで出力の長さを制御できる ・ここの文字数(トークン数)で課金される
  24. 生成AIの用語 • 生成AI関連な評価指標 • ROUGE:生成されたテキストと正解テキストの間の単語やフレーズの一致度を測定 • BLEU:機械翻訳の評価指標で、生成された翻訳と正解の翻訳の間の一致度を測定 • BERTScore:生成されたテキストと正解テキストの間の意味的な類似性を測定 •

    生成AI関連ではない評価指標 • 正解率、AUC、F1スコア • 参考 • https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html • https://docs.aws.amazon.com/sagemaker/latest/dg/timeseries-objective-metric.html • https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-llms-finetuning-metrics.html
  25. 生成AIのカスタマイズ • それぞれのカスタマイズ用途とBedrockとの関連付け カスタマイズ方式 説明 Bedrockとの紐づけ 用途 備考 プロンプトエンジニアリ ング

    指示(プロンプト)を ユーザが工夫 ユーザが実施するため、手法がド キュメントに記載 https://docs.aws.amazon.com/sagemaker/ latest/dg/jumpstart-foundation-models- customize-prompt-engineering.html 簡易な表現・ふる まいの修正 RAG(検索拡張生成) 検索した結果を指示(プ ロンプト)に入れる Bedrock Knowledge Basesとして 提供 https://docs.aws.amazon.com/ja_jp/bedro ck/latest/userguide/knowledge-base.html 社内ナレッジなど データにない知識 を元に回答させる ファインチューニング ラベル付きデータでその ラベルに特化した学習す る Bedrockのカスタマイズ機能で Fine-tuningとして提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 特定タスクに特化 Provisioned Throughputの購入 が必要(要するに 高価) 継続的事前学習 ラベルなしデータで事前 学習と同じように学習す る モデルのカスタマイズ機能で Continued Pre-training機能として 提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 根本的な表現の修 正、専門用語など Provisioned Throughputの購入 が必要(要するに 高価)
  26. 生成AIのカスタマイズ • プロンプトエンジニアリングとは • キーワードとしてのxxx-Shotについて • Few-Shot • 推論時にタスクに関する説明と少量の回答例を与える方式 •

    One-Shot • few-shotにおいて回答例の数が1つであるケース • Zero-Shot • タスクに関する説明のみが与えられ、回答例は全く与えられないケース
  27. 生成AIのカスタマイズ • ファインチューニングと継続的事前学習 • モデル自体を改変する方式 • ファインチューニング • 入力と正解のペアを使ったラベルあり学習 •

    特定のタスクに特化した調整 入力 正解 私はいつもハラショーさんを応援していま す。季節の変わり目ですので、どうか体調 にはお気をつけください。 オジサンはハラショーちゃんの味方だからね(^_^) (笑) 風邪ひかないようにネ (^o^) ハラショーさん、お久しぶりです。今日は 広島の気温が28度と非常に暑いです。暑さ で火傷しないよう、どうかお気をつけくだ さい。 ハラショーチャン、久しぶり(^_^) 今日は広島28度だよ ^^;(-_-;) 暑いよ(^_^;^^;( ̄Д ̄;;(T_T)ヤケドしない ように気をつけないとね (笑) 生成AI 学習 おじさん構文 変換AIができる
  28. 生成AIのカスタマイズ(再掲) • それぞれのカスタマイズ用途とBedrockとの関連付け カスタマイズ方式 説明 Bedrockとの紐づけ 用途 備考 プロンプトエンジニアリ ング

    指示(プロンプト)を ユーザが工夫 ユーザが実施するため、手法がド キュメントに記載 https://docs.aws.amazon.com/sagemaker/ latest/dg/jumpstart-foundation-models- customize-prompt-engineering.html 簡易な表現・ふる まいの修正 RAG(検索拡張生成) 検索した結果を指示(プ ロンプト)に入れる Bedrock Knowledge Basesとして 提供 https://docs.aws.amazon.com/ja_jp/bedro ck/latest/userguide/knowledge-base.html 社内ナレッジなど 学習データにない 知識を元に回答さ せる ファインチューニング ラベル付きデータでその ラベルに特化した学習す る Bedrockのカスタマイズ機能で Fine-tuningとして提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html あるタスクに特化 Provisioned Throughputの購入 が必要(要するに 高価) 継続的事前学習 ラベルなしデータで事前 学習と同じように学習す る モデルのカスタマイズ機能で Continued Pre-training機能として 提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 根本的な表現の修 正、専門用語など Provisioned Throughputの購入 が必要(要するに 高価)
  29. Bedrockの他サービス • Amazon Bedrock Knowledge Bases • BedrockのRAG機能。社内ナレッジなどモデル内部のデータに無い知識を元に回答させる • https://dev.classmethod.jp/articles/introduction-2024-amazon-bedrock-knowledge-bases/

    • https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/knowledge-base.html • Amazon Bedrock Agents • 自律エージェントを構築する機能 • より複雑な行動やツール(外部API、Web検索)を組み合わせられる • 外部APIの呼び出し、Web検索 • Knowledge Basesも使用可能 • https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/agents.html • https://dev.classmethod.jp/articles/introduction-2024-agents-for-amazon-bedrock/ • Amazon Bedrock Guardrails • 有害なユーザー入力と有害なモデルレスポンスをフィルタリングする機能 • https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/guardrails.html • https://dev.classmethod.jp/articles/introduction-2024-amazon-bedrock-guardrails/
  30. Bedrockの他サービス • エージェントの例 • これも結局、プロンプトエンジニアリングの進化版 • 各種判断や処理が必要なシーンで、別のプロンプトを使って内部的に処理する 沖縄に旅行に 行きたい。 チャット

    アプリ 観光地検索 Knowledge Bases 交通機関検索 宿泊施設検索 生成AI ・回答生成 ・どのツールを使うか判断 ・検索結果が問題ないか判断 ・情報が不足であればユーザに質問 ・選択肢の中からユーザに選ばせる ツール群として定義
  31. SageMakerについてはじめに • SageMakerの機能もとても多い • 試験ガイドに記載の機能をざっくり抑えよう • 読むべきもの • 公式ドキュメントの各機能における概要ページ •

    どこがその機能に該当するかを解説 • BlackBeltは興味があればでOK(全部読むと認定試験としては十分以上) • 理解しておくべき機能 • 推論タイプ • SageMaker Canvas • SageMaker JumpStart • SageMaker ModelMonitor • SageMaker ModelCard • その他機能は、早見表参照
  32. SageMakerの概要 • 生成AI以外もカバーする様々な機械学習モデルを構築できる • 最終的には何かを入力して、何かを予測するモノを作ることが目的 • 画像、テキスト、音声、様々な履歴データ 購買履歴 需要予測 SageMaker

    Canvas SageMaker JumpStart SageMaker その他 モデルを作って、本番稼働までできるサービス 推論モデル (endpoint) SageMaker その他 本番稼働後使用するサービス SageMaker Studio(必要モジュールが整ったAWS内の実行環境)
  33. SageMakerの全体観 SageMaker Canvas SageMaker JumpStart SageMaker その他 技術的な専門知識を持たない人でも利用可能で、 コーディング不要なノーコードGUIで データ前処理からMLモデル作成、デプロイが可能

    データサイエンティストや機械学習エンジニアが 迅速にプロジェクトを開始し、高度なモデルを 活用するための目的別ツール・テンプレート より発展的に開発者自身が処理をカスタマイズする用途 参考 ・https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/canvas.html ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-SageMaker-Canvas_0930_v1.pdf ・https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/studio-jumpstart.html
  34. SageMakerの推論タイプ • リアルタイム推論 • 60秒以内に終わる処理、データサイズも6MB以下 • 裏でサーバーが常時起動するため、デプロイ中ずっと料金が発生(高価) • サーバーレス推論 •

    60秒以内に終わる処理、データサイズも6MB以下 • たまにしか推論しない場合、リクエスト数が予測できない場合に当てはまる • レイテンシ要件が厳しい場合、コールドスタートがあるため向かないケースも • 非同期推論 • 1時間以内に終わる処理、データサイズは1GBまで • バッチ推論 • 数日の処理時間をサポート、データサイズも1GB以上に対応(最小でも100MB必要) 参考 ・https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-options ・https://pages.awscloud.com/rs/112-TZM-766/images/202208_AWS_Black_Belt_AWS_ML_Enablement_Dark_03.pdf ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Inference-Part-3_1014_v1.pdf
  35. SageMaker主要機能一覧表 • 一部のみ抜粋 機能名 内容 参考リンク 用途 SageMaker Role Manager

    SageMaker Studio(実行環境)のユー ザの権限を定義する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/role-manager.html ガバナンス SageMaker Model Card 学習したモデルの情報を提供する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/model-cards.html 説明性と透明性 SageMaker Model Dashboard SageMakerのリソースの使用状況の 確認やパフォーマンスの追跡をする機 能 https://docs.aws.amazon.com/sagemaker/latest/ dg/model-dashboard.html - SageMaker Model Monitor 稼働中の機械学習モデルの品質を監視 する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/jumpstart-foundation-models.html 監視 SageMaker Canvas モデル学習からデプロイまでをGUIで 行う機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/canvas.html ノーコード SageMaker Data Wrangler Canvas内で使うデータ前処理をGUI で行う機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/canvas-data-prep.html ノーコード SageMaker JumpStart エンジニアが使うモデル学習からデプ ロイまでを行うテンプレート https://docs.aws.amazon.com/sagemaker/latest/ dg/studio-jumpstart.html SageMaker Feature Store モデル学習に使用する特徴量を蓄積す る機能(Athenaを裏側で使う) https://docs.aws.amazon.com/sagemaker/latest/ dg/feature-store.html Augmented AI 機械学習の結果に対して人間による チェック含むワークフローを提供する 機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/a2i-use-augmented-ai-a2i-human-review- loops.html
  36. SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけ データ 取り込み 機械学習向け 特徴量変換 モデルの 学習 デプロイ

    データソース 推論モデル (endpoint) エンジニア向けテンプレ:SageMaker JumpStart ノーコード:SageMaker Canvas(+SageMaker Data Wrangler)
  37. SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけ データ 取り込み 機械学習向け 特徴量変換 モデルの 学習 デプロイ

    データソース 推論モデル (endpoint) エンジニア向けテンプレ:SageMaker JumpStart ノーコード:SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store
  38. SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけ データ 取り込み 機械学習向け 特徴量変換 モデルの 学習 デプロイ

    データソース 推論モデル (endpoint) エンジニア向けテンプレ:SageMaker JumpStart ノーコード:SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store 人間による正解 データ 正解ラベル付け:SageMaker Ground Truth
  39. SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけ データ 取り込み 機械学習向け 特徴量変換 モデルの 学習 デプロイ

    データソース 推論モデル (endpoint) エンジニア向けテンプレ:SageMaker JumpStart ノーコード:SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store 人間による正解 データ 正解ラベル付け:SageMaker Ground Truth SageMaker Model Monitor :監視 SageMaker Model Card 見える化 Augmented AI 信頼度の低い 結果の人間による レビュー
  40. SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけ データ 取り込み 機械学習向け 特徴量変換 モデルの 学習 デプロイ

    データソース SageMaker Feature Store 推論モデル (endpoint) エンジニア向けテンプレ:SageMaker JumpStart ノーコード:SageMaker Canvas(+SageMaker Data Wrangler) 人間による正解 データ SageMaker Model Monitor :監視 SageMaker Model Card 見える化 実行環境が提供:SageMaker Studio、権限管理:SageMaker Role Manager 正解ラベル付け:SageMaker Ground Truth Augmented AI 信頼度の低い 結果の人間による レビュー
  41. SageMaker主要機能の補足 • Model Monitorだけ少し深堀 購買履歴 需要予測 推論モデル (endpoint) 本番稼働中のモデル 参考

    ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf
  42. SageMaker主要機能の補足 • Model Monitorだけ少し深堀 購買履歴 需要予測 推論モデル (endpoint) 本番稼働中のモデル ・入力の分布(特性)変わってないか監視

    ・入力が変わることをドリフトという ・異常な値の監視などもこれ 参考 ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf
  43. SageMaker主要機能の補足 • Model Monitorだけ少し深堀 購買履歴 需要予測 推論モデル (endpoint) 本番稼働中のモデル ・入力の分布(特性)変わってないか監視

    ・入力が変わることをドリフトという ・異常な値の監視などもこれ ・予測の精度が変わってないか監視 参考 ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf
  44. SageMaker主要機能の補足 • Model Monitorだけ少し深堀 購買履歴 需要予測 推論モデル (endpoint) 本番稼働中のモデル ・予測の精度が変わってないか監視

    ・判断基準が変わってないか監視 ・バイアスが発生してないか確認 裏側では、SageMaker Clarifyが担う機能 ・入力の分布(特性)変わってないか監視 ・入力が変わることをドリフトという ・異常な値の監視などもこれ 参考 ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf
  45. 主要マネージドサービス一覧表 • 一部抜粋 • マネージドだが一部のカスタマイズ機能も提供している 機能名 内容 用途 Rekognition 画像や動画を分析するサービス

    画像認識(顔認識、モノの数のカウント) 有害な画像の判断 Personalize 履歴に基づいてレコメンドを実施するサービス 動画配信サイトやECサイトのあなたへのオススメ Textract 画像やPDFからテキストを抽出するサービス 請求書や領収書のデータ化 Comprehend テキストを分析するサービス テキストの感情分析、人名など固有名詞等の検出 Polly テキストを音声に変換するサービス AIアシスタントに喋らせる、自動アナウンス Kendra 意味とコンテキストを理解して検索するサービス 近年は生成AIのRAGとして需要が高い Lex 言語理解・音声認識を行いチャットボットを作成するサー ビス チャットボット Translate 複数言語間でテキストを翻訳するサービス 翻訳 Transcribe 音声をテキストに変換するサービス 会話の自動書き起こし Macie S3の個人情報や機密データを検出して分類・保護するサー ビス コンプライアンス対応 Fraud Detector 不正行為(詐欺)の検出を自動化するサービス クレジットカード詐欺、アカウント乗っ取り、不正 な新規アカウント作成などの検出
  46. 試験ガイドに記載されているその他機能 • ガバナンスとコンプライアンス • AWS Config: リソースの設定変更を追跡・監査するサービス • Amazon Inspector:

    セキュリティ脆弱性の自動スキャンサービス • AWS Audit Manager: 監査プロセスを自動化するためのツール • AWS Artifact: コンプライアンス関連のドキュメント提供サービス (機械学習モデルの第三者評価などの文脈で使用される機能) • AWS CloudTrail: APIコールのログ記録・監査サービス • AWS Trusted Advisor: AWSベストプラクティスに基づくリソース最適化の提案ツール