AIF勉強会

簡単に自己紹介 • 中村 • ﾊﾗｼｮ- (社内通称) • @nokomoro3 (ブログ, SNS)
• 所属 • データ事業本部インテグレーション部機械学習チーム • 東京オフィス • 仕事元組み込み信号処理エンジニア浅く機械学習をさわりはじめて10年程度いまも機械学習案件に従事 • 近況お高めの酒を少量のむことを覚えた

社内向けの勉強会の内容 • AI/ML一般知識 • AWSにおけるAI/MLサービス全体像 • 生成AI用語 + Bedrockのポイント解説 •
SageMakerのポイント解説 • その他マネージドサービスのおさらい

AI/ML一般知識

AIってそもそも何？ AI(人工知能) ML(機械学習) DL(深層学習) GENAI (生成AI) • AI • 人間の行動を模擬したもの
• アシスタント、医療診断、将棋AI • ML • 明示的な判断手続きを定義することなくデータからパターンや傾向を学習して予測や決定を行うアルゴリズムの総称 • 画像認識、音声認識、自然言語処理、推薦システム • DL • 機械学習技術の一つで、特徴量抽出を自動化し、より大規模で複雑なタスクにスケールできるよう、シンプルなニューラルネットの組み合わせで実現 • その構造でCNNやTransformerなど様々な種類がある • 生成AI • より広範なタスクや大規模なデータセットで Transformerを学習することで学習データに類似したコンテンツを生成できるようにしたもの • 主に自然言語で処理可能な汎用的なタスクに対応できるため学習をせずに様々な用途に使用できる

主要なMLパイプラインデータ収集前処理・特徴量変換モデルの学習モデル評価デプロイモニタリング
参考・https://docs.aws.amazon.com/wellarchitected/latest/machine-learning-lens/ml-lifecycle-architecture-diagram.html

深層学習の用語 • データの分割 • データセットは３つに分けられる • 学習データ：深層学習モデル内のパラメータの更新に使用される • 検証データ：学習時に過学習が起きないかどうかを検証するために用いる •
テストデータ：学習終了後の評価に使用される • 検証データを用いないケースも存在する学習データ検証データテストデータ広義の学習データ（学習過程で使用されるため）

深層学習の用語 • 学習過程とミニバッチとエポック数学習データミニバッチに分割ミニバッチ内に入力と正解のペアがバッチサイズ分(ex. 12個)ある GPUなどのハードウェアに読み込み
学習中のモデル 12個の予測が得られるので、 12個の正解と誤差を計算この誤差が小さくなるようにモデルを更新・各パラメータの微分に負の符号を掛けて、さらにある学習係数をかけて更新・この更新方法を再急降下法のミニバッチ版、確率的勾配降下法と呼ぶこの処理を各ミニバッチについて繰り返し実施さらに学習データをミニバッチに分割しなおして、再度全学習データを繰り返し処理するこの繰り返し回数をエポック数と呼ぶ。予測更新

深層学習の用語 • 学習過程における損失（誤差）の推移 • 誤差計算において、学習データと検証データ双方の誤差を計算損失（誤差）エポック数検証データの誤差学習データの誤差検証データの誤差が最小のエポックで
学習を打ち切ることをearly-stoppingというここだと検証データの結果が悪いため過学習（オーバーフィッティング）ここだと学習データの誤差が十分に低下していないため、アンダーフィッティング

深層学習の用語 • 学習におけるトラブルシューティングお困りごと原因対策損失が減少しない、または発散する損失が途中で急増する学習係数が大きすぎる・学習率を小さくする（例：0.01
→ 0.001）・学習率スケジューリングを導入して、段階的に減少させるバッチサイズが小さすぎる・バッチサイズを大きくして、勾配の推定をより安定させる（例：32 → 128）学習が遅い、収束に時間がかかる学習係数が小さすぎる・学習率を大きくする（例：0.0001 → 0.001）・AdamやRMSPropなどの動的学習率を持つオプティマイザを使用バッチサイズが小さすぎる・バッチサイズを大きくする（例：32 → 128）ハードウェアの性能不足・ハードウェアの性能（GPU/TPU）を見直すモデルが過学習している（訓練データには高精度、テストデータには低精度）エポック数が多すぎる・早期終了（Early Stopping）を導入して、検証データの損失が改善しなくなった時点で学習を停止正規化が不足している・ドロップアウトやL2正則化を適用して汎化性能を向上させるデータが不十分・データ拡張を行い、訓練データを増やすモデルが未学習（訓練データにもテストデータにも低精度）学習係数が小さすぎる・学習率を大きくするエポック数が少なすぎる・エポック数を増やす（例：50 → 100）モデルが複雑すぎる・モデルの層を減らす、またはより単純なアーキテクチャを使用するモデルが単純すぎる・モデルの層を増やす、またはより複雑なアーキテクチャを使用するデータが不十分・データ拡張を行い、訓練データを増やす局所最適解に陥っている・モデルの初期化方法を工夫する（例：Xavier初期化、He初期化）勾配消失や勾配爆発が発生している・バッチ正規化（Batch Normalization）を導入して、各層で正規化するメモリ不足（Out of Memory）エラーが発生するバッチサイズが大きすぎる・バッチサイズを小さくする（例：512 → 64）・メモリ効率の良いデータローディング方法を検討するデータの不均衡により、特定のクラスに偏った予測をするデータセットが不均衡（特定のクラスが少なすぎる）・クラスのバランスを取るために、オーバーサンプリングやアンダーサンプリングを行う・データの少ないクラスのデータを集める・重み付け損失関数を使用する

• テーブルデータに対する教師あり学習モデル主要なMLモデルアルゴリズム/フレームワーク説明用途 Linear Learner (線形回帰、ロジスティック回帰) 回帰のために線形関数を、分類のために線形しきい値関数（ロジスティッ
ク回帰）を学習するアルゴリズム。線形回帰や線形分類タスクに対して、シンプルかつ解釈可能なモデルを構築する。 K-Nearest Neighbors (k-NN) k個の最も近いラベル付きポイントを使用して値を割り当てる非パラメトリック手法。分類ではラベル、回帰では平均値を算出。分類や回帰タスクにおいて、特に小規模なデータセットに対して簡単に適用可能なアルゴリズム。 Factorization Machines 高次元のスパースなデータセット内で特徴間の相互作用を経済的に捉えるために設計された、線形モデルの拡張。レコメンデーションシステムや広告のクリック予測など、スパースなデータセットにおける特徴間の相互作用を捉える。 XGBoost より単純で弱いモデルのセットからの推定値をアンサンブルする、勾配ブースト決定木アルゴリズムの実装。高精度な分類や回帰タスクに対して、効率的かつ強力なモデルを構築する。 LightGBM 勾配ブースト決定木アルゴリズムの実装で、Gradient-based One-Side Sampling (GOSS) と Exclusive Feature Bundling (EFB) という効率的な技術を導入。大規模データセットに対して、効率的かつ高速な分類や回帰モデルを構築する。 CatBoost 順序付きブースティングとカテゴリカル特徴を処理する革新的なアルゴリズムを導入した、勾配ブースト決定木アルゴリズム。カテゴリカルデータを含むデータセットに対して、高精度な分類や回帰モデルを構築する。 AutoGluon-Tabular モデルのアンサンブリングと複数レイヤーでのスタッキングにより成功する、オープンソースのAutoMLフレームワーク。自動機械学習（AutoML）を通じて、表形式データに対して最適なモデルを自動的に構築し、予測を行う。 TabTransformer 自己注意（Self-Attention）に基づくトランスフォーマーを使用して構築された、新しい深層学習による表形式データモデリングアーキテクチャ。表形式データ（タブラー形式）に対して深層学習を適用し、高度なパターンを捉える。参考・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-tabular.html

主要なMLモデル参考・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-text.html ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-time-series.html アルゴリズム/フレームワーク説明用途 BlazingText Word2vecおよびテキスト分類アルゴリズムの高度に最適化された実装で、大規模なデータセットにスケール可能。
自然言語処理（NLP）タスク、特に単語埋め込みやテキスト分類に使用される。 Latent Dirichlet Allocation (LDA) ドキュメントのセット内のトピックを特定するための教師なしアルゴリズム。文書のトピックモデリングに使用され、ニュース記事やレポートなどのトピック分析に適している。 Neural Topic Model (NTM) ニューラルネットワークを使用してトピックを特定するための教師なし手法。トピックモデリングに使用され、LDAとは異なるニューラルネットワークアプローチを採用している。 Object2Vec 高次元オブジェクトの低次元埋め込みを学習し、下流モデルのトレーニング効率を向上させる特徴を生成する多目的アルゴリズム。高次元データの埋め込みを学習し、特徴エンジニアリングや類似性分析に使用される。 Sequence-to-Sequence ニューラル機械翻訳に一般的に使用される教師ありアルゴリズム。機械翻訳や文書生成など、シーケンスデータの変換タスクに使用される。 Text Classification - TensorFlow 事前学習済みモデルを使用した転移学習をサポートするテキスト分類のための教師ありアルゴリズム。テキスト分類タスクに使用され、転移学習を活用して効率的にモデルを構築できる。 • テキスト分析 • 時系列分析アルゴリズム/フレームワーク説明用途 DeepAR Forecasting 再帰型ニューラルネットワーク（RNN）を使用して、スカラー（一次元）時系列を予測するための教師あり学習アルゴリズム。時系列データの予測に特化し、需要予測や売上予測などに応用される。

主要なMLモデル参考・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-unsupervised.html ・https://docs.aws.amazon.com/sagemaker/latest/dg/algorithms-vision.html アルゴリズム/フレームワーク説明用途 IP Insights IPv4アドレスの使用パターンを学習し、IPv4アドレスとユーザーIDやアカ
ウント番号などのエンティティ間の関連を捉える。不正検出や異常なIPアドレスの使用パターンを特定するために使用される。 K-Means データ内の離散的なグループを見つけ、グループ内のメンバーが互いに似ており、他のグループとは異なるようにする。クラスタリングに使用され、データポイントをk個のグループに分けるために使用される。 Principal Component Analysis (PCA) データセット内の次元を削減し、データポイントを主成分に投影して、できるだけ多くの情報や変動を保持する。次元削減を行い、データの可視化や、モデルの計算効率を向上させるために使用される。 Random Cut Forest (RCF) 規則的またはパターン化されたデータから逸脱する異常なデータポイントを検出する。異常検知に使用され、特に異常なデータ点や外れ値を検出するタスクに適している。 • 教師なし学習（Unsupervised learning） • 画像分析アルゴリズム/フレームワーク説明用途 Image Classification - MXNet 解答付きのデータを使用する教師ありアルゴリズム。画像を分類するために使用される。画像分類タスクに使用され、特定のクラスに画像を分類する。 Image Classification - TensorFlow 事前学習済みのTensorFlow Hubモデルを使用して特定のタスクに微調整する教師ありアルゴリズム。画像分類タスクに使用され、転移学習を活用して効率的にモデルを構築できる。 Semantic Segmentation コンピュータビジョンアプリケーションを開発するための、細かいピクセルレベルでのアプローチを提供する。画像内の各ピクセルを分類し、物体の輪郭や領域を詳細に識別するタスクに使用される。 Object Detection - MXNet 単一の深層ニューラルネットワークを使用して、画像内のオブジェクトを検出し分類する教師ありアルゴリズム。画像内の複数のオブジェクトを検出し、それぞれにラベルを付ける。 Object Detection - TensorFlow 画像内のバウンディングボックスとオブジェクトラベルを検出する教師ありアルゴリズム。事前学習済みモデルを使用した転移学習をサポート。画像内のオブジェクトを検出し、バウンディングボックスとラベルを生成する。

主要なMLメトリクス参考・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html メトリクス説明用途 Recall 実際の正解の中で、どれだけ正しく予測できたかを示す。0から1の値をとり、1が最高のRecallを示す。バイナリ分類で、特に見逃し（False Negative）のコストが高い場
合に重要。例：がん検査。 Precision 真陽性（TP）の予測の中で、実際に正しかった割合。0から1の値をとり、1が最高の精度を示す。バイナリ分類で、特に誤検知（False Positive）のコストが高い場合に重要。例：安全システムの誤検知。 Accuracy 正しく分類された項目の数と、正しくない分類も含めた全項目数の比率。0から1までの値を取り、1が完全な正確性を示し、0が完全な不正確性を示す。バイナリおよび多クラス分類に使用され、予測されたクラス値が実際の値にどれだけ近いかを測定する。 BalancedAccuracy 正解率を、真陽性（TP）と真陰性（TN）をそれぞれ正規化した後に計算する。特に、データセットが不均衡な場合に、より正確な精度を示す。0から1の値をとる。不均衡なデータセット（例：スパム検出）でのバイナリおよび多クラス分類に使用される。 AUC バイナリ分類モデルの性能を評価するために使用される、ROC曲線の下の面積。値は0から1の間で、1が完全な予測精度を示し、0.5がランダム予測と同等であることを示す。バイナリ分類で、特に確率を返すアルゴリズム（例：ロジスティック回帰）の評価に使用される。 F1 PrecisionとRecallの調和平均。0から1の値をとり、1が最高の性能を示す。バイナリ分類に使用され、特にクラス間の不均衡がある場合に、モデルの全体的な性能を評価する。 • クラス分類で汎用的に使用されるメトリクス • 多クラス分類用のメトリクスメトリクス説明用途 F1macro F1スコアを多クラス分類に適用し、各クラスのF1スコアを平均して計算する。0から1の値をとり、1が最高の性能を示す。多クラス分類に使用され、各クラスに対するモデルの全体的な性能を評価する。 PrecisionMacro 各クラスのPrecisionを計算し、それを平均して算出する。0から1の値をとり、1が最高の精度を示す。多クラス分類で、モデルの全体的なPrecisionを評価する。 RecallMacro 各クラスのRecallを計算し、それを平均して算出する。0から1の値をとり、1が最高のRecallを示す。多クラス分類で、モデルの全体的なRecallを評価する。 LogLoss 予測確率の品質を評価するためのメトリクス。値は0から無限大までで、0が完全予測を示す。バイナリおよび多クラス分類で、確率出力の精度を評価する。特に、ロジスティック回帰やニューラルネットワークで使用される。

主要なMLメトリクス参考・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html メトリクス説明用途 MAE (Mean Absolute Error)
予測値と実際の値の平均絶対誤差。値は0から無限大までで、値が小さいほどモデルの精度が高い。回帰分析で使用され、予測誤差の平均を評価する。 MSE (Mean Squared Error) 予測値と実際の値の二乗誤差の平均。値は常に正で、値が小さいほどモデルの精度が高い。回帰分析で使用され、モデルの予測精度を評価する。 R2 (Coefficient of Determination) 回帰モデルが従属変数の分散をどれだけ説明できるかを定量化する。値は1から-1の間で、1に近いほどモデルが良好であることを示す。0に近いとモデルがほとんど説明できないことを示す。回帰分析で、モデルがどの程度データの変動を説明できるかを評価する。 RMSE (Root Mean Squared Error) 予測値と実際の値の二乗誤差の平方根。値は0から無限大までで、値が小さいほどモデルの精度が高い。回帰分析で、特に大きな誤差や外れ値を評価するために使用される。 • 回帰問題で汎用的に使用されるメトリクス • その他のメトリクスメトリクス説明用途 InferenceLatency モデルのリアルタイム予測リクエストに対する応答時間を秒単位で測定。モデルの推論速度を評価し、特にエンドポイントでのリアルタイム推論において使用される。

主要なMLメトリクス参考・https://docs.aws.amazon.com/sagemaker/latest/dg/timeseries-objective-metric.html メトリクス説明用途 RMSE (Root Mean Squared
Error) 予測値と実際の値の二乗誤差の平方根を測定し、全ての値で平均化します。大きなモデル誤差や外れ値の存在を示す重要な指標です。値は0から無限大までで、小さいほどモデルの適合性が良いことを示します。回帰分析で、特に大きな誤差や外れ値があるかどうかを評価するために使用されます。 wQL (Weighted Quantile Loss) 予測されたP10、P50、P90の分位点と実際の値との加重絶対誤差を測定し、値が小さいほど性能が良いことを示します。予測モデルの精度を評価するために使用され、特に異なる分位点に対する予測精度を測定します。 Average wQL P10、P50、P90の分位点における精度を平均して評価します。値が小さいほどモデルの精度が高いことを示します。予測モデルの全体的な精度を評価するために使用され、特に異なる分位点における予測のバランスを評価します。 MASE (Mean Absolute Scaled Error) 予測の平均絶対誤差を、単純なベースライン予測方法の平均絶対誤差で正規化したもの。 MASE < 1 はベースラインよりも優れたモデルを示し、MASE > 1 はベースラインよりも劣ることを示します。予測モデルがベースライン予測と比較してどれだけ優れているかを評価するために使用されます。 MAPE (Mean Absolute Percent Error) 予測値と実際の値のパーセント誤差を全ての時点で平均化したもの。MAPE = 0 は誤差がないモデルを示し、値が小さいほどモデルの精度が高いことを示します。時系列予測で、予測値と実際の値のパーセント差を評価するために使用されます。 WAPE (Weighted Absolute Percent Error) 予測値と実際の値の絶対誤差の合計を、実際のターゲット値の絶対値の合計で正規化したもの。値が小さいほど予測値が実際の値に近いことを示します。予測モデルの全体的な誤差を評価し、実際の値からの予測値の偏差を測定するために使用されます。 • 時系列予測で使用されるメトリクス

主要なMLメトリクスメトリクス説明用途 Perplexity Loss テキストシーケンスにおいて、次の単語をどれだけ正確に予測できるかを測定するメトリクス。値が低いほど、言語と文脈をよりよく理解していることを示します。言語モデルの性能評価に使用され、特に次の単語を予測するタスク（例：文章生成）でモデルの理解度を測
定します。 ROUGE (Recall-Oriented Understudy for Gisting Evaluation) 自然言語処理（NLP）や機械学習で、機械生成テキスト（例：要約や生成されたテキスト）の品質を評価するために使用されるメトリクスのセット。生成されたテキストと人間が作成した参照テキストとの類似性を評価します。テキスト生成や要約タスクで、生成されたテキストが参照テキストとどれだけ一致しているかを評価します。 ROUGE-1, ROUGE-2 ROUGE-Nは、システム生成テキストと参照テキストのn-gramの重複を測定します。n の値を1や2に設定して、生成されたテキストがn-gramをどれだけ正確に捉えているかを評価します。生成されたテキストと参照テキストのn-gramの一致度を評価します。 ROUGE-L システム生成テキストと参照テキストの間で、最長の共通部分列（Longest Common Subsequence）を計算します。このメトリクスは、内容の重複に加えて単語の順序も考慮します。単語の順序を考慮したテキスト生成タスク（例：文章生成）の評価に使用されます。 ROUGE-L-Sum テキスト要約システムの評価に特化したメトリクスで、システム生成の要約と参照要約の間で最長の共通部分列を計算します。単語の順序を考慮し、要約タスクにおける精度を評価します。テキスト要約タスクにおいて、生成された要約が参照要約とどれだけ一致しているかを評価します。 BLEU (Bilingual Evaluation Understudy) BLEUは、機械翻訳やテキスト生成の評価に使用されるメトリクスで、システムが生成したテキストと参照テキスト（人間が作成したテキスト）との間でn-gramの一致を測定します。BLEUスコアは、生成されたテキストがどれだけ参照テキストに似ているかを評価し、0から1の範囲で示され、1に近いほど一致度が高いことを示します。 - 機械翻訳やテキスト生成（例：自動要約、対話システム）の評価に使用されます。<br>- 特に、生成された文が参照文とどれだけ一致しているかを評価する際に有効です。 BERTScore BERTScoreは、BERT（Bidirectional Encoder Representations from Transformers）を使用して、システム生成のテキストと参照テキストの単語埋め込みを比較します。 BLEUのようにn-gramの一致ではなく、文の意味的な類似性を考慮するため、文の意味的な一致度をより正確に評価することができます。BERTScoreは、各単語の埋め込みベクトルの類似度を基にスコアを計算します。 - 意味的な類似性を評価するため、機械翻訳、テキスト生成、要約などのNLPタスクで使用されます。 <br>- 特に、文の意味が重要な場合にBLEUよりも優れた評価を提供します。 • LLMのファインチューニングに使用されるメトリクス参考・https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-llms-finetuning-metrics.html

バイアスについて • バイアスとは多数種類があり、人間だけでなく機械学習モデルでも同様に問題になるバイアス名説明例サンプリングバイアス収集したデータが母集団全体を正確に反映していないことに起因するバイアス ex)インターネット上でインターネット上のサー
ビスに関するアンケートを取る除外バイアス特定のデータポイントやサンプルを意図的または無意識に除外することで生じるバイアス ex)学校での成績調査で、欠席が多い生徒を除外して成績の平均を計算する測定バイアス誤った方法や不正確な手段でデータを取得することによるバイアス ex)腕の太さに合わない血圧計を使用すると血圧が高めに測定される想起バイアス参加者が過去の出来事や経験を不正確に思い出すことによって生じるバイアス ex)過去の食生活や生活習慣を自己申告で回答させる場合、病気にかかっている者の方が悪く回答する観察者バイアスデータを収集・評価する際に、観察者の期待や先入観が結果に影響を与えるバイアス ex)臨床試験で患者がわずかに良くなっただけでも、医師が「期待通りの結果だ」と解釈する人種バイアス人種に基づく偏見や差別的な態度が、意思決定や行動、評価に影響を与えるバイアス ex)無意識に特定の人種の生徒に対して低い期待を持ち、その結果、成績評価に影響を与える連想バイアスある特定の事象や人物に対して、無意識に関連性のない特徴や行動を結びつけてしまうバイアス ex) 「看護師」という職業を聞いたときに、多くの人が無意識に「女性」を連想する参考・https://note.com/lionbridge/n/n117331f3e7a8

AWSにおけるAI/MLサービス全体像

AWSにおけるAI/MLサービスの全体像

AWSにおけるAI/MLサービスの全体像めっちゃ多い！！

AWSにおけるAI/MLサービスの全体像 • 代表的なものはおおきく３つに分かれる • 生成AI系 • Bedrock：有効化すればすぐAPIとして使える • Amazon Q：よりマネージドだが、ちょっと毛色が違い、種類も色々あるので後述
• SageMaker系 • SageMaker Canvas：技術的な専門知識を持たない人でも利用可能な、 GUIでモデルトレーニング、デプロイまでできるノーコードツール • SageMaker JumpStart：エンジニアが使うことを想定した目的別テンプレート • SageMaker その他機能：別途一覧スライド参照 • 用途特化なマネージドサービス • Rekognition、Comprehend、Personalize、Transcribeなど • 別途こちらも一覧スライド参照

生成AI用語＋ Bedrockポイント解説

生成AIとは • 生成（Generative）とは • ユーザの質問（プロンプト）に基づいて、文章・画像などを生成（Generate）する • 指示はおおむね文章がメインで、サブ的に画像も使える生成AI ・文章・画像
・文章・画像

生成AIとは • 生成（Generative）とは • ユーザの質問（プロンプト）に基づいて、文章・画像などを生成（Generate）する • 指示はおおむね文章がメインで、サブ的に画像も使える • Amazon Bedrockとは
• 平たく言うとAWSで使えるChatGPT（のAPI） • 実際には、AWS含む様々な企業のモデルがAPIとして使える環境 • これらを基盤モデル(FM)と言ったりもするので、Bedrockと呼称 • 主にはテキスト生成、画像生成、ベクトル化など生成AI ・文章・画像・文章・画像

生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ Bedrockとは何ですか？ Bedrockは、AWSが提供する生成AI サービスです。…以降略… ユーザの質問予測された自然な続きの文章

生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ • 入力と正解のペアで学習するため、データにない回答はできないユーザの質問正解の自然な続きの文章生成AI 学習ペア
学習セット (Webの公開情報など）未学習セット (社内情報など）

生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ • 入力と正解のペアで学習するため、データにない回答はできない • 根拠はないため、表現が自然であれば、間違った内容を返すことも（ハルシネーション/幻覚） Bedrock Superとは何ですか？
Bedrock Superは、Amazon Web Services (AWS)が提供する新しいサービスです。これは、AWSのフルマネージド型AIサービスである Amazon Bedrockの拡張版または高性能版と考えられます。ユーザの質問予測された自然な続きの文章存在しない機能！！

生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ • 入力と正解のペアで学習するため、データにない回答はできない • 根拠はないため、表現が自然であれば、間違った内容を返すことも（ハルシネーション/幻覚） • 自然な続きは一つではないので、回答にランダム性がある今日の晩御飯のメニューは
何が良いかな？親子丼ユーザの質問予測された自然な続きの文章今日の晩御飯のメニューは何が良いかな？カレーライス

生成AIの制約 • 基本的な仕組みはユーザの質問に「自然な続き」を予測するだけ • 入力と正解のペアで学習するため、データにない回答はできない • 根拠はないため、表現が自然であれば、間違った内容を返すことも（ハルシネーション/幻覚） • 自然な続きは一つではないので、回答にランダム性がある今日の晩御飯のメニューは
何が良いかな？親子丼ユーザの質問予測された自然な続きの文章今日の晩御飯のメニューは何が良いかな？カレーライスこれらの制約回避のために、各種パラメータやカスタマイズ方式がある

生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか？ Bedrockは、AWSが提供する生成AI サービスです。指示（プロンプト）回答（レスポンス）？次に来そうな回答を予想する
生成AI 参考・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザのリクエスト本体

生成AIの用語 • 基本的なフローとパラメータ Bedrockとは何ですか？ Bedrockは、AWSが提供する生成AI サービスですにゃん。指示（プロンプト）回答（レスポンス）？次に来そうな回答を予想する
生成AI 参考・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザのリクエスト本体あなたはクラスメソッドのキャラクターくらにゃんです。語尾に「にゃん」を付けてくださいシステムプロンプト

生成AI 参考・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザのリクエスト本体あなたはクラスメソッドのキャラクターくらにゃんです。語尾に「にゃん」を付けてくださいシステムプロンプトここを試行錯誤することをプロンプトエンジニアリングというここを試行錯誤することをプロンプトエンジニアリングという

生成AI 参考・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザのリクエスト本体あなたはクラスメソッドのキャラクターくらにゃんです。語尾に「にゃん」を付けてくださいシステムプロンプトここを試行錯誤することをプロンプトエンジニアリングというここを試行錯誤することをプロンプトエンジニアリングというバリエーションを制御するパラメータが複数ある・temperature（温度）・top-k ・top-p いずれも小さくすればランダム性が下がる

生成AI 参考・https://docs.aws.amazon.com/bedrock/latest/userguide/key-definitions.html ・https://docs.aws.amazon.com/bedrock/latest/userguide/inference-parameters.html ユーザのリクエスト本体あなたはクラスメソッドのキャラクターくらにゃんです。語尾に「にゃん」を付けてくださいシステムプロンプトここを試行錯誤することをプロンプトエンジニアリングというここを試行錯誤することをプロンプトエンジニアリングというバリエーションを制御するパラメータが複数ある・temperature（温度）・top-k ・top-p いずれも小さくすればランダム性が下がるここの文字数(トークン数)で課金される・max_tokensで出力の長さを制御できる・ここの文字数(トークン数)で課金される

生成AIの用語 • 生成AI関連な評価指標 • ROUGE：生成されたテキストと正解テキストの間の単語やフレーズの一致度を測定 • BLEU：機械翻訳の評価指標で、生成された翻訳と正解の翻訳の間の一致度を測定 • BERTScore：生成されたテキストと正解テキストの間の意味的な類似性を測定 •
生成AI関連ではない評価指標 • 正解率、AUC、F1スコア • 参考 • https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-metrics-validation.html • https://docs.aws.amazon.com/sagemaker/latest/dg/timeseries-objective-metric.html • https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-llms-finetuning-metrics.html

生成AIのカスタマイズ • それぞれのカスタマイズ用途とBedrockとの関連付けカスタマイズ方式説明 Bedrockとの紐づけ用途備考プロンプトエンジニアリング
指示（プロンプト）をユーザが工夫ユーザが実施するため、手法がドキュメントに記載 https://docs.aws.amazon.com/sagemaker/ latest/dg/jumpstart-foundation-models- customize-prompt-engineering.html 簡易な表現・ふるまいの修正 RAG（検索拡張生成）検索した結果を指示（プロンプト）に入れる Bedrock Knowledge Basesとして提供 https://docs.aws.amazon.com/ja_jp/bedro ck/latest/userguide/knowledge-base.html 社内ナレッジなどデータにない知識を元に回答させるファインチューニングラベル付きデータでそのラベルに特化した学習する Bedrockのカスタマイズ機能で Fine-tuningとして提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 特定タスクに特化 Provisioned Throughputの購入が必要（要するに高価）継続的事前学習ラベルなしデータで事前学習と同じように学習するモデルのカスタマイズ機能で Continued Pre-training機能として提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 根本的な表現の修正、専門用語など Provisioned Throughputの購入が必要（要するに高価）

生成AIのカスタマイズ • プロンプトエンジニアリングとは • キーワードとしてのxxx-Shotについて • Few-Shot • 推論時にタスクに関する説明と少量の回答例を与える方式 •
One-Shot • few-shotにおいて回答例の数が1つであるケース • Zero-Shot • タスクに関する説明のみが与えられ、回答例は全く与えられないケース

生成AIのカスタマイズ • RAGとは：プロンプトエンジニアリングの進化版検索を使って、プロンプトエンジニアリングを自動化する参考：https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2024_Amazon-Bedrock-Knowledge-Bases_0920_v1.pdf 有休休暇の付与ルールを教えてチャットアプリ社内文書
（就業規則等） ②検索 ①リクエスト ③文書生成AI ④文書を元にした回答作成を依頼 ⑤回答 ⑥レスポンス Bedrock Knowledge Basesとしてこれを提供

生成AIのカスタマイズ • ファインチューニングと継続的事前学習 • モデル自体を改変する方式 • ファインチューニング • 入力と正解のペアを使ったラベルあり学習 •
特定のタスクに特化した調整入力正解私はいつもハラショーさんを応援しています。季節の変わり目ですので、どうか体調にはお気をつけください。オジサンはﾊﾗｼｮｰちゃんの味方だからね(^_^) （笑）風邪ひかないようにネ (^o^) ハラショーさん、お久しぶりです。今日は広島の気温が28度と非常に暑いです。暑さで火傷しないよう、どうかお気をつけください。ﾊﾗｼｮｰﾁｬﾝ、久しぶり(^_^) 今日は広島28度だよ ^^;(-_-;) 暑いよ(^_^;^^;(￣Д￣；；(T_T)ヤケドしないように気をつけないとね（笑）生成AI 学習おじさん構文変換AIができる

生成AIのカスタマイズ • ファインチューニングと継続的事前学習 • モデル自体を改変する方式 • 継続的事前学習 • まとまった入力テキストを使ったラベルなし学習（正確には自己教師あり学習） •
根本的な表現の修正、専門用語への対応など生成AI 学習まとまった規模のテキストたとえば穴埋め問題を自動で作る

生成AIのカスタマイズ（再掲） • それぞれのカスタマイズ用途とBedrockとの関連付けカスタマイズ方式説明 Bedrockとの紐づけ用途備考プロンプトエンジニアリング
指示（プロンプト）をユーザが工夫ユーザが実施するため、手法がドキュメントに記載 https://docs.aws.amazon.com/sagemaker/ latest/dg/jumpstart-foundation-models- customize-prompt-engineering.html 簡易な表現・ふるまいの修正 RAG（検索拡張生成）検索した結果を指示（プロンプト）に入れる Bedrock Knowledge Basesとして提供 https://docs.aws.amazon.com/ja_jp/bedro ck/latest/userguide/knowledge-base.html 社内ナレッジなど学習データにない知識を元に回答させるファインチューニングラベル付きデータでそのラベルに特化した学習する Bedrockのカスタマイズ機能で Fine-tuningとして提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html あるタスクに特化 Provisioned Throughputの購入が必要（要するに高価）継続的事前学習ラベルなしデータで事前学習と同じように学習するモデルのカスタマイズ機能で Continued Pre-training機能として提供 https://docs.aws.amazon.com/bedrock/lat est/userguide/custom-models.html 根本的な表現の修正、専門用語など Provisioned Throughputの購入が必要（要するに高価）

Bedrockの他サービス • Amazon Bedrock Knowledge Bases • BedrockのRAG機能。社内ナレッジなどモデル内部のデータに無い知識を元に回答させる • https://dev.classmethod.jp/articles/introduction-2024-amazon-bedrock-knowledge-bases/
• https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/knowledge-base.html • Amazon Bedrock Agents • 自律エージェントを構築する機能 • より複雑な行動やツール（外部API、Web検索）を組み合わせられる • 外部APIの呼び出し、Web検索 • Knowledge Basesも使用可能 • https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/agents.html • https://dev.classmethod.jp/articles/introduction-2024-agents-for-amazon-bedrock/ • Amazon Bedrock Guardrails • 有害なユーザー入力と有害なモデルレスポンスをフィルタリングする機能 • https://docs.aws.amazon.com/ja_jp/bedrock/latest/userguide/guardrails.html • https://dev.classmethod.jp/articles/introduction-2024-amazon-bedrock-guardrails/

Bedrockの他サービス • エージェントの例 • これも結局、プロンプトエンジニアリングの進化版 • 各種判断や処理が必要なシーンで、別のプロンプトを使って内部的に処理する沖縄に旅行に行きたい。チャット
アプリ観光地検索 Knowledge Bases 交通機関検索宿泊施設検索生成AI ・回答生成・どのツールを使うか判断・検索結果が問題ないか判断・情報が不足であればユーザに質問・選択肢の中からユーザに選ばせるツール群として定義

Bedrockの料金体系 • 使用モデルごとに異なる1000トークン単位の料金 • ファインチューニングと継続的事前学習はプロビジョンドスループットが必須（つまり高価）参考・https://aws.amazon.com/jp/bedrock/pricing/ ・https://dev.classmethod.jp/articles/amazon-bedrock-model-spec-and-pricing/

Amazon Qについて • Amazon Q Business • マネージドなAIアシスタントサービス（RAGサービス） • https://dev.classmethod.jp/articles/introduction-2024-amazon-q-business/
• Amazon Q Developer • 開発者向けのAIアシスタント機能が使えるサービス

SageMakerポイント解説

SageMakerについてはじめに • SageMakerの機能もとても多い • 試験ガイドに記載の機能をざっくり抑えよう • 読むべきもの • 公式ドキュメントの各機能における概要ページ •
どこがその機能に該当するかを解説 • BlackBeltは興味があればでOK（全部読むと認定試験としては十分以上） • 理解しておくべき機能 • 推論タイプ • SageMaker Canvas • SageMaker JumpStart • SageMaker ModelMonitor • SageMaker ModelCard • その他機能は、早見表参照

SageMakerの概要 • 生成AI以外もカバーする様々な機械学習モデルを構築できる • 最終的には何かを入力して、何かを予測するモノを作ることが目的 • 画像、テキスト、音声、様々な履歴データ購買履歴需要予測

SageMakerの概要 • 生成AI以外もカバーする様々な機械学習モデルを構築できる • 最終的には何かを入力して、何かを予測するモノを作ることが目的 • 画像、テキスト、音声、様々な履歴データ購買履歴需要予測 SageMaker
Canvas SageMaker JumpStart SageMaker その他モデルを作って、本番稼働までできるサービス

Canvas SageMaker JumpStart SageMaker その他モデルを作って、本番稼働までできるサービス SageMaker Studio（必要モジュールが整ったAWS内の実行環境）

Canvas SageMaker JumpStart SageMaker その他モデルを作って、本番稼働までできるサービス推論モデル (endpoint) SageMaker その他本番稼働後使用するサービス SageMaker Studio（必要モジュールが整ったAWS内の実行環境）

SageMakerの全体観 SageMaker Canvas SageMaker JumpStart SageMaker その他技術的な専門知識を持たない人でも利用可能で、コーディング不要なノーコードGUIでデータ前処理からMLモデル作成、デプロイが可能
データサイエンティストや機械学習エンジニアが迅速にプロジェクトを開始し、高度なモデルを活用するための目的別ツール・テンプレートより発展的に開発者自身が処理をカスタマイズする用途参考・https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/canvas.html ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2023_Amazon-SageMaker-Canvas_0930_v1.pdf ・https://docs.aws.amazon.com/ja_jp/sagemaker/latest/dg/studio-jumpstart.html

SageMakerの推論タイプ • リアルタイム推論 • 60秒以内に終わる処理、データサイズも6MB以下 • 裏でサーバーが常時起動するため、デプロイ中ずっと料金が発生（高価） • サーバーレス推論 •
60秒以内に終わる処理、データサイズも6MB以下 • たまにしか推論しない場合、リクエスト数が予測できない場合に当てはまる • レイテンシ要件が厳しい場合、コールドスタートがあるため向かないケースも • 非同期推論 • 1時間以内に終わる処理、データサイズは1GBまで • バッチ推論 • 数日の処理時間をサポート、データサイズも1GB以上に対応(最小でも100MB必要) 参考・https://docs.aws.amazon.com/sagemaker/latest/dg/deploy-model.html#deploy-model-options ・https://pages.awscloud.com/rs/112-TZM-766/images/202208_AWS_Black_Belt_AWS_ML_Enablement_Dark_03.pdf ・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Inference-Part-3_1014_v1.pdf

SageMaker主要機能一覧表 • 一部のみ抜粋機能名内容参考リンク用途 SageMaker Role Manager
SageMaker Studio(実行環境）のユーザの権限を定義する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/role-manager.html ガバナンス SageMaker Model Card 学習したモデルの情報を提供する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/model-cards.html 説明性と透明性 SageMaker Model Dashboard SageMakerのリソースの使用状況の確認やパフォーマンスの追跡をする機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/model-dashboard.html - SageMaker Model Monitor 稼働中の機械学習モデルの品質を監視する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/jumpstart-foundation-models.html 監視 SageMaker Canvas モデル学習からデプロイまでをGUIで行う機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/canvas.html ノーコード SageMaker Data Wrangler Canvas内で使うデータ前処理をGUI で行う機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/canvas-data-prep.html ノーコード SageMaker JumpStart エンジニアが使うモデル学習からデプロイまでを行うテンプレート https://docs.aws.amazon.com/sagemaker/latest/ dg/studio-jumpstart.html SageMaker Feature Store モデル学習に使用する特徴量を蓄積する機能（Athenaを裏側で使う） https://docs.aws.amazon.com/sagemaker/latest/ dg/feature-store.html Augmented AI 機械学習の結果に対して人間によるチェック含むワークフローを提供する機能 https://docs.aws.amazon.com/sagemaker/latest/ dg/a2i-use-augmented-ai-a2i-human-review- loops.html

SageMaker主要機能の補足 • 各機械学習モデル構築における位置づけデータ取り込み機械学習向け特徴量変換モデルの学習デプロイ
データソース推論モデル (endpoint)

データソース推論モデル (endpoint) エンジニア向けテンプレ：SageMaker JumpStart ノーコード：SageMaker Canvas(+SageMaker Data Wrangler)

データソース推論モデル (endpoint) エンジニア向けテンプレ：SageMaker JumpStart ノーコード：SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store

データソース推論モデル (endpoint) エンジニア向けテンプレ：SageMaker JumpStart ノーコード：SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store 人間による正解データ正解ラベル付け：SageMaker Ground Truth

データソース推論モデル (endpoint) エンジニア向けテンプレ：SageMaker JumpStart ノーコード：SageMaker Canvas(+SageMaker Data Wrangler) SageMaker Feature Store 人間による正解データ正解ラベル付け：SageMaker Ground Truth SageMaker Model Monitor ：監視 SageMaker Model Card 見える化 Augmented AI 信頼度の低い結果の人間によるレビュー

データソース SageMaker Feature Store 推論モデル (endpoint) エンジニア向けテンプレ：SageMaker JumpStart ノーコード：SageMaker Canvas(+SageMaker Data Wrangler) 人間による正解データ SageMaker Model Monitor ：監視 SageMaker Model Card 見える化実行環境が提供：SageMaker Studio、権限管理：SageMaker Role Manager 正解ラベル付け：SageMaker Ground Truth Augmented AI 信頼度の低い結果の人間によるレビュー

SageMaker主要機能の補足 • Model Monitorだけ少し深堀購買履歴需要予測推論モデル (endpoint) 本番稼働中のモデル参考
・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf

SageMaker主要機能の補足 • Model Monitorだけ少し深堀購買履歴需要予測推論モデル (endpoint) 本番稼働中のモデル・入力の分布（特性）変わってないか監視
・入力が変わることをドリフトという・異常な値の監視などもこれ参考・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf

SageMaker主要機能の補足 • Model Monitorだけ少し深堀購買履歴需要予測推論モデル (endpoint) 本番稼働中のモデル・入力の分布（特性）変わってないか監視
・入力が変わることをドリフトという・異常な値の監視などもこれ・予測の精度が変わってないか監視参考・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf

SageMaker主要機能の補足 • Model Monitorだけ少し深堀購買履歴需要予測推論モデル (endpoint) 本番稼働中のモデル・予測の精度が変わってないか監視
・判断基準が変わってないか監視・バイアスが発生してないか確認裏側では、SageMaker Clarifyが担う機能・入力の分布（特性）変わってないか監視・入力が変わることをドリフトという・異常な値の監視などもこれ参考・https://pages.awscloud.com/rs/112-TZM-766/images/AWS-Black-Belt_2022_Amazon-SageMaker-Monitoring-Part-1_1031_v1.pdf

その他AI/MLサービスのおさらい

主要マネージドサービス一覧表 • 一部抜粋 • マネージドだが一部のカスタマイズ機能も提供している機能名内容用途 Rekognition 画像や動画を分析するサービス
画像認識（顔認識、モノの数のカウント）有害な画像の判断 Personalize 履歴に基づいてレコメンドを実施するサービス動画配信サイトやECサイトのあなたへのオススメ Textract 画像やPDFからテキストを抽出するサービス請求書や領収書のデータ化 Comprehend テキストを分析するサービステキストの感情分析、人名など固有名詞等の検出 Polly テキストを音声に変換するサービス AIアシスタントに喋らせる、自動アナウンス Kendra 意味とコンテキストを理解して検索するサービス近年は生成AIのRAGとして需要が高い Lex 言語理解・音声認識を行いチャットボットを作成するサービスチャットボット Translate 複数言語間でテキストを翻訳するサービス翻訳 Transcribe 音声をテキストに変換するサービス会話の自動書き起こし Macie S3の個人情報や機密データを検出して分類・保護するサービスコンプライアンス対応 Fraud Detector 不正行為（詐欺）の検出を自動化するサービスクレジットカード詐欺、アカウント乗っ取り、不正な新規アカウント作成などの検出

その他サービスのおさらい

試験ガイドに記載されているその他機能 • ガバナンスとコンプライアンス • AWS Config: リソースの設定変更を追跡・監査するサービス • Amazon Inspector:
セキュリティ脆弱性の自動スキャンサービス • AWS Audit Manager: 監査プロセスを自動化するためのツール • AWS Artifact: コンプライアンス関連のドキュメント提供サービス（機械学習モデルの第三者評価などの文脈で使用される機能） • AWS CloudTrail: APIコールのログ記録・監査サービス • AWS Trusted Advisor: AWSベストプラクティスに基づくリソース最適化の提案ツール

おわり

AIF勉強会

AIF勉強会

More Decks by nakamura.shogo

Featured

Transcript