Save 37% off PRO during our Black Friday Sale! »

知的情報システム開発2021-第4回20211027

059fb717431a8cd2b509ffebc57d905a?s=47 Y. Yamamoto
October 26, 2021

 知的情報システム開発2021-第4回20211027

・K近傍法
・機械学習のお作法(評価指標,学習・評価の流れ)

059fb717431a8cd2b509ffebc57d905a?s=128

Y. Yamamoto

October 26, 2021
Tweet

Transcript

  1. 分類問題1: K近傍法 & 教師あり機械学習のお作法 ⼭本 祐輔 静岡⼤学 情報学部 准教授 yusuke_yamamoto@acm.org

    第4回 知的情報システム開発 2021 2021年10月27日
  2. 講義のトピック 機械学習 教師あり学習 教師なし学習 強化学習 ・クラスタリング ・データ圧縮 ・分類 ・回帰 …

    … 2 行動情報学科に 特有の応用手法 時系列データ分析 時間経過とともに変化する データに対する分析⼿法 ・K近傍法 ・サポートベクタマシン ・ニューラルネットワーク
  3. 教師あり学習の分類問題 3 データの特徴とラベルの対応関係を見つける カツオ 未知データの結果を予測するために,⼤量のデータから (特徴) 𝑓 結果 =

  4. 教師あり学習(分類問題)の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習(ML)アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ MLアルゴリズム 学習フェーズ 4
  5. 1 意外に強力なインスタンス・ベースの教師あり学習 K近傍法

  6. 教師あり学習の歴史(⼀部抜粋) ロジスティック回帰 サポートベクターマシン 決定木 パーセプトロン 単純ベイズ分類器 ランダムフォレスト k-近傍法 ベイジアンネットワーク 深層学習

    1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 6
  7. 教師あり学習の歴史(⼀部抜粋) ロジスティック回帰 サポートベクターマシン 決定木 パーセプトロン 単純ベイズ分類器 ランダムフォレスト k-近傍法 ベイジアンネットワーク 深層学習

    1958年 1957年 1951年 1979年 1985年 1992年 1960年代 2001年 2010年代 本⽇体験するのはコレ 7
  8. STATLOG results Method Test Misclassification Error 2 4 6 8

    10 12 14 0.0 0.05 0.10 0.15 LVQ RBF ALLOC80 CART Neural NewID C4.5 QDA SMART Logistic LDA DANN K-NN なぜK-近傍法を学ぶのか? 8 単純だが非常に強力な教師あり学習器 470 13. Prototypes and Nearest-Neighbors Spectral Band 1 Spectral Band 2 Spec Spectral Band 4 Land Usage Predicte FIGURE 13.6. The first four panels are LANDSAT images for area in four spectral bands, depicted by heatmap shading. The panels give the actual land usage (color coded) and the predicted la スペクトル画像 農地の地質 Michie, D., Spiegelhalter, D.J. and Taylor, C.C. (1994) Machine Learning, Neural and Statistical Classification. Ellis Horwood, New York. STATLOGデータセットに対する分類精度は第2位
  9. 歴史的に成功事例が多いK-近傍法 9 画像2出典: https://ja.wikipedia.org/wiki/MNISTデータベース 画像3出典: https://www.shinyuri-hospital.com/column/column_202002.html ⼿書き⽂字認識 Spectral Band 4

    Land Usage Predicted Land Usage FIGURE 13.6. The first four panels are LANDSAT images for an agricultural area in four spectral bands, depicted by heatmap shading. The remaining two panels give the actual land usage (color coded) and the predicted land usage using a five-nearest-neighbor rule described in the text. first problem, while 1-nearest-neighbor is best in the second problem by a factor of 18%. These results underline the importance of using an objective, data-based method like cross-validation to estimate the best value of a tuning parameter (see Figure 13.4 and Chapter 7). 13.3.2 Example: k-Nearest-Neighbors and Image Scene Classification The STATLOG project (Michie et al., 1994) used part of a LANDSAT image as a benchmark for classification (82×100 pixels). Figure 13.6 shows 衛星画像認識 ⼼電図の異常パターン検出
  10. K-近傍法(k-NN: k nearest neighbor)のアイデア(1/5) 10 ? 対象データまでの距離が最も近いK個のデータの ラベルのうち、最も多いラベルに分類する 多 数

  11. K-近傍法(k-NN: k nearest neighbor)のアイデア(2/5) 11 ⻘ K=1 対象データまでの距離が最も近いK個のデータの ラベルのうち、最も多いラベルに分類する 多

    数 決
  12. K-近傍法(k-NN: k nearest neighbor)のアイデア(3/5) 12 緑 K=3 対象データまでの距離が最も近いK個のデータの ラベルのうち、最も多いラベルに分類する 多

    数 決
  13. K-近傍法(k-NN: k nearest neighbor)のアイデア(4/5) 13 ⻘ K=5 対象データまでの距離が最も近いK個のデータの ラベルのうち、最も多いラベルに分類する 多

    数 決
  14. K-近傍法(k-NN: k nearest neighbor)のアイデア(5/5) 14 対象データまでの距離が最も近いK個のデータの ラベルのうち、最も多いラベルに分類する ? K=5:⻘ K=3:緑

    K=1:⻘ 多 数 決
  15. K-近傍法アルゴリズムの定式化 15 foreach x’ in S do compute dist(x, x’)

    take the top k nearest neighbors S’ from S foreach ci in C do 𝑝! ← 𝑠 𝑠 ∈ 𝑆" 𝑎𝑛𝑑 𝑐𝑙𝑎𝑠𝑠 𝑠 = 𝑐! | return argmax #!∈% 𝑝! 1 2 3 4 5 6 タスクに応じて設定 K近傍データの中でクラスci に属するデータの数 Input: x: ターゲットデータ Input: S: ラベル付きデータセット Input: C: クラスラベルのリスト Input: k: 閾値 Input: dist: 距離関数
  16. K-近傍法のメリット・デメリット 16 メリット • 単純なのに強⼒ • データの背後にある分布を仮定しなくてよい (ノンパラメトリックな⼿法) デメリット •

    推論フェーズの計算量が⼤きい(毎回の距離計算) • 次元の呪いの影響を受けやすい
  17. 教師あり学習のための機械学習アルゴリズムの分類 17 ロジスティック回帰 ナイーブベイズ サポートベクターマシン K近傍法 ランダムフォレスト & 決定木 ニューラルネットワーク

    訓練データをすべて記憶して おき,それら全部を使って 予測を⾏う(推論計算が遅い) 訓練データの背後にあるモデル を抽出し,それを予測時に使う (推論計算は速い) インスタンスベース モデルベース
  18. Hands-on タイム 以下のURLにアクセスして,K近傍法を 体験してみましょう https://dmml2021.hontolab.org/ 18

  19. 2 手順を知らないと痛い目にあう 教師あり機械学習のお作法

  20. 教師あり学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ 学習フェーズ 20
  21. 教師あり学習の流れ ⼤量のデータ (正解ラベル付き) 前 処 理 特徴 抽出 学習 (モデル構築)

    機械学習アルゴリズム 学習済み モデル ML 推論 特徴 抽出 ? 前 処 理 未知データ (ラベルなし) 予測結果 推論フェーズ 学習フェーズ 21 構築したモデルの予測性能を どう評価するか? [分類性能の基本的な考え方] 真の分類結果と同じ分類が できている率が高い Q. A. [回帰性能の基本的な考え方] 真の結果と推定結果の 誤差が小さい
  22. 2クラス分類問題における評価指標(1/4) 22 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 𝑇𝑃 + 𝑇𝑁 𝑇𝑃 + 𝐹𝑃

    + 𝐹𝑁 + 𝑇𝑁 正例,負例と予測したものが実際にそうだった割合 精度 (accuracy) モデルの予測 Positive Negative 正解 ラベル Positive TP (true positive) FN (false negative) Negative FP (false positive) TN (true negative)
  23. 2クラス分類問題における評価指標(2/4) 23 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑃 正例 (注⽬ラベル)と予測したデータのうち,実際に正例

    であった割合.正例に対する推論の正確さを⽰す. 適合率 (precision) モデルの予測 Positive Negative 正解 ラベル Positive TP (true positive) FN (false negative) Negative FP (false positive) TN (true negative)
  24. 2クラス分類問題における評価指標(3/4) 24 モデルの予測 Positive Negative 正解 ラベル Positive TP (true

    positive) FN (false negative) Negative FP (false positive) TN (true negative) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃 + 𝐹𝑁 実際に正例であるデータのうち,モデルが正例であると 予測したデータの割合.取りこぼしの少なさを⽰す. 再現率 (recall)
  25. 2クラス分類問題における評価指標(4/4) 25 𝐹&'()*+' = 2 $ 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 $ 𝑅𝑒𝑐𝑎𝑙𝑙 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛

    + 𝑅𝑒𝑐𝑎𝑙𝑙 適合率と再現率をバランスよく達成できているかを⽰す F値 モデルの予測 Positive Negative 正解 ラベル Positive TP (true positive) FN (false negative) Negative FP (false positive) TN (true negative)
  26. 評価指標によって⼿法の良し悪しの判断が変わる 26 検査結果 陽性 陰性 実 際 陽性 39 11

    陰性 24 26 ウイルス検査⼿法B 検査結果 陽性 陰性 実 際 陽性 20 30 陰性 5 45 ウイルス検査⼿法A Accuracy = !"#$% !"#%#&"#$% = 0.65 Precison = !" !"#% = 0.80 Recall = !" !"#&" = 0.40 F値 = 0.533 Accuracy = &'#!( &'#!$#))#!( = 0.65 Precison = &' &'#!$ = 0.619 Recall = &' &'#)) = 0.78 F値 = 0.690 ⼀般に適合率と再現率はトレードオフの関係にある
  27. 不均衡データに対する2クラス分類の評価指標 27 AUC (Area Under Curve) • 横軸に偽陽性率(FPP),縦軸に再現率(TPP)とする曲線が 作る平⾯の⾯積 •

    ラベル分布に偏りがある不均衡データに⽤いる | | 1.0 1.0 0 True Positive Rate (TPP) False Positive Rate (FPP) AUC ・理想はオレンジの点線がなす領域 ・0から1の値をとる
  28. 絶対やってはいけないコト 28 # Python 1 from sklearn.neighbors import KNeighborsClassifier 20

    model_K = KNeighborsClassifier(n_neighbors=5) 21 mode_K.fit(X_train, y_train) # K近傍法で学習 22 score_K = model_K.score(X_test, y_test) … ドキュメントに書いてあった 予測性能のスコアを返す関数 23 print(score_K, score_S) モデルKとモデルSの 「予測性能スコア」を表⽰ >> 0.80, 0.619 # モデルKのスコアの⽅が⾼い!! タスクに応じて適切な評価指標を使うこと!!
  29. 多クラス分類問題における評価指標(1/2) 29 モデルの予測 C1 … Ck 正解 ラベル C1 n11

    n1k … … Ck nk1 nkk 各クラスに対する再現率のマクロ平均 Balanced Accuracy 𝐴𝑐𝑐𝑢𝑟𝑎𝑟𝑦,(-(.#'/ = 1 𝑘 6 012 0 𝑅𝑒𝑐𝑎𝑙𝑙0 これら再現率 の平均を計算
  30. 多クラス分類問題における評価指標(2/2) 30 モデルの予測 C1 … Ck 正解 ラベル C1 n11

    n1k … … Ck nk1 nkk 正解ラベルとモデル予測したラベルの相関係数 (kは各クラス) マシューズ相関係数 (MCC) ∑! ∑" ∑#(𝐶!!𝐶"# − 𝐶!"𝐶#!) ∑! (∑" 𝐶!")(∑ !!|!!%! ∑ "! 𝐶!!"& ) ∑! (∑" 𝐶"!)(∑ !!|!!%! ∑ "! 𝐶"!!& ) 式は複雑だが,表現しているのは相関係数と理解しよう
  31. 教師あり学習の実践するときの基本的な流れ … データセット(特徴量x & ラベルyのリスト) データを⼀定の割合に分割 訓練データ テストデータ 𝑥!! ⋮

    𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 … A B A
  32. 教師あり学習の実践するときの基本的な流れ … データセット(特徴量x & ラベルyのリスト) データを⼀定の割合に分割 訓練データ テストデータ 𝑥!! ⋮

    𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを ⽤いた学習 Step 2 ML … A B A
  33. 教師あり学習の実践するときの基本的な流れ … データセット(特徴量x & ラベルyのリスト) データを⼀定の割合に分割 訓練データ テストデータ 𝑥!! ⋮

    𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 訓練データを ⽤いた学習 Step 2 ML A … 推論結果 A B ラベルを隠してテスト データのラベルを推論 Step 3 … A B A …
  34. 教師あり学習の実践するときの基本的な流れ … データセット(特徴量x & ラベルyのリスト) データを⼀定の割合に分割 訓練データ テストデータ 𝑥!! ⋮

    𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテスト データのラベルを推論 Step 3 … A … 推論結果 B … 隠していたラベル 推論結果と元ラベル との⽐較による性能評価 Step 4 訓練データを ⽤いた学習 Step 2 ML A A B B … A B A
  35. ホールドアウト法 … データセット(特徴量x & ラベルyのリスト) データを⼀定の割合に分割 訓練データ テストデータ 𝑥!! ⋮

    𝑥!" 𝑦! 𝑥"! ⋮ 𝑥#" 𝑦# 𝑥#! ⋮ 𝑥$" 𝑦$ … B A B A A … B A B Step 1 ラベルを隠してテスト データのラベルを推論 Step 3 A … 推論結果 B … 隠していたラベル 推論結果と元ラベル との⽐較による性能評価 Step 4 訓練データを ⽤いた学習 Step 2 ML A A B B … … A B A
  36. 絶対にやってはいけないこと 36 1. データ分割をせず、同じデータを使って モデルの訓練と評価する 2. データ分割時にデータをシャッフルしない 3. (分類問題の場合) ラベルの分布を考慮せずデータを分割

  37. 絶対にやってはいけないこと 37 1. データ分割をせず、同じデータを使って モデルの訓練と評価する 2. データ分割時にデータをシャッフルしない 3. (分類問題の場合) ラベルの分布を考慮せずデータを分割

  38. 機械学習の⽬標 38 汎化性能の高い予測モデルの獲得 未知データに対する予測性能が⾼い データセット 訓練データ テストデータ ML 1. 分割

    2. 学習 3. 評価 テストデータは 「未知データ」扱い データセット ML 1. 学習 2. 評価 評価が高く見えるよう 自己最適化しているだけ (学習時と同じ データを使⽤)
  39. 汎化性能、モデルの複雑さ、学習回数 39 モデルの複雑さ、学習回数 予 測 誤 差 訓練データ テストデータ モデルの複雑さや学習回数を増やしぎると

    訓練データを過学習し、未知データに対する汎化性能が下がる 訓練データに対してだけ予測誤差が下がっても意味なし ベスト塩梅
  40. 絶対にやってはいけないこと 40 1. データ分割をせず、同じデータを使って モデルの訓練と評価する 2. データ分割時にデータをシャッフルしない 3. (分類問題の場合) ラベルの分布を考慮せずデータを分割

  41. シャッフルしない & ラベル分布を考慮しないデータ分割の問題 41 データセット … A A A B

    B Aは70% Bは30% A A A … 訓練データ (ラベルA=100%) B B … … 先頭から7:3に分割 テストデータ (ラベルB=100%) A … 推論結果 B … 隠していたラベル ML A B A B 偏った学習 偏った 性能評価 汎化性能の低下!!
  42. 汎化性能向上のためのデータ分割⽅法 42 データセット … A A A B B Aは70%

    Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% シャッフル & 層別化分割 安直に前から50:50分割 シャッフル & 層別化(stratification)
  43. 汎化性能向上のためのデータ分割⽅法 43 データセット … A A A B B Aは70%

    Bは30% … シャッフル & 層別化分割 安直に前から50:50分割 シャッフル & 層別化(stratification) # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3, # 7:3に分割 4 shuffle=True, # シャッフル 5 stratify=y_cancer) # 層別化 # Python 1 train_test_split( 2 X_cancer, y_cancer, 3 test_size=0.3) # 7:3に分割
  44. 汎化性能向上のためのデータ分割⽅法 44 データセット … A A A B B Aは70%

    Bは30% … 訓練データ (全体の50%) テストデータ (全体の50%) A 100% A 40% B 60% 訓練データ (全体の50%) テストデータ (全体の50%) A 70% B 30% A 70% B 30% 安直に前から50:50分割 シャッフル & 層別化分割 ダメ、絶対 シャッフル & 層別化(stratification)
  45. K分割交差検証 (K-fold Cross Validation: CV) 〜 汎化性能評価のため⼯夫 45 訓練データ 1回⽬

    2回⽬ 3回⽬ テストデータ 訓 訓 訓 訓 訓 訓 テ テ テ モデル モデル モデル 0.82 0.76 0.79 平 均 0.79 学 習 性 能 評 価 最終スコア 1. データをK個に分割する 2. 分割データの1個をテスト,K-1個を訓練データとし学習・評価 3. 分割された各データがテストとなるようステップ2を繰り返す 4. ステップ3の評価スコアの平均値を最終スコアとする 訓練/テストデータの選び⽅による過学習・性能評価のブレを防ぐ
  46. Hands-on タイム 以下のURLにアクセスして, 教師あり学習のお作法を体験してみましょう https://dmml2021.hontolab.org/ 46

  47. 今後の予定 回 実施⽇ トピック 1 10/06 ガイダンス:機械学習の概要 & はじめての機械学習 2

    10/13 クラスタリング1:k-means & 階層的クラスタリング 3 10/20 クラスタリング2:密度ベースクラスタリング 4 10/27 分類1:K近傍法 & 教師あり機械学習のお作法 5 11/10 ゲスト講師による講演1(松村先⽣ from Wantedly) 6 11/17 分類2:サポートベクターマシン 7 11/24 分類3:ニューラルネットワーク⼊⾨ 8 12/01 時系列データとモデリング1:時系列データの統計的な扱い 9 12/08 ゲスト講師による講演2(加藤先⽣ from 筑波⼤学) 10 12/15 時系列データとモデリング2:時系列データの解析 11 12/22 時系列データとモデリング3:シミュレーションによる 時系列データの検討 12 01/12 時系列データとモデリング4:未知環境での時系列データ 13 01/19 ゲスト講師による講演3(⼭本岳先⽣ from 兵庫県⽴⼤学) 14 01/26 時系列データとモデリング5:解析と学習モデル 15 予備⽇ 47
  48. 数学記号(集合) 48 集合 (太字でない⼤⽂字アルファベット) 𝑆 集合の要素 (太字でない⼩⽂字アルファベット) 𝑠 𝑆 =

    𝑠! , 𝑠" , … , 𝑠# = 𝑥 𝑥 ∈ 𝑅 ∧ 𝑓 𝑥 > 0} 外延表現:要素を並べる書き⽅ 内包表現:要素の条件を指定する書き⽅ (xが実数でかつ f (x)がゼロより⼤きくなるようなxの集合) 集合の書き⽅ 集合の⼤きさ(要素数) |𝑆|
  49. 例 49 𝑁 = 0, 1, 2, … 𝑍 =

    … , −2, −1, 0, 1, 2, … 𝑂 = 2n + 1 | n ∈ 𝑁 (⾃然数) (整数) (奇数) 𝐹 = りんご, みかん, なし |𝐹| = 3
  50. 数学記号(ベクトル) 50 𝒙 ベクトル (太字の⼩⽂字) 断りがない限り,縦ベクトル 𝒙 3 = 𝑥2

    3 + ⋯ + 𝑥& 3 ベクトルの要素の書き⽅ 実数を成分とする m次元ベクトル 𝒙 = 𝑥2 ⋮ 𝑥& ∈ 𝑅& = 𝑥2 , … , 𝑥& 4 ベクトルの⼤きさ 𝒙 と書くことも 𝒙 $ 𝒚 = 𝒙4𝒚 = ∑ 𝑥0 𝑦0 ベクトルの内積 𝒙, 𝒚 と書くことも
  51. 数学記号(⾏列) 51 ⾏列 (太字の⼤⽂字) 𝑿 = 𝑥!! ⋯ 𝑥#! ⋮

    𝑥$! ⋱ ⋯ ⋮ 𝑥$# ∈ 𝑅$×# 𝑿の各列(縦ベクトル) を使った書き⽅ 実数を成分とする m⾏ n 列の⾏列 = 𝑥&' $×# こんな書き⽅も = 𝒙! , … , 𝒙# 𝑿 ⾏列の 要素の書き⽅
  52. 機械学習でよく⾒かける数学的処理(1/3) 52 6 !12 . 𝑥! = 𝑥2 + 𝑥3

    + ⋯ + 𝑥. @ !12 . 𝑥! = 𝑥2 𝑥3 … 𝑥. 𝜕 𝜕𝑥( 𝑓(𝒙) 数列の和 数列の積 偏微分 𝑓 𝒙 = 𝑤) 𝑥) + 𝑤! 𝑥! + ⋯ + 𝑤* 𝑥* 例: 𝜕 𝜕𝑥* 𝑓 𝒙 = 𝑤*
  53. 機械学習でよく⾒かける数学的処理 (2/3) 53 argmax !∈# 𝑓(𝑥) argmin $∈# 𝑓(𝑥) max

    $∈# 𝑓(𝑥) min $∈# 𝑓(𝑥) 関数を最⼤化 関数を最⼩化 実数の範囲でパラメータxを 動かし関数f(x)を最⼤化・最⼩化 関数を最⼤化する パラメータ 関数を最⼩化する パラメータ 関数を最適化する 実数を⾒つける
  54. 機械学習でよく⾒かける数学的処理 (3/3) 54 sign 𝑥 = 2 1: 𝑥 >

    0 0: 𝑥 = 0 −1: 𝑥 < 0 符号関数 値の符号に応じて ・正なら1 ・負なら-1 ・ゼロなら0 を返す関数と覚える 画像出典: https://ja.wikipedia.org/wiki/符号関数 (sgn 𝑥 と書くことも)
  55. 機械学習でよく出くわす瞬時に理解すべき数式 55 𝑨!" # = 𝑨𝑻 !" 𝑨𝑩 # =

    𝑩𝑻𝑨𝑻 $ % 𝑤% 𝑥% = 𝒘𝑻𝒙 Matrix Cookbook: http://www2.imm.dtu.dk/pubdb/edoc/imm3274.pdf 𝜕 𝜕𝒙 𝒙 & = 𝜕 𝜕𝒙 𝒙𝑻𝒙 = 2𝒙 𝜕 𝜕𝒙 𝑴𝒙 = 𝑴𝑻 𝜕 𝜕𝒙 𝒘𝑻𝒙 = 𝒘 𝜕 𝜕𝒙 𝒙 − 𝒂 & = 2(𝒘 − 𝒂) 𝜕 𝜕𝒙 𝑨𝒙 − 𝒃 & = 2𝑨𝑻(𝑨𝒙 − 𝒃) 𝑨 + 𝑩 # = 𝑨𝑻 + 𝑩𝑻
  56. ⾏列サイズの⾒積もり 56 ⾏列A はm⾏ k列(m×k),⾏列B はk⾏ n列(k×n), ⾏列 Wはm⾏ m列(m×m),ベクトルxは

    m⾏ 1列(m×1) とする.このとき以下の演算結果のサイズは? Q1. 𝑨𝑻𝒙 Q2. 𝒙𝑻𝑾𝒙 Q3. 𝒙𝑻𝒙 スカラー スカラー (k×1)の⾏列(k次元ベクトル) (m×k)の⾏列と(k×n)の⾏列の積をとると, (m×n)の⾏列ができあがると覚えておけばよい