Upgrade to Pro — share decks privately, control downloads, hide ads and more …

慶應義塾大学 機械学習基礎10 応用と評価

慶應義塾大学 機械学習基礎10 応用と評価

More Decks by Semantic Machine Intelligence Lab., Keio Univ.

Other Decks in Technology

Transcript

  1. 評価尺度の選び方の観点 自動評価 vs 手動評価 - - 8 ▪ 既存の標準的尺度があれば、そ の尺度で評価すべき

    ▪ 新規タスクでは自ら提案するこ ともある ▪ 自動評価尺度 ▪ 評価サイクルを高速に実行 できる ▪ 手動評価尺度(例:被験者に点 数付けを依頼) ▪ 簡便 ▪ 評価に時間がかかるため継 続的改善が困難
  2. 機械学習における代表的評価尺度 - - 9 ▪ 汎用的な評価尺度 ▪ 精度、適合率、再現率、F値 ▪ 平均二乗誤差、平均二乗平方根誤差、平均絶対誤差

    ▪ 計算量(速度)、メモリ使用量 ▪ 分野別の評価尺度 ▪ 単語誤り率(音声認識)、perplexity(言語モデル)、BLEU(機械 翻訳)、FID(画像生成)
  3. 混同行列(confusion matrix) - - 11 ▪ True positive (TP): 予測もラベルも正

    ▪ True negative (TN): 予測もラベルも負 ▪ False positive (FP): 予測は正だったが、ラベルは負 ↑予測を誤ったpositive ▪ False negative (FN): 予測は負だったが、ラベルは正 ラベル 正 負 予測 正 TP (True positive) FP (False positive) 負 FN (False negative) TN (True negative)
  4. 適合率と再現率 - - 12 ▪ 適合率(precision) ▪ 予測が正であるもののうち、 ラベルが正であるものの割合 ▪

    再現率(recall) ▪ ラベルが正であるもののうち、 予測が正であるものの割合 ▪ 全部取ってくれば再現率は1 ▪ Precision = 45/55 = 81.8% ▪ Recall = 45/50 = 90% ラベル 正 負 予測 正 45 10 負 5 40
  5. 適合率と再現率のトレードオフ - - 13 ▪ 適合率(precision) ▪ 予測が正であるもののうち、 ラベルが正であるものの割合 ▪

    再現率(recall) ▪ ラベルが正であるもののうち、 予測が正であるものの割合 ▪ 全部取ってくれば再現率は ▪ 適合率だけを上げるなら、自信 があるサンプルを1つだけ予測 すればよいことになってしまう ▪ 再現率だけを上げるなら、全サ ンプルを正と予測すればよいこ とになってしまう ▪ 適合率と再現率はトレードオフ の関係
  6. 精度とF値 - - 14 ▪ 精度(accuracy) ▪ 合っている予測の割合 ▪ F値(F-measure,

    score) ▪ 適合率と再現率の調和平均 ▪ Accuracy = 85/100 = 85% ▪ F1 = 2x81.8x90/(81.8+90) = 0.857 ラベル 正 負 予測 正 45 10 負 5 40
  7. 回帰問題における代表的尺度 - - 15 ▪ 平均二乗誤差(mean squared error, MSE) ▪

    平均二乗平方根誤差(root mean squared error, RMSE) ▪ 平均絶対誤差(mean absolute error, MAE)
  8. よくある疑問 - - 16 Q1. Superhumanを達成した機械学習手法によって、人間が働く必要は 無くなってしまうのか? ▪ 機械学習はツールであって、全仕事を代替する万能な存在ではない ▪

    「ツールを使いこなして、人がどう判断するか」が重要 ▪ 例: 旅行時の音声翻訳、棋士の練習、人機協調による予測 Q2. 機械学習は「人のような解き方」で問題を解くべきではないか? ▪ 「人のような解き方」は生物学的に未解明なので定義できない ▪ 仮に「人のような解き方」を模倣しても性能が悪ければ社会にインパ クトを与えない(冬の時代の反省)
  9. 物体検出手法の代表例① Single shot multibox detection - - 24 ▪ YOLO[Redmon+

    2015], SSD [Liu+ 2015] 物体を囲む領域 (bounding box) を予測
  10. 物体検出手法の代表例② - - 25 ▪ R-CNN(region-based CNN)[Girshick+ 2014], Faster R-CNN[Ren+

    2015] ▪ 最近ではTransformer型(DETR[Carion+ 2020]等)が増えている ▪ 3年生の知能ロボティクス実験で扱う https://github.com/open-mmlab/mmdetection 上記では、物体検出モデルが簡単に使えるようになっている
  11. セマンティックセグメンテーション手法の代表例 - - 26 ▪ Mask R-CNN [He+ 2017] ▪

    画素ごとに分類を行う https://github.com/facebookresearch/detectron2
  12. 光学文字認識(OCR; Optical character recognition) - - 29 ▪ 1933年にPaul Handelが米国で

    特許を取得 ▪ 現代ではスマートフォン上でも 可能 https://cloud.google.com/vision/docs/drag-and-drop?hl=ja
  13. 音声翻訳のしくみ - - 31 音声認識 (speech recognition) 音声→テキスト 機械翻訳 (machine

    translation) テキスト→テキスト 音声合成 (speech synthesis) テキスト→音声 日本語テキスト 駅はどこですか 日本語音声 英語テキスト Where is the station? 英語音声 学習済モデル 日本語音声・言語 コーパス 日英対訳コーパス 英語音声・言語 コーパス 学習済モデル 学習済モデル 事前に学習 事前に学習 事前に学習 VoiceTra 言語に関する データセット
  14. 音声認識手法の代表例① - - 33 ▪ 古典的手法 ▪ 隠れマルコフモデル(HMM, 1980s-) ▪

    観測確率:混合ガウス分布 ▪ 状態遷移:マルコフ過程 ▪ DNN-HMM [Dhal+ 2011] ▪ 観測確率:DNN ▪ 状態遷移:マルコフ過程 [Dhal+ 2011]
  15. 音声認識手法の代表例② CTC [Hannun+ 2014] - - 34 ▪ 深層学習時代より前に提案 [Graves

    2006] ▪ フレームごとにトークン(文 字)を予測 ▪ トークンが繰り返されていた ら統合 ▪ (深層学習時代に再注目され) 大規模音声認識へ適用 [Hannun+ 2014] https://ratsgo.github.io/speechbook/docs/neuralam/ctc 空白文字
  16. 機械翻訳手法の代表例 - - 35 ▪ 古典的手法 ▪ IBM models (1980s-)等

    ▪ RNN [Kalchbrenner+ 2013] [Cho+ 2014] ▪ DNNを用いた機械翻訳として ニューラル翻訳(Neural Machine Translation)という呼 称が定着 ▪ トランスフォーマー[Vaswani+ 2017]
  17. 音声合成手法の代表例: WaveNet [van den Oord+ 2016b] - - 36 ▪

    PixelRNN [van den Oord+ 2016a] ▪ 画素を系列として予測するモデ ル(同じ著者) ▪ PixelRNNを音声に適用し、自己回 帰的に系列を予測
  18. マルチモーダル学習(multimodal learning)の歴史 - - 39 ▪ 複数のモダリティ(modality)を扱う ▪ 例:画像、音声、テキスト、センサ ▪

    古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft
  19. マルチモーダル言語処理のサブ分野: 理解と生成 - - 40 マルチモーダル言語理解タスク ▪ Visual Question Answering

    (VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]
  20. 画像キャプショニングの代表例: Show and tell [Vinayls+ 2015] - - 41 ▪

    CNNを用いて画像を潜在表現(latent representation)に変換 ▪ RNNを用いてテキストを生成 画像の「意味」 「屋外の市場で買い物をする人達。果物 売り場には多くの野菜が並んでいる。」
  21. 応用分野の今後 - - 47 ▪ 20代が活躍 ↑深層学習手法をコーディング できる40代以上は少ない ▪ 多様なユーザに使われる技術に

    なったものの、作り手の多様性 が不十分 多様な人材が求められている ▪ 冬の時代が再来するのか? ▪ 第2次AIブームまでと異なり、 応用との結びつきが強い 他の基幹産業と同様、安定する と予想される N年後を予測する正しい目利きが 重要
  22. 本講義全体の参考図書 - - 48 ▪ ★機械学習スタートアップシリーズ これならわかる深層学習入門 瀧雅人著 講談 社(本講義では、異なる表記を用いることがあるので注意)

    ▪ ★Dive into Deep Learning (https://d2l.ai/) ▪ 深層学習 改訂第2版 (機械学習プロフェッショナルシリーズ) 岡谷貴之著 講談社 ▪ ディープラーニングを支える技術 岡野原大輔著 技術評論社 ▪ 画像認識 (機械学習プロフェッショナルシリーズ) 原田達也著 講談社 ▪ 深層学習による自然言語処理 (機械学習プロフェッショナルシリーズ) 坪井祐太、 海野裕也、鈴木潤 著、講談社 ▪ IT Text 自然言語処理の基礎 岡﨑直観、荒瀬由紀、鈴木潤、鶴岡慶雅、宮尾祐介 著、オーム社 ▪ 東京大学工学教程 情報工学 機械学習 中川 裕志著、東京大学工学教程編纂委員会 編 丸善出版 ▪ パターン認識と機械学習 上・下 C.M. ビショップ著 丸善出版
  23. 参考文献 - - 49 1. Graves, A., Fernández, S., Gomez,

    F., & Schmidhuber, J. (2006, June). Connectionist temporal classification: labelling unsegmented sequence data with recurrent neural networks. In Proceedings of the 23rd international conference on Machine learning (pp. 369-376). 2. Dahl, G. E., Yu, D., Deng, L., & Acero, A. (2011). Context-dependent pre-trained deep neural networks for large-vocabulary speech recognition. IEEE Transactions on audio, speech, and language processing, 20(1), 30-42. 3. Hannun, A., Case, C., Casper, J., Catanzaro, B., Diamos, G., Elsen, E., ... & Ng, A. Y. (2014). Deep speech: Scaling up end-to-end speech recognition. arXiv preprint arXiv:1412.5567. 4. Girshick, R., Donahue, J., Darrell, T., & Malik, J. (2014). Rich feature hierarchies for accurate object detection and semantic segmentation. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 580-587). 5. Vinyals, O., Toshev, A., Bengio, S., & Erhan, D. (2015). Show and tell: A neural image caption generator. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 3156-3164). 6. Ren, S., He, K., Girshick, R., & Sun, J. (2015). Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in neural information processing systems, 28, 91-99. 7. Wu, Y., Schuster, M., Chen, Z., Le, Q. V., Norouzi, M., Macherey, W., ... & Dean, J. (2016). Google's neural machine translation system: Bridging the gap between human and machine translation. arXiv preprint arXiv:1609.08144. 8. Liu, W., Anguelov, D., Erhan, D., Szegedy, C., Reed, S., Fu, C. Y., & Berg, A. C. (2016, October). Ssd: Single shot multibox detector. In European conference on computer vision (pp. 21-37). Springer, Cham.
  24. 参考文献 - - 50 1. Redmon, J., Divvala, S., Girshick,

    R., & Farhadi, A. (2016). You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 779-788). 2. Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., ... & Polosukhin, I. (2017). Attention is all you need. In Advances in neural information processing systems (pp. 5998-6008). 3. 神田直之. (2017). 音声認識における深層学習に基づく音響モデル. 日本音響学会誌, 73(1), 31-38. 4. Cao, Z., Simon, T., Wei, S. E., & Sheikh, Y. (2017). Realtime multi-person 2d pose estimation using part affinity fields. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7291- 7299). 5. Güler, R. A., Neverova, N., & Kokkinos, I. (2018). Densepose: Dense human pose estimation in the wild. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 7297-7306). 6. Irie, K., Zeyer, A., Schlüter, R., & Ney, H. (2019). Language modeling with deep transformers. arXiv preprint arXiv:1905.04226. 7. Neverova, N., Novotny, D., Khalidov, V., Szafraniec, M., Labatut, P., & Vedaldi, A. (2020). Continuous surface embeddings. arXiv preprint arXiv:2011.12438. 8. Carion, N., Massa, F., Synnaeve, G., Usunier, N., Kirillov, A., & Zagoruyko, S. (2020, August). End-to-end object detection with transformers. In European Conference on Computer Vision (pp. 213-229). Springer, Cham.