サンプリングできれば、より少ないデータでより良いパフォーマ ンスを発揮できる[2] ▪ ラベルの無いデータは容易に手に入るが、アノテーションに高い コストが掛かるようなケースで効果を発揮する 能動学習(Active Learningとは) [1]Monarch, R. (2023). Human-in-the-loop機械学習: 人間参加型AIのための能動学習とアノテーション. 共立出版. [2]Settles, B. (2009) Active Learning Literature Survey. Computer Sciences Technical Report 1648, University of Wisconsin-Madison.
Computer Sciences Technical Report 1648, University of Wisconsin-Madison. 右図:Gal, Y., Islam, R., & Ghahramani, Z. (2017, March 8). Deep Bayesian active learning with Image Data. arXiv.org. https://arxiv.org/abs/1703.02910 ▪ 多くの研究ではランダムサンプリングより効率良く 性能が上がると報告されている
▪ Label Studio Backend ML b. アノテーションツールの準備 ▪ データのアップロード ▪ UIの設定 Label Studio:セットアップ [9] https://www.kaggle.com/datasets/amananandrai/ag-news-classification-dataset AG News Dataset[9] 引用元:https://labelstud.io/guide/ml 引用元:https://labelstud.io/
▪ モデル予測によるアノテーション支援のほうが改善幅が大きそう ▪ そもそも能動学習自体が有効なのか問題 ▪ モデル自体がベストな状態で能動学習手法が比較されていない、 サンプリングにより分布が変わってしまうなどの問題[10] ▪ 実務でも能動学習を実践して知見を貯めていくのが良さそう 能動学習ライブラリ・ツールの課題 [10] Mittal, S., Tatarchenko, M., Çiçek, Ö., & Brox, T. (2019, December 11). Parting with illusions about Deep Active Learning. arXiv.org. https://arxiv.org/abs/1912.05361