Active Learning from the Web (WWW 2023) https://arxiv.org/abs/2210.08205 の紹介スライドです。
GitHub: https://github.com/joisino/seafaring
人工知能学会全国大会 (JSAI 2023) の発表で使用したスライドです。 https://confit.atlas.jp/guide/event/jsai2023/subject/4L3-GS-4-01/tables
1 KYOTO UNIVERSITYKYOTO UNIVERSITYウェブから能動学習の観点で有益なデータを取得する佐藤竜馬Active Learning from the Web (WWW 2023)
View Slide
2 KYOTO UNIVERSITYデータのラベル付けにはコストがかかる猫犬猫アノテーションは大変……::
3 KYOTO UNIVERSITY能動学習によりラベル付けのコストは軽減される◼能動学習では 1000 個のラベルなしデータが与えられ、モデルの様子を見ながら珠玉の 10 個を選びラベル付けをする◼ラベルなしデータの良さそう度合い(獲得関数)としては様々な効果的な指標が提案されているモデルやりとり数千のデータプールラベルなしデータ獲得関数
4 KYOTO UNIVERSITY既存の能動学習ではラベルなしデータを集めるのが大変◼既存の能動学習の問題点(本研究の着眼点)⚫ラベルなしデータを用意するのが大変ラベルなしとはいえ、なんでも良いという訳ではないタスクに関係のある 1000 データを集めるのは大変既存研究はこれらをタダで収集できると仮定しているが、現実そうではないと我々は主張する⚫既存法データサイズは数千~せいぜい数百万に限定
5 KYOTO UNIVERSITY提案法は初のウェブスケールの能動学習手法◼本研究はウェブをラベルなしデータの源(数百億サイズ!)とみなして能動学習を適用することを提案ウェブはそこにあるので自前で構築する手間はないウェブは広いので有用なデータがあると期待できる◼本研究は初のウェブスケールの能動学習手法ウェブから有用な機械学習用のデータを自動で集めてこられるモデルやりとり数億のデータラベルなしデータ
6 KYOTO UNIVERSITY数百億ものデータから良いデータを見つけるのは難しい◼言うのは簡単だが、実行するのは難しいなぜこの問題設定がチャレンジングなのか:◼数百億ものデータをひとつひとつ検査して良さそう度合いを測り珠玉のデータセットを選ぶのは手に負えない◼数百億ものデータはそもそも手元にダウンロードするのすら無理◼適当にサンプリングすると関係のないデータばかりになる動物分類したいのに自撮り画像ばかり残る
7 KYOTO UNIVERSITY解決策:ユーザーサイドの検索システム
8 KYOTO UNIVERSITYユーザーサイド検索はユーザー独自の検索を実現する◼ユーザーサイドの検索システムとは、ユーザーが外部のウェブサービスの検索システムを自分で作る技術佐藤が [Sato WSDM 2022] で発表◼ウェブサービス(Google、Amazon、Flickr、インスタグラム)の検索エンジンを利用するとき、検索のランキングはふつう、サービスサイドが決定する◼ユーザー自身が独自の基準で検索したいときもある→ そういう時にユーザーサイドの検索システムRyoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.
9 KYOTO UNIVERSITYユーザーサイド検索はユーザー独自の検索を実現する◼入力:ユーザーが定義した任意の関数 s(x)出力:s(x) を最大化するアイテム x(画像等のデータ)スコアs(x)Tiara は [Sato 2022 WSDM] で提案されたユーザーサイド検索アルゴリズムスコア関数はユーザーが定義する構図に基づいた類似度、色に基づいた類似度 etcターゲットサービスは変更可Flickr のデータベース高スコアクエリユーザー画像
10 KYOTO UNIVERSITYユーザーサイド検索はユーザー独自の検索を実現する◼入力:ユーザーが定義した任意の関数 s(x)出力:s(x) を最大化するアイテム x(画像等のデータ)ターゲットサービスは変更可Flickr のデータベース画像内容に基づく類似度スコアFlickr からの類似画像検索高スコアクエリユーザー画像
11 KYOTO UNIVERSITYユーザーサイド検索はユーザー独自の検索を実現する◼入力:ユーザーが定義した任意の関数 s(x)出力:s(x) を最大化するアイテム x(画像等のデータ)ターゲットサービスは変更可Flickr のデータベース色彩に基づく類似度スコアFlickr からの色彩類似画像検索高スコアクエリユーザー画像
12 KYOTO UNIVERSITYユーザーサイド検索はユーザー独自の検索を実現する◼入力:ユーザーが定義した任意の関数 s(x)出力:s(x) を最大化するアイテム x(画像等のデータ)ターゲットサービスは変更可Flickr のデータベース色彩に基づく類似度スコアインスタグラムからの色彩類似画像検索高スコアクエリユーザー画像
13 KYOTO UNIVERSITY提案法 Seafaring
14 KYOTO UNIVERSITY能動学習の獲得関数をスコア関数としてデータを検索◼提案法 Seafaring は検索のスコア関数に能動学習の獲得関数を用いる◼これにより、ウェブから有用な機械学習用のデータを自動で集めてこられるターゲットサービスは変更可能動学習の獲得関数モデル設定訓練に有用なデータ
15 KYOTO UNIVERSITY実験
16 KYOTO UNIVERSITYランダム手法と従来の能動学習と比較◼ベースライン手法の紹介◼ Random:候補のラベルなしデータ集合は Seafaring と同じそこからラベル付けデータを選ぶ方法がランダム候補は多いが選び方が適当◼ SmallExact:候補のラベルなしデータ集合をランダムに 1000 件取得そこからラベル付けデータを選ぶ方法は Seafaring と同じ獲得関数を使い、一つずつ検査して最良のデータを選ぶ候補は少ないが選び方は厳密(従来の能動学習)
17 KYOTO UNIVERSITY制御された環境での実験:Seafaring の勝利◼環境 1: OpenImage を使ってローカルに構築した巨大なプール◼パネルはそれぞれ二値分類問題を表しているCanivore: この画像は肉食動物か?ラベル付け枚数Seafaring が高性能
18 KYOTO UNIVERSITY実世界環境での実験:Seafaring の勝利◼環境 2: 実世界の Flickr 環境(数百億サイズ)先ほどの例よりも全体的に AUC が高いのは、異なるラベルの定義を使っているためラベル付け枚数Seafaring が高性能
19 KYOTO UNIVERSITY結論
20 KYOTO UNIVERSITY提案法はウェブから自動で機械学習用のデータを収集◼提案法 Seafaring は数百億サイズの能動学習を実現する◼ウェブは「そこにある」ので自前でデータを用意する手間がない◼ウェブは広いので、さまざまなタスクに対して有用なデータを獲得できる論文: https://arxiv.org/abs/2210.08205コード:https://github.com/joisino/seafaringSeafaring は世界初のウェブスケールの能動学習手法である