ウェブから能動学習の観点で有益なデータを取得する

Slide 1

Slide 1 text

1 KYOTO UNIVERSITY KYOTO UNIVERSITY ウェブから能動学習の観点で有益なデータを取得する佐藤竜馬 Active Learning from the Web (WWW 2023)

Slide 2

Slide 2 text

2 KYOTO UNIVERSITY データのラベル付けにはコストがかかる猫犬猫アノテーションは大変…… : :

Slide 3

Slide 3 text

3 KYOTO UNIVERSITY 能動学習によりラベル付けのコストは軽減される ◼ 能動学習では 1000 個のラベルなしデータが与えられ、モデルの様子を見ながら珠玉の 10 個を選びラベル付けをする ◼ ラベルなしデータの良さそう度合い（獲得関数）としては様々な効果的な指標が提案されているモデルやりとり数千のデータプールラベルなしデータ獲得関数

Slide 4

Slide 4 text

4 KYOTO UNIVERSITY 既存の能動学習ではラベルなしデータを集めるのが大変 ◼ 既存の能動学習の問題点（本研究の着眼点） ⚫ ラベルなしデータを用意するのが大変ラベルなしとはいえ、なんでも良いという訳ではないタスクに関係のある 1000 データを集めるのは大変既存研究はこれらをタダで収集できると仮定しているが、現実そうではないと我々は主張する ⚫ 既存法データサイズは数千～せいぜい数百万に限定

Slide 5

Slide 5 text

5 KYOTO UNIVERSITY 提案法は初のウェブスケールの能動学習手法 ◼ 本研究はウェブをラベルなしデータの源（数百億サイズ！）とみなして能動学習を適用することを提案ウェブはそこにあるので自前で構築する手間はないウェブは広いので有用なデータがあると期待できる ◼ 本研究は初のウェブスケールの能動学習手法ウェブから有用な機械学習用のデータを自動で集めてこられるモデルやりとり数億のデータラベルなしデータ

Slide 6

Slide 6 text

6 KYOTO UNIVERSITY 数百億ものデータから良いデータを見つけるのは難しい ◼ 言うのは簡単だが、実行するのは難しいなぜこの問題設定がチャレンジングなのか： ◼ 数百億ものデータをひとつひとつ検査して良さそう度合いを測り珠玉のデータセットを選ぶのは手に負えない ◼ 数百億ものデータはそもそも手元にダウンロードするのすら無理 ◼ 適当にサンプリングすると関係のないデータばかりになる動物分類したいのに自撮り画像ばかり残る

Slide 7

Slide 7 text

7 KYOTO UNIVERSITY 解決策：ユーザーサイドの検索システム

Slide 8

Slide 8 text

8 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ ユーザーサイドの検索システムとは、ユーザーが外部のウェブサービスの検索システムを自分で作る技術佐藤が [Sato WSDM 2022] で発表 ◼ ウェブサービス（Google、Amazon、Flickr、インスタグラム）の検索エンジンを利用するとき、検索のランキングはふつう、サービスサイドが決定する ◼ ユーザー自身が独自の基準で検索したいときもある → そういう時にユーザーサイドの検索システム Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.

Slide 9

Slide 9 text

9 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）スコア s(x) Tiara は [Sato 2022 WSDM] で提案されたユーザーサイド検索アルゴリズムスコア関数はユーザーが定義する構図に基づいた類似度、色に基づいた類似度 etc ターゲットサービスは変更可 Flickr のデータベース高スコアクエリユーザー画像

Slide 10

Slide 10 text

10 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）ターゲットサービスは変更可 Flickr のデータベース画像内容に基づく類似度スコア Flickr からの類似画像検索高スコアクエリユーザー画像

Slide 11

Slide 11 text

11 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）ターゲットサービスは変更可 Flickr のデータベース色彩に基づく類似度スコア Flickr からの色彩類似画像検索高スコアクエリユーザー画像

Slide 12

Slide 12 text

12 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）ターゲットサービスは変更可 Flickr のデータベース色彩に基づく類似度スコアインスタグラムからの色彩類似画像検索高スコアクエリユーザー画像

Slide 13

Slide 13 text

13 KYOTO UNIVERSITY 提案法 Seafaring

Slide 14

Slide 14 text

14 KYOTO UNIVERSITY 能動学習の獲得関数をスコア関数としてデータを検索 ◼ 提案法 Seafaring は検索のスコア関数に能動学習の獲得関数を用いる ◼ これにより、ウェブから有用な機械学習用のデータを自動で集めてこられるターゲットサービスは変更可能動学習の獲得関数モデル設定訓練に有用なデータ

Slide 15

Slide 15 text

15 KYOTO UNIVERSITY 実験

Slide 16

Slide 16 text

16 KYOTO UNIVERSITY ランダム手法と従来の能動学習と比較 ◼ ベースライン手法の紹介 ◼ Random：候補のラベルなしデータ集合は Seafaring と同じそこからラベル付けデータを選ぶ方法がランダム候補は多いが選び方が適当 ◼ SmallExact：候補のラベルなしデータ集合をランダムに 1000 件取得そこからラベル付けデータを選ぶ方法は Seafaring と同じ獲得関数を使い、一つずつ検査して最良のデータを選ぶ候補は少ないが選び方は厳密（従来の能動学習）

Slide 17

Slide 17 text

17 KYOTO UNIVERSITY 制御された環境での実験：Seafaring の勝利 ◼ 環境 1: OpenImage を使ってローカルに構築した巨大なプール ◼ パネルはそれぞれ二値分類問題を表している Canivore: この画像は肉食動物か？ラベル付け枚数 Seafaring が高性能

Slide 18

Slide 18 text

18 KYOTO UNIVERSITY 実世界環境での実験：Seafaring の勝利 ◼ 環境 2: 実世界の Flickr 環境（数百億サイズ）先ほどの例よりも全体的に AUC が高いのは、異なるラベルの定義を使っているためラベル付け枚数 Seafaring が高性能

Slide 19

Slide 19 text

19 KYOTO UNIVERSITY 結論

Slide 20

Slide 20 text

20 KYOTO UNIVERSITY 提案法はウェブから自動で機械学習用のデータを収集 ◼ 提案法 Seafaring は数百億サイズの能動学習を実現する ◼ ウェブは「そこにある」ので自前でデータを用意する手間がない ◼ ウェブは広いので、さまざまなタスクに対して有用なデータを獲得できる論文： https://arxiv.org/abs/2210.08205 コード：https://github.com/joisino/seafaring Seafaring は世界初のウェブスケールの能動学習手法である