Slide 1

Slide 1 text

1 KYOTO UNIVERSITY KYOTO UNIVERSITY ウェブから能動学習の観点で 有益なデータを取得する 佐藤竜馬 Active Learning from the Web (WWW 2023)

Slide 2

Slide 2 text

2 KYOTO UNIVERSITY データのラベル付けにはコストがかかる 猫 犬 猫 アノテーションは 大変…… : :

Slide 3

Slide 3 text

3 KYOTO UNIVERSITY 能動学習によりラベル付けのコストは軽減される ◼ 能動学習では 1000 個のラベルなしデータが与えられ、 モデルの様子を見ながら珠玉の 10 個を選びラベル付けをする ◼ ラベルなしデータの良さそう度合い(獲得関数)としては 様々な効果的な指標が提案されている モデル やりとり 数千のデータプール ラベルなしデータ 獲得関数

Slide 4

Slide 4 text

4 KYOTO UNIVERSITY 既存の能動学習ではラベルなしデータを集めるのが大変 ◼ 既存の能動学習の問題点(本研究の着眼点) ⚫ ラベルなしデータを用意するのが大変 ラベルなしとはいえ、なんでも良いという訳ではない タスクに関係のある 1000 データを集めるのは大変 既存研究はこれらをタダで収集できると仮定しているが、 現実そうではないと我々は主張する ⚫ 既存法データサイズは数千~せいぜい数百万に限定

Slide 5

Slide 5 text

5 KYOTO UNIVERSITY 提案法は初のウェブスケールの能動学習手法 ◼ 本研究はウェブをラベルなしデータの源(数百億サイズ!)と みなして能動学習を適用することを提案 ウェブはそこにあるので自前で構築する手間はない ウェブは広いので有用なデータがあると期待できる ◼ 本研究は初のウェブスケールの能動学習手法 ウェブから有用な機械学習用のデータを自動で集めてこられる モデル やりとり 数億のデータ ラベルなしデータ

Slide 6

Slide 6 text

6 KYOTO UNIVERSITY 数百億ものデータから良いデータを見つけるのは難しい ◼ 言うのは簡単だが、実行するのは難しい なぜこの問題設定がチャレンジングなのか: ◼ 数百億ものデータをひとつひとつ検査して良さそう度合いを測り 珠玉のデータセットを選ぶのは手に負えない ◼ 数百億ものデータはそもそも手元にダウンロードするのすら無理 ◼ 適当にサンプリングすると関係のないデータばかりになる 動物分類したいのに自撮り画像ばかり残る

Slide 7

Slide 7 text

7 KYOTO UNIVERSITY 解決策:ユーザーサイドの検索システム

Slide 8

Slide 8 text

8 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ ユーザーサイドの検索システムとは、ユーザーが外部の ウェブサービスの検索システムを自分で作る技術 佐藤が [Sato WSDM 2022] で発表 ◼ ウェブサービス(Google、Amazon、Flickr、インスタグラム) の検索エンジンを利用するとき、検索のランキングはふつう、 サービスサイドが決定する ◼ ユーザー自身が独自の基準で検索したいときもある → そういう時にユーザーサイドの検索システム Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.

Slide 9

Slide 9 text

9 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ) スコア s(x) Tiara は [Sato 2022 WSDM] で 提案されたユーザーサイド検索アルゴリズム スコア関数はユーザーが定義する 構図に基づいた類似度、色に基づいた類似度 etc ターゲットサービスは変更可 Flickr のデータベース 高スコア クエリ ユーザー 画像

Slide 10

Slide 10 text

10 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ) ターゲットサービスは変更可 Flickr のデータベース 画像内容に 基づく類似度 スコア Flickr からの類似画像検索 高スコア クエリ ユーザー 画像

Slide 11

Slide 11 text

11 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ) ターゲットサービスは変更可 Flickr のデータベース 色彩に基づく 類似度スコア Flickr からの色彩類似画像検索 高スコア クエリ ユーザー 画像

Slide 12

Slide 12 text

12 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力:ユーザーが定義した任意の関数 s(x) 出力:s(x) を最大化するアイテム x(画像等のデータ) ターゲットサービスは変更可 Flickr のデータベース 色彩に基づく 類似度スコア インスタグラムからの色彩類似画像検索 高スコア クエリ ユーザー 画像

Slide 13

Slide 13 text

13 KYOTO UNIVERSITY 提案法 Seafaring

Slide 14

Slide 14 text

14 KYOTO UNIVERSITY 能動学習の獲得関数をスコア関数としてデータを検索 ◼ 提案法 Seafaring は検索のスコア関数に能動学習の 獲得関数を用いる ◼ これにより、ウェブから有用な機械学習用のデータを自動で集 めてこられる ターゲットサービスは変更可 能動学習の 獲得関数 モデル 設定 訓練に 有用な データ

Slide 15

Slide 15 text

15 KYOTO UNIVERSITY 実験

Slide 16

Slide 16 text

16 KYOTO UNIVERSITY ランダム手法と従来の能動学習と比較 ◼ ベースライン手法の紹介 ◼ Random: 候補のラベルなしデータ集合は Seafaring と同じ そこからラベル付けデータを選ぶ方法がランダム 候補は多いが選び方が適当 ◼ SmallExact: 候補のラベルなしデータ集合をランダムに 1000 件取得 そこからラベル付けデータを選ぶ方法は Seafaring と同じ 獲得関数を使い、一つずつ検査して最良のデータを選ぶ 候補は少ないが選び方は厳密(従来の能動学習)

Slide 17

Slide 17 text

17 KYOTO UNIVERSITY 制御された環境での実験:Seafaring の勝利 ◼ 環境 1: OpenImage を使ってローカルに構築した巨大なプール ◼ パネルはそれぞれ二値分類問題を表している Canivore: この画像は肉食動物か? ラベル付け枚数 Seafaring が高性能

Slide 18

Slide 18 text

18 KYOTO UNIVERSITY 実世界環境での実験:Seafaring の勝利 ◼ 環境 2: 実世界の Flickr 環境(数百億サイズ) 先ほどの例よりも全体的に AUC が高いのは、 異なるラベルの定義を使っているため ラベル付け枚数 Seafaring が高性能

Slide 19

Slide 19 text

19 KYOTO UNIVERSITY 結論

Slide 20

Slide 20 text

20 KYOTO UNIVERSITY 提案法はウェブから自動で機械学習用のデータを収集 ◼ 提案法 Seafaring は数百億サイズの能動学習を実現する ◼ ウェブは「そこにある」ので自前でデータを用意する手間がない ◼ ウェブは広いので、さまざまなタスクに対して有用なデータを獲得 できる 論文: https://arxiv.org/abs/2210.08205 コード:https://github.com/joisino/seafaring Seafaring は世界初のウェブスケールの能動学習手法である