ウェブから能動学習の観点で有益なデータを取得する

1 KYOTO UNIVERSITY KYOTO UNIVERSITY ウェブから能動学習の観点で有益なデータを取得する佐藤竜馬 Active Learning
from the Web (WWW 2023)

2 KYOTO UNIVERSITY データのラベル付けにはコストがかかる猫犬猫アノテーションは大変…… :
:

3 KYOTO UNIVERSITY 能動学習によりラベル付けのコストは軽減される ◼ 能動学習では 1000 個のラベルなしデータが与えられ、モデルの様子を見ながら珠玉の 10
個を選びラベル付けをする ◼ ラベルなしデータの良さそう度合い（獲得関数）としては様々な効果的な指標が提案されているモデルやりとり数千のデータプールラベルなしデータ獲得関数

4 KYOTO UNIVERSITY 既存の能動学習ではラベルなしデータを集めるのが大変 ◼ 既存の能動学習の問題点（本研究の着眼点） ⚫ ラベルなしデータを用意するのが大変ラベルなしとはいえ、なんでも良いという訳ではないタスクに関係のある
1000 データを集めるのは大変既存研究はこれらをタダで収集できると仮定しているが、現実そうではないと我々は主張する ⚫ 既存法データサイズは数千～せいぜい数百万に限定

5 KYOTO UNIVERSITY 提案法は初のウェブスケールの能動学習手法 ◼ 本研究はウェブをラベルなしデータの源（数百億サイズ！）とみなして能動学習を適用することを提案ウェブはそこにあるので自前で構築する手間はないウェブは広いので有用なデータがあると期待できる ◼
本研究は初のウェブスケールの能動学習手法ウェブから有用な機械学習用のデータを自動で集めてこられるモデルやりとり数億のデータラベルなしデータ

6 KYOTO UNIVERSITY 数百億ものデータから良いデータを見つけるのは難しい ◼ 言うのは簡単だが、実行するのは難しいなぜこの問題設定がチャレンジングなのか： ◼ 数百億ものデータをひとつひとつ検査して良さそう度合いを測り珠玉のデータセットを選ぶのは手に負えない
◼ 数百億ものデータはそもそも手元にダウンロードするのすら無理 ◼ 適当にサンプリングすると関係のないデータばかりになる動物分類したいのに自撮り画像ばかり残る

7 KYOTO UNIVERSITY 解決策：ユーザーサイドの検索システム

8 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ ユーザーサイドの検索システムとは、ユーザーが外部のウェブサービスの検索システムを自分で作る技術佐藤が [Sato WSDM
2022] で発表 ◼ ウェブサービス（Google、Amazon、Flickr、インスタグラム）の検索エンジンを利用するとき、検索のランキングはふつう、サービスサイドが決定する ◼ ユーザー自身が独自の基準で検索したいときもある → そういう時にユーザーサイドの検索システム Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.

9 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）
スコア s(x) Tiara は [Sato 2022 WSDM] で提案されたユーザーサイド検索アルゴリズムスコア関数はユーザーが定義する構図に基づいた類似度、色に基づいた類似度 etc ターゲットサービスは変更可 Flickr のデータベース高スコアクエリユーザー画像

ターゲットサービスは変更可 Flickr のデータベース画像内容に基づく類似度スコア Flickr からの類似画像検索高スコアクエリユーザー画像

ターゲットサービスは変更可 Flickr のデータベース色彩に基づく類似度スコア Flickr からの色彩類似画像検索高スコアクエリユーザー画像

ターゲットサービスは変更可 Flickr のデータベース色彩に基づく類似度スコアインスタグラムからの色彩類似画像検索高スコアクエリユーザー画像

13 KYOTO UNIVERSITY 提案法 Seafaring

14 KYOTO UNIVERSITY 能動学習の獲得関数をスコア関数としてデータを検索 ◼ 提案法 Seafaring は検索のスコア関数に能動学習の獲得関数を用いる ◼
これにより、ウェブから有用な機械学習用のデータを自動で集めてこられるターゲットサービスは変更可能動学習の獲得関数モデル設定訓練に有用なデータ

15 KYOTO UNIVERSITY 実験

16 KYOTO UNIVERSITY ランダム手法と従来の能動学習と比較 ◼ ベースライン手法の紹介 ◼ Random：候補のラベルなしデータ集合は Seafaring
と同じそこからラベル付けデータを選ぶ方法がランダム候補は多いが選び方が適当 ◼ SmallExact：候補のラベルなしデータ集合をランダムに 1000 件取得そこからラベル付けデータを選ぶ方法は Seafaring と同じ獲得関数を使い、一つずつ検査して最良のデータを選ぶ候補は少ないが選び方は厳密（従来の能動学習）

17 KYOTO UNIVERSITY 制御された環境での実験：Seafaring の勝利 ◼ 環境 1: OpenImage を使ってローカルに構築した巨大なプール
◼ パネルはそれぞれ二値分類問題を表している Canivore: この画像は肉食動物か？ラベル付け枚数 Seafaring が高性能

18 KYOTO UNIVERSITY 実世界環境での実験：Seafaring の勝利 ◼ 環境 2: 実世界の Flickr
環境（数百億サイズ）先ほどの例よりも全体的に AUC が高いのは、異なるラベルの定義を使っているためラベル付け枚数 Seafaring が高性能

19 KYOTO UNIVERSITY 結論

20 KYOTO UNIVERSITY 提案法はウェブから自動で機械学習用のデータを収集 ◼ 提案法 Seafaring は数百億サイズの能動学習を実現する ◼ ウェブは「そこにある」ので自前でデータを用意する手間がない
◼ ウェブは広いので、さまざまなタスクに対して有用なデータを獲得できる論文： https://arxiv.org/abs/2210.08205 コード：https://github.com/joisino/seafaring Seafaring は世界初のウェブスケールの能動学習手法である

ウェブから能動学習の観点で有益なデータを取得する

ウェブから能動学習の観点で有益なデータを取得する

佐藤竜馬 (Ryoma Sato) PRO

More Decks by 佐藤竜馬 (Ryoma Sato)

Other Decks in Science

Featured

Transcript

1 KYOTO UNIVERSITY KYOTO UNIVERSITY ウェブから能動学習の観点で有益なデータを取得する佐藤竜馬 Active Learning

2 KYOTO UNIVERSITY データのラベル付けにはコストがかかる猫犬猫アノテーションは大変…… :

3 KYOTO UNIVERSITY 能動学習によりラベル付けのコストは軽減される ◼ 能動学習では 1000 個のラベルなしデータが与えられ、モデルの様子を見ながら珠玉の 10

7 KYOTO UNIVERSITY 解決策：ユーザーサイドの検索システム

8 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ ユーザーサイドの検索システムとは、ユーザーが外部のウェブサービスの検索システムを自分で作る技術佐藤が [Sato WSDM

9 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）

10 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）

11 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）

12 KYOTO UNIVERSITY ユーザーサイド検索はユーザー独自の検索を実現する ◼ 入力：ユーザーが定義した任意の関数 s(x) 出力：s(x) を最大化するアイテム x（画像等のデータ）

13 KYOTO UNIVERSITY 提案法 Seafaring

14 KYOTO UNIVERSITY 能動学習の獲得関数をスコア関数としてデータを検索 ◼ 提案法 Seafaring は検索のスコア関数に能動学習の獲得関数を用いる ◼

15 KYOTO UNIVERSITY 実験

16 KYOTO UNIVERSITY ランダム手法と従来の能動学習と比較 ◼ ベースライン手法の紹介 ◼ Random：候補のラベルなしデータ集合は Seafaring

17 KYOTO UNIVERSITY 制御された環境での実験：Seafaring の勝利 ◼ 環境 1: OpenImage を使ってローカルに構築した巨大なプール

18 KYOTO UNIVERSITY 実世界環境での実験：Seafaring の勝利 ◼ 環境 2: 実世界の Flickr

19 KYOTO UNIVERSITY 結論

20 KYOTO UNIVERSITY 提案法はウェブから自動で機械学習用のデータを収集 ◼ 提案法 Seafaring は数百億サイズの能動学習を実現する ◼ ウェブは「そこにある」ので自前でデータを用意する手間がない

ウェブから能動学習の観点で 有益なデータを取得する

ウェブから能動学習の観点で 有益なデータを取得する

More Decks by 佐藤竜馬 (Ryoma Sato)

Other Decks in Science

Featured

Transcript

ウェブから能動学習の観点で有益なデータを取得する

ウェブから能動学習の観点で有益なデータを取得する