Upgrade to Pro — share decks privately, control downloads, hide ads and more …

ウェブから能動学習の観点で 有益なデータを取得する

joisino
June 09, 2023

ウェブから能動学習の観点で 有益なデータを取得する

Active Learning from the Web (WWW 2023) https://arxiv.org/abs/2210.08205 の紹介スライドです。

GitHub: https://github.com/joisino/seafaring

人工知能学会全国大会 (JSAI 2023) の発表で使用したスライドです。 https://confit.atlas.jp/guide/event/jsai2023/subject/4L3-GS-4-01/tables

joisino

June 09, 2023
Tweet

More Decks by joisino

Other Decks in Science

Transcript

  1. 1 KYOTO UNIVERSITY
    KYOTO UNIVERSITY
    ウェブから能動学習の観点で
    有益なデータを取得する
    佐藤竜馬
    Active Learning from the Web (WWW 2023)

    View Slide

  2. 2 KYOTO UNIVERSITY
    データのラベル付けにはコストがかかる



    アノテーションは
    大変……
    :
    :

    View Slide

  3. 3 KYOTO UNIVERSITY
    能動学習によりラベル付けのコストは軽減される

    能動学習では 1000 個のラベルなしデータが与えられ、
    モデルの様子を見ながら珠玉の 10 個を選びラベル付けをする

    ラベルなしデータの良さそう度合い(獲得関数)としては
    様々な効果的な指標が提案されている
    モデル
    やりとり
    数千のデータプール
    ラベルなしデータ
    獲得関数

    View Slide

  4. 4 KYOTO UNIVERSITY
    既存の能動学習ではラベルなしデータを集めるのが大変

    既存の能動学習の問題点(本研究の着眼点)

    ラベルなしデータを用意するのが大変
    ラベルなしとはいえ、なんでも良いという訳ではない
    タスクに関係のある 1000 データを集めるのは大変
    既存研究はこれらをタダで収集できると仮定しているが、
    現実そうではないと我々は主張する

    既存法データサイズは数千~せいぜい数百万に限定

    View Slide

  5. 5 KYOTO UNIVERSITY
    提案法は初のウェブスケールの能動学習手法

    本研究はウェブをラベルなしデータの源(数百億サイズ!)と
    みなして能動学習を適用することを提案
    ウェブはそこにあるので自前で構築する手間はない
    ウェブは広いので有用なデータがあると期待できる

    本研究は初のウェブスケールの能動学習手法
    ウェブから有用な機械学習用のデータを自動で集めてこられる
    モデル
    やりとり
    数億のデータ
    ラベルなしデータ

    View Slide

  6. 6 KYOTO UNIVERSITY
    数百億ものデータから良いデータを見つけるのは難しい

    言うのは簡単だが、実行するのは難しい
    なぜこの問題設定がチャレンジングなのか:

    数百億ものデータをひとつひとつ検査して良さそう度合いを測り
    珠玉のデータセットを選ぶのは手に負えない

    数百億ものデータはそもそも手元にダウンロードするのすら無理

    適当にサンプリングすると関係のないデータばかりになる
    動物分類したいのに自撮り画像ばかり残る

    View Slide

  7. 7 KYOTO UNIVERSITY
    解決策:ユーザーサイドの検索システム

    View Slide

  8. 8 KYOTO UNIVERSITY
    ユーザーサイド検索はユーザー独自の検索を実現する

    ユーザーサイドの検索システムとは、ユーザーが外部の
    ウェブサービスの検索システムを自分で作る技術
    佐藤が [Sato WSDM 2022] で発表

    ウェブサービス(Google、Amazon、Flickr、インスタグラム)
    の検索エンジンを利用するとき、検索のランキングはふつう、
    サービスサイドが決定する

    ユーザー自身が独自の基準で検索したいときもある
    → そういう時にユーザーサイドの検索システム
    Ryoma Sato. Retrieving Black-box Optimal Images from External Databases. WSDM 2022.

    View Slide

  9. 9 KYOTO UNIVERSITY
    ユーザーサイド検索はユーザー独自の検索を実現する

    入力:ユーザーが定義した任意の関数 s(x)
    出力:s(x) を最大化するアイテム x(画像等のデータ)
    スコア
    s(x)
    Tiara は [Sato 2022 WSDM] で
    提案されたユーザーサイド検索アルゴリズム
    スコア関数はユーザーが定義する
    構図に基づいた類似度、色に基づいた類似度 etc
    ターゲットサービスは変更可
    Flickr のデータベース
    高スコア
    クエリ
    ユーザー
    画像

    View Slide

  10. 10 KYOTO UNIVERSITY
    ユーザーサイド検索はユーザー独自の検索を実現する

    入力:ユーザーが定義した任意の関数 s(x)
    出力:s(x) を最大化するアイテム x(画像等のデータ)
    ターゲットサービスは変更可
    Flickr のデータベース
    画像内容に
    基づく類似度
    スコア
    Flickr からの類似画像検索
    高スコア
    クエリ
    ユーザー
    画像

    View Slide

  11. 11 KYOTO UNIVERSITY
    ユーザーサイド検索はユーザー独自の検索を実現する

    入力:ユーザーが定義した任意の関数 s(x)
    出力:s(x) を最大化するアイテム x(画像等のデータ)
    ターゲットサービスは変更可
    Flickr のデータベース
    色彩に基づく
    類似度スコア
    Flickr からの色彩類似画像検索
    高スコア
    クエリ
    ユーザー
    画像

    View Slide

  12. 12 KYOTO UNIVERSITY
    ユーザーサイド検索はユーザー独自の検索を実現する

    入力:ユーザーが定義した任意の関数 s(x)
    出力:s(x) を最大化するアイテム x(画像等のデータ)
    ターゲットサービスは変更可
    Flickr のデータベース
    色彩に基づく
    類似度スコア
    インスタグラムからの色彩類似画像検索
    高スコア
    クエリ
    ユーザー
    画像

    View Slide

  13. 13 KYOTO UNIVERSITY
    提案法 Seafaring

    View Slide

  14. 14 KYOTO UNIVERSITY
    能動学習の獲得関数をスコア関数としてデータを検索

    提案法 Seafaring は検索のスコア関数に能動学習の
    獲得関数を用いる

    これにより、ウェブから有用な機械学習用のデータを自動で集
    めてこられる
    ターゲットサービスは変更可
    能動学習の
    獲得関数
    モデル
    設定
    訓練に
    有用な
    データ

    View Slide

  15. 15 KYOTO UNIVERSITY
    実験

    View Slide

  16. 16 KYOTO UNIVERSITY
    ランダム手法と従来の能動学習と比較

    ベースライン手法の紹介
    ◼ Random:
    候補のラベルなしデータ集合は Seafaring と同じ
    そこからラベル付けデータを選ぶ方法がランダム
    候補は多いが選び方が適当
    ◼ SmallExact:
    候補のラベルなしデータ集合をランダムに 1000 件取得
    そこからラベル付けデータを選ぶ方法は Seafaring と同じ
    獲得関数を使い、一つずつ検査して最良のデータを選ぶ
    候補は少ないが選び方は厳密(従来の能動学習)

    View Slide

  17. 17 KYOTO UNIVERSITY
    制御された環境での実験:Seafaring の勝利

    環境 1: OpenImage を使ってローカルに構築した巨大なプール

    パネルはそれぞれ二値分類問題を表している
    Canivore: この画像は肉食動物か?
    ラベル付け枚数
    Seafaring が高性能

    View Slide

  18. 18 KYOTO UNIVERSITY
    実世界環境での実験:Seafaring の勝利

    環境 2: 実世界の Flickr 環境(数百億サイズ)
    先ほどの例よりも全体的に AUC が高いのは、
    異なるラベルの定義を使っているため
    ラベル付け枚数
    Seafaring が高性能

    View Slide

  19. 19 KYOTO UNIVERSITY
    結論

    View Slide

  20. 20 KYOTO UNIVERSITY
    提案法はウェブから自動で機械学習用のデータを収集

    提案法 Seafaring は数百億サイズの能動学習を実現する

    ウェブは「そこにある」ので自前でデータを用意する手間がない

    ウェブは広いので、さまざまなタスクに対して有用なデータを獲得
    できる
    論文: https://arxiv.org/abs/2210.08205
    コード:https://github.com/joisino/seafaring
    Seafaring は世界初のウェブスケールの能動学習手法である

    View Slide