Upgrade to Pro — share decks privately, control downloads, hide ads and more …

NTCIR-17 Transfer タスク

Hideo Joho
PRO
September 28, 2022

NTCIR-17 Transfer タスク

NTCIR-17にパイロットタスクとして採択されたTransferタスクの紹介

Hideo Joho
PRO

September 28, 2022
Tweet

More Decks by Hideo Joho

Other Decks in Research

Transcript

  1. NTCIR-17 Transfer タスク
    資源リサイクル型密検索技術
    上保 秀夫 筑波大学
    欅 惇志 一橋大学
    大場 勇貴 筑波大学
    English Version with audio
    日本語版(音声付き)

    View Slide

  2. 概要
    2

    View Slide

  3. 資源転移の例
    ● タスク横断
    ○ 案内型クエリ (Navigational queries) から情報型クエリ (Informational queries) への再学習
    ○ 言語モデルからランキングモデルへの再学習
    ● ドメイン横断
    ○ Web 文書から学術記事へのドメイン適合
    ● 言語横断
    ○ 英語モデルから日本語モデル
    ● などなど…
    3

    View Slide

  4. 利用可能データ
    ● 既存データ
    ○ 英語版 MS MARCO (ver 1) (eMARCO)
    ○ NTCIR-1 Ad-Hoc test collection (日本語)
    ○ NTCIR-2 Ad-Hoc test collection (日本語)
    ○ BERT モデル (英語/日本語)
    ● オーナイザーから提供予定のデータ
    ○ 日本語翻訳版 MS MARCO (ver 1) (jMARCO)
    ■ 文書コレクションと Dev トピック (暫定版の翻訳済み)
    ■ JParaCrawl version 2 + DeepL API
    ○ jMARCO による学習済みの ColBERT モデル
    ○ Dev / jMARCO による学習済みの BERT リランカー
    4

    View Slide

  5. サブタスク1: Dense First Stage Retrieval
    ● 入力/出力
    ○ 入力: Ad-Hoc task の トピック記述
    ○ 出力: 順位付けされた検索結果の上位 10,00件文書 ID
    ● Dev/Test
    ○ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック
    ○ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック
    ● 評価尺度
    ○ nDCG
    5

    View Slide

  6. サブタスク2: Dense Reranking Subtask
    ● 入力/出力
    ○ 入力: 第1段階検索結果の上位 1,000 件 (文書ID、ベクトルデータ、等 )
    ■ オーガナイザーらによって提供
    ○ 出力: 再順位付けされた検索結果の上位 100 件文書 ID
    ● Dev/Test
    ○ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック
    ○ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック
    ● 評価指標
    ○ nDCG / MRR
    6

    View Slide

  7. 暫定版スケジュール
    ● 9/28, 2022: Kick-off event
    ● 1/30, 2023: 最終タスクガイドライン公開,全資源データの公開
    ● 2/1, 2023: Formal Run: Dev/Test topics 公開
    ● 5/1, 2023: Formal Run: タスク参加登録期限
    ● 6/1, 2023: Formal Run: ラン提出期限
    ● 8/1, 2023: Formal Run: 評価結果返却
    ● 8/1, 2023: Task overview paper 公開 (ドラフト版)
    ● 9/1, 2023: 参加者の論文投稿期限 (ドラフト版)
    ● 11/1, 2023: Camera-ready 版論文投稿期限
    ● 12月, 2023: NTCIR-17 Conference
    7

    View Slide

  8. タスク設計の検討事項
    1. 疎検索モデル (例:BM25のみ) のランは対象外、単純な再学習済みランは
    OK
    2. サブタスク2の入力文書(固定 vs. サブタスク1のランを活用)
    3. 現時点ではターゲットタスク言語が日本語のみ
    4. 現時点では利用可能なデータやモデルに制約なし
    5. Dry Run 時期を設けていない
    6. Formal run の提出数は1チーム3-5 を検討中
    7. Test sets の正解データを参加者が閲覧しないことを前提(
    ←重要)
    8. 追加の適合性判定作業を実施する可能性あり
    9. リーダーボードの導入の可能性あり
    10. 資源ガイドや成功事例の構築を予定
    8

    View Slide

  9. アドバイザリー・ボード
    ● Noriko Kando (NII, Japan)
    ● Doug Oard (University of Maryland, US)
    ● 随時追加
    9

    View Slide

  10. 最新情報・問い合わせ
    ● Webサイト https://hcir.slis.tsukuba.ac.jp/project/ntcir-transfer/
    ● 連絡先 [email protected]
    ● Twitter #ntcir_transfer
    ● Slack (タスク参加登録者限定)
    10

    View Slide