NTCIR-17にパイロットタスクとして採択されたTransferタスクの紹介
NTCIR-17 Transfer タスク資源リサイクル型密検索技術上保 秀夫 筑波大学欅 惇志 一橋大学大場 勇貴 筑波大学English Version with audio日本語版(音声付き)
View Slide
概要2
資源転移の例● タスク横断○ 案内型クエリ (Navigational queries) から情報型クエリ (Informational queries) への再学習○ 言語モデルからランキングモデルへの再学習● ドメイン横断○ Web 文書から学術記事へのドメイン適合● 言語横断○ 英語モデルから日本語モデル● などなど…3
利用可能データ● 既存データ○ 英語版 MS MARCO (ver 1) (eMARCO)○ NTCIR-1 Ad-Hoc test collection (日本語)○ NTCIR-2 Ad-Hoc test collection (日本語)○ BERT モデル (英語/日本語)● オーナイザーから提供予定のデータ○ 日本語翻訳版 MS MARCO (ver 1) (jMARCO)■ 文書コレクションと Dev トピック (暫定版の翻訳済み)■ JParaCrawl version 2 + DeepL API○ jMARCO による学習済みの ColBERT モデル○ Dev / jMARCO による学習済みの BERT リランカー4
サブタスク1: Dense First Stage Retrieval● 入力/出力○ 入力: Ad-Hoc task の トピック記述○ 出力: 順位付けされた検索結果の上位 10,00件文書 ID● Dev/Test○ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック○ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック● 評価尺度○ nDCG5
サブタスク2: Dense Reranking Subtask● 入力/出力○ 入力: 第1段階検索結果の上位 1,000 件 (文書ID、ベクトルデータ、等 )■ オーガナイザーらによって提供○ 出力: 再順位付けされた検索結果の上位 100 件文書 ID● Dev/Test○ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック○ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック● 評価指標○ nDCG / MRR6
暫定版スケジュール● 9/28, 2022: Kick-off event● 1/30, 2023: 最終タスクガイドライン公開,全資源データの公開● 2/1, 2023: Formal Run: Dev/Test topics 公開● 5/1, 2023: Formal Run: タスク参加登録期限● 6/1, 2023: Formal Run: ラン提出期限● 8/1, 2023: Formal Run: 評価結果返却● 8/1, 2023: Task overview paper 公開 (ドラフト版)● 9/1, 2023: 参加者の論文投稿期限 (ドラフト版)● 11/1, 2023: Camera-ready 版論文投稿期限● 12月, 2023: NTCIR-17 Conference7
タスク設計の検討事項1. 疎検索モデル (例:BM25のみ) のランは対象外、単純な再学習済みランはOK2. サブタスク2の入力文書(固定 vs. サブタスク1のランを活用)3. 現時点ではターゲットタスク言語が日本語のみ4. 現時点では利用可能なデータやモデルに制約なし5. Dry Run 時期を設けていない6. Formal run の提出数は1チーム3-5 を検討中7. Test sets の正解データを参加者が閲覧しないことを前提(←重要)8. 追加の適合性判定作業を実施する可能性あり9. リーダーボードの導入の可能性あり10. 資源ガイドや成功事例の構築を予定8
アドバイザリー・ボード● Noriko Kando (NII, Japan)● Doug Oard (University of Maryland, US)● 随時追加9
最新情報・問い合わせ● Webサイト https://hcir.slis.tsukuba.ac.jp/project/ntcir-transfer/● 連絡先 [email protected]● Twitter #ntcir_transfer● Slack (タスク参加登録者限定)10