Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
NTCIR-17 Transfer タスク
Search
Sponsored
·
Your Podcast. Everywhere. Effortlessly.
Share. Educate. Inspire. Entertain. You do you. We'll handle the rest.
→
Hideo Joho
September 28, 2022
Research
0
380
NTCIR-17 Transfer タスク
NTCIR-17にパイロットタスクとして採択されたTransferタスクの紹介
Hideo Joho
September 28, 2022
Tweet
Share
More Decks by Hideo Joho
See All by Hideo Joho
NTCIR-17 Transfer Task
hideojoho
0
200
HCIR輪読会2021 フェアネス 第8章 // HCIR Group Reading 2021 on Fairness: Chapter 8
hideojoho
0
180
HCIR輪読会2021 フェアネス 書籍紹介 // HCIR Group Reading 2021 on Fairness: Book Introduction
hideojoho
1
210
HCIR輪読会2021 フェアネス 第1章 // HCIR Group Reading 2021 on Fairness: Chapter 1
hideojoho
0
120
Other Decks in Research
See All in Research
オーストリア流 都市の公共交通サービス水準評価@公共交通オープンデータ最前線2026
trafficbrain
0
110
Dwangoでの漫画データ活用〜漫画理解と動画作成〜@コミック工学シンポジウム2025
kzmssk
0
190
競合や要望に流されない─B2B SaaSでミニマム要件を決めるリアルな取り組み / Don't be swayed by competitors or requests - A real effort to determine minimum requirements for B2B SaaS
kaminashi
0
1.1k
Akamaiのキャッシュ効率を支えるAdaptSizeについての論文を読んでみた
bootjp
1
530
AIを叩き台として、 「検証」から「共創」へと進化するリサーチ
mela_dayo
0
190
Tiaccoon: Unified Access Control with Multiple Transports in Container Networks
hiroyaonoe
0
1.2k
衛星×エッジAI勉強会 衛星上におけるAI処理制約とそ取組について
satai
4
350
2026 東京科学大 情報通信系 研究室紹介 (大岡山)
icttitech
0
990
「行ける・行けない表」による地域公共交通の性能評価
bansousha
0
130
svc-hook: hooking system calls on ARM64 by binary rewriting
retrage
2
180
量子コンピュータの紹介
oqtopus
0
250
[SITA2025 Workshop] 空中計算による高速・低遅延な分散回帰分析
k_sato
0
130
Featured
See All Featured
Fireside Chat
paigeccino
42
3.8k
JavaScript: Past, Present, and Future - NDC Porto 2020
reverentgeek
52
5.9k
Understanding Cognitive Biases in Performance Measurement
bluesmoon
32
2.8k
Documentation Writing (for coders)
carmenintech
77
5.3k
How to make the Groovebox
asonas
2
2k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
287
14k
コードの90%をAIが書く世界で何が待っているのか / What awaits us in a world where 90% of the code is written by AI
rkaga
61
43k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
4k
Primal Persuasion: How to Engage the Brain for Learning That Lasts
tmiket
0
300
Data-driven link building: lessons from a $708K investment (BrightonSEO talk)
szymonslowik
1
980
More Than Pixels: Becoming A User Experience Designer
marktimemedia
3
360
Heart Work Chapter 1 - Part 1
lfama
PRO
5
35k
Transcript
NTCIR-17 Transfer タスク 資源リサイクル型密検索技術 上保 秀夫 筑波大学 欅 惇志 一橋大学
大場 勇貴 筑波大学 English Version with audio 日本語版(音声付き)
概要 2
資源転移の例 • タスク横断 ◦ 案内型クエリ (Navigational queries) から情報型クエリ (Informational queries)
への再学習 ◦ 言語モデルからランキングモデルへの再学習 • ドメイン横断 ◦ Web 文書から学術記事へのドメイン適合 • 言語横断 ◦ 英語モデルから日本語モデル • などなど… 3
利用可能データ • 既存データ ◦ 英語版 MS MARCO (ver 1) (eMARCO)
◦ NTCIR-1 Ad-Hoc test collection (日本語) ◦ NTCIR-2 Ad-Hoc test collection (日本語) ◦ BERT モデル (英語/日本語) • オーナイザーから提供予定のデータ ◦ 日本語翻訳版 MS MARCO (ver 1) (jMARCO) ▪ 文書コレクションと Dev トピック (暫定版の翻訳済み) ▪ JParaCrawl version 2 + DeepL API ◦ jMARCO による学習済みの ColBERT モデル ◦ Dev / jMARCO による学習済みの BERT リランカー 4
サブタスク1: Dense First Stage Retrieval • 入力/出力 ◦ 入力: Ad-Hoc
task の トピック記述 ◦ 出力: 順位付けされた検索結果の上位 10,00件文書 ID • Dev/Test ◦ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック ◦ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック • 評価尺度 ◦ nDCG 5
サブタスク2: Dense Reranking Subtask • 入力/出力 ◦ 入力: 第1段階検索結果の上位 1,000
件 (文書ID、ベクトルデータ、等 ) ▪ オーガナイザーらによって提供 ◦ 出力: 再順位付けされた検索結果の上位 100 件文書 ID • Dev/Test ◦ Dev: NTCIR-1 Ad-Hoc/CLIR (日本語) 83 トピック ◦ Test: NTCIR-2 Ad-Hoc/CLIR (日本語) 49 トピック • 評価指標 ◦ nDCG / MRR 6
暫定版スケジュール • 9/28, 2022: Kick-off event • 1/30, 2023: 最終タスクガイドライン公開,全資源データの公開
• 2/1, 2023: Formal Run: Dev/Test topics 公開 • 5/1, 2023: Formal Run: タスク参加登録期限 • 6/1, 2023: Formal Run: ラン提出期限 • 8/1, 2023: Formal Run: 評価結果返却 • 8/1, 2023: Task overview paper 公開 (ドラフト版) • 9/1, 2023: 参加者の論文投稿期限 (ドラフト版) • 11/1, 2023: Camera-ready 版論文投稿期限 • 12月, 2023: NTCIR-17 Conference 7
タスク設計の検討事項 1. 疎検索モデル (例:BM25のみ) のランは対象外、単純な再学習済みランは OK 2. サブタスク2の入力文書(固定 vs. サブタスク1のランを活用)
3. 現時点ではターゲットタスク言語が日本語のみ 4. 現時点では利用可能なデータやモデルに制約なし 5. Dry Run 時期を設けていない 6. Formal run の提出数は1チーム3-5 を検討中 7. Test sets の正解データを参加者が閲覧しないことを前提( ←重要) 8. 追加の適合性判定作業を実施する可能性あり 9. リーダーボードの導入の可能性あり 10. 資源ガイドや成功事例の構築を予定 8
アドバイザリー・ボード • Noriko Kando (NII, Japan) • Doug Oard (University
of Maryland, US) • 随時追加 9
最新情報・問い合わせ • Webサイト https://hcir.slis.tsukuba.ac.jp/project/ntcir-transfer/ • 連絡先
[email protected]
• Twitter #ntcir_transfer
• Slack (タスク参加登録者限定) 10