Slide 1

Slide 1 text

1 © PKSHA Technology All rights reserved. Team: VARCH AI王 〜クイズAI日本一決定戦〜 第3回コンペティション 2022.12.2 星野 悠一郎 福地 成彦

Slide 2

Slide 2 text

2 © PKSHA Technology All rights reserved. 自己紹介 # 経歴 PKSHA Technology inc. (パークシャと読みます) Our Mission:「未来のソフトウエアを形にする」 ソリューション事業と PKSHA Chatbot を始めとしたプロダクト事業を複数展開 ● 文法誤り訂正や質問応答の研究開発・プロジェクトに従事 早稲田大学 物理学専攻 助手 ● 理論物理学(ブラックホール、カオス) # NLP 採用情報 転職に関する相談等、もしありましたら私までお気軽にご連絡ください。 星野 悠一郎 Yuichiro Hoshino https://github.com/4kasha [email protected]

Slide 3

Slide 3 text

3 © PKSHA Technology All rights reserved. 投稿システム概要 Q. 1915年にアインシュタインにより 提唱された理論は? Reader (抽出 / 生成) A. 一般相対性理論 Title : 物理学 1915年、アインシュタインは特殊相対性理論を拡張し、 一般相対性理論 で重力を説明 した。特殊相対論によって、力学と電磁気学の理論は整合的に説明できるようになった が、重力に関してはニュートンの万有引力の法則以上の満足な説明を与えることがで きなかった。一般相対論によって、重力の作用を含めた包括的な説明ができるように なった。一般相対論において、ニュートンの万有引力の法則は低質量かつ低エネル ギーの領域における近似理論と見なすことができた。 passages Retriever (検索)

Slide 4

Slide 4 text

4 © PKSHA Technology All rights reserved. 投稿システム概要 Reader (生成) ✔ AIO v2.0 train    + 外部データ ✔ みんはや [5] ✔ quiz works [6] ✔ 語壷 [7] total: 74,175 ※ 外部データは全てAIOと 同様の正規化 [8] を実施 & 重複を削除 ✔ passages-c400-jawiki-20220404 ✔ released ver. [9] ✔ 5,280,751 passages ✔ fusion-in-decoder [4] ✔ mT5-large (1.2B) ✔ 100 docs Retriever (検索) ✔ DPR [1,2] ✔ BM25 [3] ✔ Reranker

Slide 5

Slide 5 text

5 © PKSHA Technology All rights reserved. 投稿システム概要 Reader (生成) ✔ AIO v2.0 train    + 外部データ ✔ みんはや [5] ✔ quiz works [6] ✔ 語壷 [7] total: 74,175 ※ 外部データは全てAIOと 同様の正規化 [8] を実施 & 重複を削除 ✔ passages-c400-jawiki-20220404 ✔ released ver. [9] ✔ 5,280,751 passages ✔ fusion-in-decoder [4] ✔ mT5-large (1.2B) ✔ 100 docs Retriever (検索) ✔ DPR [1,2] ✔ BM25 [3] ✔ Reranker

Slide 6

Slide 6 text

6 © PKSHA Technology All rights reserved. Hybrid Searcher [10] (stage-1) Dense query DPR Reranker model [11,12] (stage-2) top-100 top-200 MonoT5 query: *** doc: ### label: {True, False} Sparse BM25 FiD ・・・ - softmax only on the logits of the label tokens. - rerank according to the probabilities assigned to the “true” token. Scheme for improving retriever: multi-stage retrieval pipeline

Slide 7

Slide 7 text

7 © PKSHA Technology All rights reserved. Recall@k at each stage & Leaderboard score (具体的な値は参考程度に ) R@1 R@5 R@10 R@50 R@100 40.90 67.10 72.60 84.40 87.00 model stage DPR 48.70 70.90 76.70 85.20 89.00 BM25 58.00 77.30 81.70 89.60 91.50 Hybrid (alpha=1.3) 68.20 83.60 87.00 92.00 92.20 Reranked DPR Recall@1000: 91.60 Recall@2000: 91.90 BM25 Recall@1000: 93.90 Recall@2000: 94.60 ※ Hybrid (BM25+DPR) : retrieve 100 docs for each, sum up normalized scores as follows ※ Reranked : trained mT5-large with millions of pair of query and docs, used {“positive”, “negative”} as label tokens ※ retrieval capability at stage 0 51.00 71.90 76.50 85.20 87.30 DPR_rag 0 1 2 0.73 0.78 0.82 0.846 DPR + FiD (n=50) Hybrid + FiD (n=50) Data aug (外部データ) Reranked + FiD (n=100) Leaderboard score

Slide 8

Slide 8 text

8 © PKSHA Technology All rights reserved. 8 その他のアプローチ

Slide 9

Slide 9 text

9 © PKSHA Technology All rights reserved. GTR : Generalizable T5-based dense Retrievers (2021, Google) [13] ※ チームメンバーの福地さんが担当 1. MS MARCO [14] 日本語翻訳版の構築 ○ 公開されている英日翻訳モデル ○ 逆翻訳及び、言い換えモデルによる フィルタリング ○ 2. AIO v2.0 DPR train ● DPR, ColBERT よりも精度が良く、OOD にも強い ● T5 family encoder を使用し、q/passages encoder のパラメータは共有 ● “関連がある”ペアで大規模な事前学習しその後、質の高いデータで fine-tune

Slide 10

Slide 10 text

10 © PKSHA Technology All rights reserved. Retrieval-Augmented 言語モデル ● x : 質問, y : 解答 として、xについての検索結果である文書を z という潜在変数とみなし、考慮する関連文書集合 Z 全体で周辺化 された言語モデル. ● End-to-End の学習が可能であり、学習中に DPR の(局所的な) リランキングが可能 RAG: Retrieval-Augmented Generation (2020, Facebook) [15] R@1 R@5 R@10 R@50 R@100 40.90 67.10 72.60 84.40 87.00 model stage DPR 48.70 70.90 76.70 85.20 89.00 BM25 51.00 71.90 76.50 85.20 87.30 DPR_rag 0 ※ 再掲 (値は参考程度に) Retriever (検索スコア) Reader (生成モデル)

Slide 11

Slide 11 text

11 © PKSHA Technology All rights reserved. 参考文献リスト 1. [Karpukhin+ 2020] Dense Passage Retrieval for Open-Domain Question Answering. arXiv:2004.04906. 2. https://github.com/cl-tohoku/AIO3_FiD_baseline/tree/main/retrievers/AIO3_DPR 3. https://www.elastic.co/jp/elasticsearch/ 4. [Izacard & Grave 2020] Leveraging Passage Retrieval with Generative Models for Open Domain Question Answering. arXiv:2007.01282. 5. https://ss1.xrea.com/quizstocker.s1010.xrea.com / https://livequiz.work/minhaya1/ 6. https://quiz-works.com/ 7. http://www.misakichi.net/quiz/gogogo.htm 8. https://github.com/cl-tohoku/quiz-datasets 9. https://github.com/singletongue/wikipedia-utils/releases/tag/2022-04-04 10. [Ma+ 2021] A Replication Study of Dense Passage Retriever. arXiv:2104.05740. 11. [Nogueira+ 2020] Document Ranking with a Pretrained Sequence-to-Sequence Model. arXiv:2003.06713 12. [Pradeep+ 2021] The Expando-Mono-Duo Design Pattern for Text Ranking with Pretrained Sequence-to-Sequence Models. arXiv:2101.05667. 13. [Ni+ 2021] Large Dual Encoders Are Generalizable Retrievers. arXiv:2112.07899. 14. https://microsoft.github.io/msmarco/ 15. [Lewis+ 2020] Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks. In Proc. of NeurIPS 2020. arXiv:2005.11401.

Slide 12

Slide 12 text

12 © PKSHA Technology All rights reserved.