Slide 32
Slide 32 text
multilingual-E5
● Text Embeddings by Weakly-Supervised Contrastive Pre-training
○ 2段階の学習を行いテキストベクトルを高品質化
■ 1段階目
● “noisy”で大規模なデータセットで学習
○ Reddit, Wikipedia, その他Webページからクローリングした文章
■ 2段階目
● 高品質で小規模なデータセットで学習
● 別の教師モデルからの出力をLossに組み込み
(知識蒸留, knowledge distillation)
○ ベースモデルはBERT