Slide 1

Slide 1 text

言語モデルを用いた Query Categorizationへの取り組み Search Engineering Tech Talk 2023 Winter 株式会社メルカリ @pakio 2023/12/20

Slide 2

Slide 2 text

2023 Kazuma Arimura (pakio) ● 株式会社メルカリ ● Mercari US@Tokyo ML/Search team ● Software Engineer(Search) ○ 機能開発 ○ 検索エンジン周り運用 ○ 検索体験/ランキング改善

Slide 3

Slide 3 text

2023 Mercari USについて

Slide 4

Slide 4 text

   Got stuff you don’t use? Sell or buy almost anything from home. メルカリは、世界的なマーケットプレイスを創ることを目指し、創業翌年から海外展開を推し進めています。 2014年9月にUS事業を開始し、現地の嗜好やマーケットの特徴に合わせたブランディングやUI・UXの改良、配送網 の構築等に取り組んでいます。巨大かつ多様性に富む人口基盤を有するUSでの成功が、メルカリのミッションを実 現する上で重要なマイルストーンであると認識しており、注力しています。 4 Your Marketplace US事業について Factbookより引用


Slide 5

Slide 5 text

2023 50M+ Downloads worldwide 350K+ New items listed every day 4.8★ Average App Store app rating 4.5★ Average Google Play app rating 数字で見るUS事業

Slide 6

Slide 6 text

2023 Query Understanding、やってますか?

Slide 7

Slide 7 text

2023 検索の成長と検索方法

Slide 8

Slide 8 text

2023 50M+ Downloads worldwide 350K+ New items listed every day 4.8★ Average App Store app rating 4.5★ Average Google Play app rating 数字で見るUS事業

Slide 9

Slide 9 text

2023 検索の成長と検索方法

Slide 10

Slide 10 text

2023 Query Understanding

Slide 11

Slide 11 text

2023 Query Understanding

Slide 12

Slide 12 text

2023 Query Categorization

Slide 13

Slide 13 text

2023 Query Categorization …とは 検索クエリを事前に定義した分類に カテゴライズするタスク よくある分類 ・検索意図の分類 ・検索トピックの分類 ・クエリパフォーマンスの分類 もっと知りたい方 (左) 検索システム 実務者のための開発 改善ガイドブック (右) Query Understanding for Search Engines

Slide 14

Slide 14 text

2023 Query Categorization へのアプローチ ● ルールベースのアプローチ ● 機械学習的なアプローチ

Slide 15

Slide 15 text

2023 Query Categorization: ルールベース クエリ => 変換対象 のルールを事前に定義 検索時にルールを参照、当てはまれば適用 1 2

Slide 16

Slide 16 text

2023 Query Categorization: ルールベース ● 実装・変更・拡張が容易である ● 一部の検索エンジンではデフォルトでサポートされている ○ Algolia, Vespa, etc. ● 説明可能性に優れている ● 最もシンプルながらも、確実に効果がある ○ 弊社の事例だと、トップ 200クエリに対するルールの整備で アイテム閲覧 +0.6% お気に入り+0.55% 購入 +1.01% ● メンテナンスコストが高い ● カバレッジに限界がある

Slide 17

Slide 17 text

2023 Query Categorization: MLベース クエリと分類の関係性を学習 クエリから予測された分類をもとに検索 1 2

Slide 18

Slide 18 text

2023 E-commerce Product Query Classification Using Implicit User’s Feedback from Clicks Linらから2018年に公開された論文 https://ieeexplore.ieee.org/document/8622008 概要 商品検索において、ユーザのクエリ及び行動ログ (クリック/カートに追加/購入)から、クエリ → カテゴリを予測する研究 複数の手法について、カテゴリ予測のmicro-F1スコアを比較 結果 ● それぞれ最上位層、最下層のカテゴリにおいて0.78, 0.58程度のスコ アで予測可能 TABLE I: Best micro-F1 score of multi-class single-label LR (logistic regression), SVMs, XGBoost, fastText and Attentional CNN classifier at different levels. Fig. 1: A part of the entire product taxonomy. The number below each node is the sum of click frequencies of all the queries associated to that node. The dotted line shows the pruning boundaries based on a threshold of 50.

Slide 19

Slide 19 text

2023 Query Categorization: MLベース ● メンテナンスに関わる人的コストの削減 ● ログを用いて学習場合、実際の検索ニーズに沿った変換が期待できる ● 推論時のレイテンシ ● ある程度のデータ量が必要 ○ 今回紹介した論文では 403,349クエリ × それぞれの行動ログ を利用 ● 純粋にテキスト情報のみからの予測だとクエリ長にパフォーマンスが左右される TABLE II: micro-F1 for multi-class single-label SVMs classifier (1 v.s.all) at different levels and query length thresholds. https://ieeexplore.ieee.org/document/8622008

Slide 20

Slide 20 text

2023 言語モデルを用いたアプローチ

Slide 21

Slide 21 text

2023 言語モデル

Slide 22

Slide 22 text

2023 言語モデル 分類問題にも使えそう?→

Slide 23

Slide 23 text

2023 言語モデル

Slide 24

Slide 24 text

2023 言語モデル DistilBERTモデルを用いた Query Categorizationの検証を実施 ※ 実際はChatGPTには聞いていません

Slide 25

Slide 25 text

2023 Query Categorization: DistilBERTベース 前段部分のDistilBERTを用意 後段部分のClassifierで分類の関係性を学習 クエリから予測された分類をもとに検索 1 2 3

Slide 26

Slide 26 text

2023 Query Categorization: DistilBERTベース DistilBERTを採用した理由 ● 他のモデルと比較して比較的軽量 ● 文字列的情報そのものではなく、 クエリの意味的情報からの予測を期待 ● 既に自社でFine Tuning済みのモデルが存在 ● 他プロジェクトにて活用事例あり モデルの学習条件 ● 検索ログ及びクリックログを利用 ● クエリからカテゴリを予測するよう学習 ○ 最下層カテゴリを予測 ● 後段の分類器部分のみが学習ターゲット 同様の条件で先述した機械学習アプローチでも モデルを学習、比較検証を実施

Slide 27

Slide 27 text

2023 Query Categorization: DistilBERTベース

Slide 28

Slide 28 text

2023 Query Categorization: DistilBERTベース テストデータでの検証結果 ● Recall, Precision, micro-f1 score 全指標においてDistilBERTベースが勝利 ○ 同量のデータでより良い精度に => 同精度を求める場合、必要とするデータ量をより減らせる? 本番環境でのABテスト結果 ● 統計的有意差のある結果は得られなかったものの、変換対象となったクエ リで上位アイテムのCTRが向上 ● 変換対象クエリのカバレッジが、機械学習ベースのものと比較して 倍程度まで広がった Precision Recall f1-score ML-Based 0.70 0.75 0.72 LM-Based 0.72 0.89 0.8

Slide 29

Slide 29 text

2023 まとめ

Slide 30

Slide 30 text

2023 まとめ ● ルールベースでも十分に効果のある Query Categorizationが実現可能 ● 更に言語モデルを利用することで、より幅広いクエリに対応 ● BERTの言語系タスクに対する強さはここでも健在

Slide 31

Slide 31 text

2023 Thanks!

Slide 32

Slide 32 text

2023 Appendix

Slide 33

Slide 33 text

2023 References ● E-commerce Product Query Classification Using Implicit User’s Feedback from Clicks, Lin et al., https://ieeexplore.ieee.org/document/8622008 ● Rules overview | Algolia, https://www.algolia.com/doc/guides/managing-results/rules/rules-overview/ ● Query Rewriting, https://docs.vespa.ai/en/query-rewriting.html