Upgrade to Pro — share decks privately, control downloads, hide ads and more …

言語モデルを用いたQuery Categorizationへの取り組み / LM-based query categorization for query understanding

言語モデルを用いたQuery Categorizationへの取り組み / LM-based query categorization for query understanding

Search Engineering Tech Talk 2023 Winter登壇資料
https://search-tech.connpass.com/event/303330/

Kazuma Arimura

December 20, 2023
Tweet

More Decks by Kazuma Arimura

Other Decks in Technology

Transcript

  1. 言語モデルを用いた
    Query Categorizationへの取り組み
    Search Engineering Tech Talk 2023 Winter
    株式会社メルカリ @pakio
    2023/12/20

    View full-size slide

  2. 2023
    Kazuma Arimura (pakio)
    ● 株式会社メルカリ
    ● Mercari US@Tokyo ML/Search team
    ● Software Engineer(Search)
    ○ 機能開発
    ○ 検索エンジン周り運用
    ○ 検索体験/ランキング改善

    View full-size slide

  3. 2023
    Mercari USについて

    View full-size slide

  4.   
    Got stuff you don’t use?
    Sell or buy almost anything from home.
    メルカリは、世界的なマーケットプレイスを創ることを目指し、創業翌年から海外展開を推し進めています。
    2014年9月にUS事業を開始し、現地の嗜好やマーケットの特徴に合わせたブランディングやUI・UXの改良、配送網
    の構築等に取り組んでいます。巨大かつ多様性に富む人口基盤を有するUSでの成功が、メルカリのミッションを実
    現する上で重要なマイルストーンであると認識しており、注力しています。
    4
    Your Marketplace
    US事業について
    Factbookより引用


    View full-size slide

  5. 2023
    50M+
    Downloads
    worldwide
    350K+
    New items listed
    every day
    4.8★
    Average App Store
    app rating
    4.5★
    Average Google Play
    app rating
    数字で見るUS事業

    View full-size slide

  6. 2023
    Query Understanding、やってますか?

    View full-size slide

  7. 2023
    検索の成長と検索方法

    View full-size slide

  8. 2023
    50M+
    Downloads
    worldwide
    350K+
    New items listed
    every day
    4.8★
    Average App Store
    app rating
    4.5★
    Average Google Play
    app rating
    数字で見るUS事業

    View full-size slide

  9. 2023
    検索の成長と検索方法

    View full-size slide

  10. 2023
    Query Understanding

    View full-size slide

  11. 2023
    Query Understanding

    View full-size slide

  12. 2023
    Query Categorization

    View full-size slide

  13. 2023
    Query Categorization …とは
    検索クエリを事前に定義した分類に
    カテゴライズするタスク
    よくある分類
    ・検索意図の分類
    ・検索トピックの分類
    ・クエリパフォーマンスの分類
    もっと知りたい方
    (左) 検索システム 実務者のための開発
    改善ガイドブック
    (右) Query Understanding for Search
    Engines

    View full-size slide

  14. 2023
    Query Categorization へのアプローチ
    ● ルールベースのアプローチ
    ● 機械学習的なアプローチ

    View full-size slide

  15. 2023
    Query Categorization: ルールベース
    クエリ => 変換対象 のルールを事前に定義
    検索時にルールを参照、当てはまれば適用
    1
    2

    View full-size slide

  16. 2023
    Query Categorization: ルールベース
    ● 実装・変更・拡張が容易である
    ● 一部の検索エンジンではデフォルトでサポートされている
    ○ Algolia, Vespa, etc.
    ● 説明可能性に優れている
    ● 最もシンプルながらも、確実に効果がある
    ○ 弊社の事例だと、トップ 200クエリに対するルールの整備で
    アイテム閲覧 +0.6% お気に入り+0.55% 購入 +1.01%
    ● メンテナンスコストが高い
    ● カバレッジに限界がある


    View full-size slide

  17. 2023
    Query Categorization: MLベース
    クエリと分類の関係性を学習
    クエリから予測された分類をもとに検索
    1
    2

    View full-size slide

  18. 2023
    E-commerce Product Query Classification
    Using Implicit User’s Feedback from Clicks
    Linらから2018年に公開された論文
    https://ieeexplore.ieee.org/document/8622008
    概要
    商品検索において、ユーザのクエリ及び行動ログ
    (クリック/カートに追加/購入)から、クエリ → カテゴリを予測する研究
    複数の手法について、カテゴリ予測のmicro-F1スコアを比較
    結果
    ● それぞれ最上位層、最下層のカテゴリにおいて0.78, 0.58程度のスコ
    アで予測可能
    TABLE I: Best micro-F1 score of multi-class single-label LR (logistic regression),
    SVMs, XGBoost, fastText and Attentional CNN classifier at different levels.
    Fig. 1: A part of the entire product taxonomy. The number below each node is the
    sum of click frequencies of all the queries associated to that node. The dotted line
    shows the pruning boundaries based on a threshold of 50.

    View full-size slide

  19. 2023
    Query Categorization: MLベース
    ● メンテナンスに関わる人的コストの削減
    ● ログを用いて学習場合、実際の検索ニーズに沿った変換が期待できる
    ● 推論時のレイテンシ
    ● ある程度のデータ量が必要
    ○ 今回紹介した論文では 403,349クエリ × それぞれの行動ログ を利用
    ● 純粋にテキスト情報のみからの予測だとクエリ長にパフォーマンスが左右される
    TABLE II: micro-F1 for multi-class single-label SVMs classifier (1 v.s.all) at different
    levels and query length thresholds.
    https://ieeexplore.ieee.org/document/8622008


    View full-size slide

  20. 2023
    言語モデルを用いたアプローチ

    View full-size slide

  21. 2023
    言語モデル

    View full-size slide

  22. 2023
    言語モデル
    分類問題にも使えそう?→

    View full-size slide

  23. 2023
    言語モデル

    View full-size slide

  24. 2023
    言語モデル
    DistilBERTモデルを用いた
    Query Categorizationの検証を実施
    ※ 実際はChatGPTには聞いていません

    View full-size slide

  25. 2023
    Query Categorization: DistilBERTベース
    前段部分のDistilBERTを用意
    後段部分のClassifierで分類の関係性を学習
    クエリから予測された分類をもとに検索
    1
    2
    3

    View full-size slide

  26. 2023
    Query Categorization: DistilBERTベース
    DistilBERTを採用した理由
    ● 他のモデルと比較して比較的軽量
    ● 文字列的情報そのものではなく、
    クエリの意味的情報からの予測を期待
    ● 既に自社でFine Tuning済みのモデルが存在
    ● 他プロジェクトにて活用事例あり
    モデルの学習条件
    ● 検索ログ及びクリックログを利用
    ● クエリからカテゴリを予測するよう学習
    ○ 最下層カテゴリを予測
    ● 後段の分類器部分のみが学習ターゲット
    同様の条件で先述した機械学習アプローチでも
    モデルを学習、比較検証を実施

    View full-size slide

  27. 2023
    Query Categorization: DistilBERTベース

    View full-size slide

  28. 2023
    Query Categorization: DistilBERTベース
    テストデータでの検証結果
    ● Recall, Precision, micro-f1 score 全指標においてDistilBERTベースが勝利
    ○ 同量のデータでより良い精度に
    => 同精度を求める場合、必要とするデータ量をより減らせる?
    本番環境でのABテスト結果
    ● 統計的有意差のある結果は得られなかったものの、変換対象となったクエ
    リで上位アイテムのCTRが向上
    ● 変換対象クエリのカバレッジが、機械学習ベースのものと比較して
    倍程度まで広がった
    Precision Recall f1-score
    ML-Based 0.70 0.75 0.72
    LM-Based 0.72 0.89 0.8

    View full-size slide

  29. 2023
    まとめ

    View full-size slide

  30. 2023
    まとめ
    ● ルールベースでも十分に効果のある
    Query Categorizationが実現可能
    ● 更に言語モデルを利用することで、より幅広いクエリに対応
    ● BERTの言語系タスクに対する強さはここでも健在

    View full-size slide

  31. 2023
    Appendix

    View full-size slide

  32. 2023
    References
    ● E-commerce Product Query Classification Using Implicit User’s Feedback from
    Clicks, Lin et al., https://ieeexplore.ieee.org/document/8622008
    ● Rules overview | Algolia,
    https://www.algolia.com/doc/guides/managing-results/rules/rules-overview/
    ● Query Rewriting, https://docs.vespa.ai/en/query-rewriting.html

    View full-size slide