Upgrade to Pro — share decks privately, control downloads, hide ads and more …

大規模言語モデルを用いた商品比較のためのレビュー集約

 大規模言語モデルを用いた商品比較のためのレビュー集約

More Decks by 兵庫県立大学 山本研究室

Transcript

  1. 背景 商品の比較を行う際、レビューは重要な情報源 問題点:量が多い・順番がバラバラ→比較しづらい 2 ノイズキャンセ ルが優秀! 低音も高音もバランス 良く聞こえて良い!! ノイズキャンセリング が期待以上

    バッテリーの残量表示 がわかりやすい! 充電残量の 表示が便利 低音が しっかり 聞こえる ノイキャンは 微妙 通学用の イヤホンが 欲しい A B
  2. 目的 Soundcore P40i X1 ノイズキャンセル ノイズキャンセリングが優秀(10) 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音)

    低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 4 2つの商品の対応関係がわかる レビューを集約した商品比較表の作成 RQ:大規模言語モデル(LLM)を用いてレビューを自動的に集約し 作成した商品の比較表は比較に有用か?
  3. A B ノイズキャンセル ノイズキャンセリングが優秀(10) • ノイキャン機能がとても良い • 外音をしっかり遮断してくれる • ノイズキャンセルが優秀

    ⋮ 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 比較表のイメージ 7
  4. A B ノイズキャンセル ノイズキャンセリングが優秀(10) • ノイキャン機能がとても良い • 外音をしっかり遮断してくれる • ノイズキャンセルが優秀

    遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 比較表のイメージ 8 安い割には音が良く満足です。 ノイキャン機能もとても良く、しっかり 音が遮断されます。
  5. 9 提案手法の概要 ①観点・評価抽出 ②観点クラスタリング ③評価集約 観点 評価 充電 充電持ちが良い 低音

    しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… レビュー 観点集合 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない
  6. ③評価集約 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音

    音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… 観点集合 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない ②観点クラスタリング 10 提案手法の概要 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! レビュー ①観点・評価抽出
  7. ③評価集約 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価

    充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない ①観点・評価抽出 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! レビュー 13 提案手法の概要 ②観点クラスタリング 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… 観点集合
  8. ②観点クラスタリング(1/7) 抽出された観点を類似グループに分ける 入力:抽出された観点集合 出力:クラスタリング結果(大グループ) 14 Bluetooth • Bluetooth機能 • Bluetooth規格

    • ブルートゥース 音質 • 高音質 • 低音 大グループ ⋮ 観点 Bluetooth機能 高音質 低音 充電 Bluetooth規格 デザイン バッテリー LLM
  9. 21 提案手法の概要 ①観点・評価抽出 ②観点クラスタリング 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる

    このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… レビュー 観点集合 ③評価集約 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない
  10. ③評価集約(1/6) 各サブグループで類似するレビューを1文にまとめる 22 観点 評価 高音 とても良い 低音 良く聞こえる 重低音

    良く響いて満足 高音 綺麗に聞こえる 音質 とても良い 音質がとても良い • 音質はとても良い 低音は良く響く • 低音が良く響いて満足 • 低音が良く聞こえる 高音が綺麗 • 高音が綺麗に聞こえる • 高音がとても良い 評価だけ使うと… とても良いは何が良いのか情報不足 高音がとても良い=音質がとても良い? 観点ごとにまとめると… 観点の言い換えはまとめられない(「重低音」と「低音」) 観点も評価も必要
  11. ③評価集約(4/6) サブグループ中の評価文のクラスタリング 入力:サブグループ中の評価文 出力:クラスタリング結果(類似グループ) 25 • 遮音性がとても良い • ノイキャンは少し期待 外れ

    • ノイズキャンセリング 性能に満足 • 外音の遮断性は微妙 例:音質_ノイズキャンセリング とても良い • 遮音性がとても良い • ノイズキャンセリング性能 に満足 期待外れ • ノイキャンは少し期待外れ • 外音の遮断性は微妙 サブ グループ 類似グループ LLM
  12. ③評価集約(6/6) 各商品の類似グループ内の評価を要約 観点グループ名(サブグループ_類似グループ) で対応付ける 27 観点 商品A 商品B ノイズキャンセリング _とても良い

    とても性能が良く満足(10) ー(0) ノイズキャンセリング _期待外れ 期待していたほど良くな かった(2) ノイズキャンセリングがあま り効いていない(7)
  13. 評価方法(観点クラスタリング) 指標:purity( 1 𝐿 ~1) →クラスタの純度を表す 31 𝑁 =観点数, 𝐿

    = クラスタ数 生成された𝑖番目のクラスタにおいて 𝑗というクラスに割り当てられるデー タが𝑛𝑖,𝑗 個 𝑃𝑢𝑟𝑖𝑡𝑦 = 1 𝑁 ෍ 𝑖=1 𝐿 max 𝑗 𝑛𝑖,𝑗 音質 • 低音 • 高音 • 高音質 充電 • 充電容量 • 充電時間 • バッテリー デザイン • 色 • 見た目 • サイズ 音質 • 低音 • 高音 • バッテリー 充電 • 充電容量 • サイズ デザイン • 色 • 見た目 • 高音質 →1 全てのクラスタが1クラス → 1 8 2 + 1 + 2 = 5 8 = 0.625
  14. ユーザ実験 データ  楽天市場の商品レビューデータ(楽天市場データ1)  イヤホン4商品のレビュー各100件 大規模言語モデル  Llama-3.1-Swallow-8B-Instruct-v0.1(Swallow) 実験参加者

     4名(兵庫県立大学所属) 比較手法  2つの商品のレビューを横並びで提示 評価方法  アンケート(5段階リッカート尺度) 34 モデルの比較で 安定した精度 1. 楽天グループ株式会社 (2020): 楽天市場データ. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/idr.2.1
  15. ユーザ実験のタスク タスク  2つのイヤホンを比較し購入する商品を決定する  シチュエーション:通勤通学時、自宅(オンライン会議) 制限時間  15分 実験方法

     タスク1→タスク後アンケート→タスク2→タスク後アンケート→最終アンケート  被験者内実験 36 価格やスペックを 提示 タスク1 タスク2 被験者1 比較手法/商品CD 提案手法/商品EF 被験者2 提案手法/商品CD 比較手法/商品EF 被験者3 比較手法/商品EF 提案手法/商品CD 被験者4 提案手法/商品EF 比較手法/商品CD
  16. タスク後アンケートの結果 比較手法 提案手法 時間内に十分情報を得られた 3.25 4.25 様々な観点について比較するのに役立った 2.25 4.75 商品を比較するための観点を知るのに役立った

    2.00 5.00 システムは使いやすい 2.00 4.50 38 全ての項目で平均値が提案手法>比較手法 「時間内に十分情報を得られた」を除く3項目では有意差あり  ウェルチの𝑡検定(有意水準5%)
  17. 最終アンケートの結果 どちらのシステムが比較に適していたか? →全員が提案手法と回答  「観点や評価で分けられていたため自分が見たい項目だけを見ることができ た」  「各意見の件数が表示されていて数量的に比較できる」 改善点 

    観点が多すぎる →比較表は100行程度(観点が細かく分かれすぎている)  重複する観点が存在した →ノイズキャンセルは「音源」「静粛性」など複数グループに存在  表示内容に間違いがあった 39