Slide 1

Slide 1 text

大規模言語モデルを用いた 商品比較のためのレビュー集約 中井香那子、山本岳洋、大島裕明(兵庫県立大学) 1

Slide 2

Slide 2 text

背景 商品の比較を行う際、レビューは重要な情報源 問題点:量が多い・順番がバラバラ→比較しづらい 2 ノイズキャンセ ルが優秀! 低音も高音もバランス 良く聞こえて良い!! ノイズキャンセリング が期待以上 バッテリーの残量表示 がわかりやすい! 充電残量の 表示が便利 低音が しっかり 聞こえる ノイキャンは 微妙 通学用の イヤホンが 欲しい A B

Slide 3

Slide 3 text

レビューを集約し、対応付けることで比較しやすい形にする 集約と対応付け 3 音質(低音) 充電残量 充電残量の表示が わかりやすい(7) 低音がしっかり 聞こえる(4) 低音が強く聞こえる(3) 低音が軽い(1) ノイズキャンセル 性能は微妙(8) 性能に満足(2) ノイズキャンセルが優秀(10) 遮音性は微妙(3) A B

Slide 4

Slide 4 text

目的 Soundcore P40i X1 ノイズキャンセル ノイズキャンセリングが優秀(10) 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 4 2つの商品の対応関係がわかる レビューを集約した商品比較表の作成 RQ:大規模言語モデル(LLM)を用いてレビューを自動的に集約し 作成した商品の比較表は比較に有用か?

Slide 5

Slide 5 text

LLMを用いるメリット 1. オンデマンドで表を作成できる →商品ごとに異なる観点の比較ができる 2. ドメインごとに学習する必要がない →他のドメインへの応用が容易である 5 • 音質 • 充電 • ノイズキャンセル • 音質 • サイズ • 色

Slide 6

Slide 6 text

A B ノイズキャンセル ノイズキャンセリングが優秀(10) 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 比較表のイメージ 6

Slide 7

Slide 7 text

A B ノイズキャンセル ノイズキャンセリングが優秀(10) • ノイキャン機能がとても良い • 外音をしっかり遮断してくれる • ノイズキャンセルが優秀 ⋮ 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 比較表のイメージ 7

Slide 8

Slide 8 text

A B ノイズキャンセル ノイズキャンセリングが優秀(10) • ノイキャン機能がとても良い • 外音をしっかり遮断してくれる • ノイズキャンセルが優秀 遮音性は微妙(3) 性能は高くない(8) 性能に満足(2) 音質(低音) 低音が強く聞こえる(3) 低音が軽い(1) 重低音がしっかり聞こえる(4) 充電残量 充電残量の表示がわかりやすい(7) 比較表のイメージ 8 安い割には音が良く満足です。 ノイキャン機能もとても良く、しっかり 音が遮断されます。

Slide 9

Slide 9 text

9 提案手法の概要 ①観点・評価抽出 ②観点クラスタリング ③評価集約 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… レビュー 観点集合 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない

Slide 10

Slide 10 text

③評価集約 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… 観点集合 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない ②観点クラスタリング 10 提案手法の概要 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! レビュー ①観点・評価抽出

Slide 11

Slide 11 text

①観点・評価抽出(1/2) 各レビューから観点と評価を抽出する 入力:レビュー(1件ずつ) 出力:観点+評価 11 数回使用して残念ながら 故障しました。 値段が値段だけに仕方 無いと思います。 長期耐久性:残念な がら故障しました 価格:値段が値段だ けに仕方無い LLM

Slide 12

Slide 12 text

プロンプト例 12 ①観点・評価抽出(2/2) あなたは、ユーザーから与えられたレビューを基に、イヤホン の特徴を表す観点と具体的にその観点に言及している評価 を抜き出してください。 評価はレビューに書かれている内容をそのまま抜き出してく ださい。 レビュー:数回使用して残念ながら故障しました。値段が値段 だけに仕方無いと思います。

Slide 13

Slide 13 text

③評価集約 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない ①観点・評価抽出 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! レビュー 13 提案手法の概要 ②観点クラスタリング 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… 観点集合

Slide 14

Slide 14 text

②観点クラスタリング(1/7) 抽出された観点を類似グループに分ける 入力:抽出された観点集合 出力:クラスタリング結果(大グループ) 14 Bluetooth • Bluetooth機能 • Bluetooth規格 • ブルートゥース 音質 • 高音質 • 低音 大グループ ⋮ 観点 Bluetooth機能 高音質 低音 充電 Bluetooth規格 デザイン バッテリー LLM

Slide 15

Slide 15 text

②観点クラスタリング(2/7) プロンプト例 15 与えらえれた観点を基に似ている観点をグループ分けしてく ださい。 各観点は1つのグループのみに入れてください。 観点:{音質、バッテリー、Bluetooth機能、低音、デザイン、サ イズ、ブルートゥース性能、・・・}

Slide 16

Slide 16 text

②観点クラスタリング(3/7) 1度のクラスタリングでは漏れがある →分類されなかった観点を再分類する 入力:観点(1件ずつ) 出力:観点グループ名 16 観点 通話の音質 音質 LLM

Slide 17

Slide 17 text

②観点クラスタリング(4/7) プロンプト例 17 観点をいずれかのグループに分類したいです。 分類先は{音質、充電、デザイン、ブルートゥース}のいずれか です。分類されるグループのキーを1つだけ出力してください。 分類される可能性のあるグループが2つ以上ある場合も1つ だけ出力してください。 出力は分類先のキーのみとしてください。 分類する観点:通話の音質

Slide 18

Slide 18 text

②観点クラスタリング(5/7) 大グループの中には詳細には異なる観点グループが存在する 当てはまるグループが存在せず、無理やり分類された観点もある →そのまま類似レビューの集約には使えない =さらに細かく分類する必要がある 18 音質 音飛び 音遅延 ノイズキャンセル 外音遮断性 低音 重低音 充電 バッテリー

Slide 19

Slide 19 text

②観点クラスタリング(6/7) 各観点大グループをさらに細かくグループにわける 入力:各大グループの観点 出力:クラスタリング結果(サブグループ) 19 大グループの観点 例:音質 音の遮音性 ノイズキャンセリング 音遅延 低音 高音質 サブグループ 音質 • 高音質 • 低音 ノイズキャンセリング • ノイズキャンセリング • 音の遮音性 ⋮ 大グループ LLM

Slide 20

Slide 20 text

②観点クラスタリング(7/7) プロンプト例 20 与えらえれた観点を基に似ている観点をグループ分けしてく ださい。 各観点は1つのグループのみに入れてください。 観点:{低音、通話音質、高音、ノイズキャンセリング、ノイキャ ン性能、音質、重低音、・・・}

Slide 21

Slide 21 text

21 提案手法の概要 ①観点・評価抽出 ②観点クラスタリング 観点 評価 充電 充電持ちが良い 低音 しっかりきこえる このイヤホンは充電持ちが 良いです。低音もしっかり きこえて満足! 充電時間 充電の持ち 充電容量 Bluetooth接続 ブルートゥース 接続の簡単さ 音質 音切れ 低音 音割れ ・・・ 充電時間 接続の簡単さ 音質 充電容量 低音 Bluetooth接続 音割れ… レビュー 観点集合 ③評価集約 持ちが良い(4) • バッテリーの持ちが良く、一週間以上充電がいらない。 ⋮ ひと月持たない(1) • このイヤホンの充電は、ひと月位持たない。 観点 評価 充電 充電持ちが良い バッテリー 持ちがよく一週間以上 充電がいらない 充電 ひと月くらい持たない

Slide 22

Slide 22 text

③評価集約(1/6) 各サブグループで類似するレビューを1文にまとめる 22 観点 評価 高音 とても良い 低音 良く聞こえる 重低音 良く響いて満足 高音 綺麗に聞こえる 音質 とても良い 音質がとても良い • 音質はとても良い 低音は良く響く • 低音が良く響いて満足 • 低音が良く聞こえる 高音が綺麗 • 高音が綺麗に聞こえる • 高音がとても良い 評価だけ使うと… とても良いは何が良いのか情報不足 高音がとても良い=音質がとても良い? 観点ごとにまとめると… 観点の言い換えはまとめられない(「重低音」と「低音」) 観点も評価も必要

Slide 23

Slide 23 text

③評価集約(2/6) 評価文の生成 入力:観点、評価 出力:観点と評価をつなげた1文 23 観点:外音の遮断性 評価:とても良いためウォーキング 時は周りへの注意が必要だ と思います 外音の遮断性が高いので、 ウォーキング時は周りへの注意 が必要だと思います LLM

Slide 24

Slide 24 text

③評価集約(3/6) プロンプト例 24 以下はイヤホンのレビューから抽出した観点と評価です。 観点:外音の遮断性 評価:とても良いためウォーキング時は周りへの注意が必要だ と思います 観点と評価をつなげて日本語として自然な1文を作ってください。 出力は作成した1文のみとしてください。

Slide 25

Slide 25 text

③評価集約(4/6) サブグループ中の評価文のクラスタリング 入力:サブグループ中の評価文 出力:クラスタリング結果(類似グループ) 25 • 遮音性がとても良い • ノイキャンは少し期待 外れ • ノイズキャンセリング 性能に満足 • 外音の遮断性は微妙 例:音質_ノイズキャンセリング とても良い • 遮音性がとても良い • ノイズキャンセリング性能 に満足 期待外れ • ノイキャンは少し期待外れ • 外音の遮断性は微妙 サブ グループ 類似グループ LLM

Slide 26

Slide 26 text

③評価集約(5/6) プロンプト例 26 以下はあるイヤホンに対するレビューから評価を抽出したものです。 評価リスト:{ノイズキャンセリング性能に満足、遮音性がとても良い、 ノイキャンは少し期待外れ、・・・} 評価リスト内で同じ主張をしているレビューを1つのグループにまとめ てください。 ポジティブネガティブが逆のレビューは別々のグループに分けてくだ さい。また、グループ名とグループに含まれるレビューを一緒に出力 してください。 類似レビューがない場合は、各文を表す単語と元のレビューを一緒 に出力してください。

Slide 27

Slide 27 text

③評価集約(6/6) 各商品の類似グループ内の評価を要約 観点グループ名(サブグループ_類似グループ) で対応付ける 27 観点 商品A 商品B ノイズキャンセリング _とても良い とても性能が良く満足(10) ー(0) ノイズキャンセリング _期待外れ 期待していたほど良くな かった(2) ノイズキャンセリングがあま り効いていない(7)

Slide 28

Slide 28 text

作成した比較表の動作例(イヤホン) 28 2つの商品の共通点や違う点を簡単に探せるようになる

Slide 29

Slide 29 text

実験 1. 大規模言語モデルの比較 観点クラスタリングと評価集約の精度を大規模言語モデルごとに 測り、比較する 2. ユーザ実験 作成した比較表が商品を比較するタスクにおいて有用であるかを 検証する 29

Slide 30

Slide 30 text

大規模言語モデルの比較 データ 楽天市場の商品レビューデータ(楽天市場データ1) イヤホン2商品のレビュー各100件 大規模言語モデル Llama-3.1-Swallow-8B-Instruct-v0.1(Swallow) gemma-2-9b(gemma) 評価方法 観点クラスタリング:purity 評価集約:正解率 30 1. 楽天グループ株式会社 (2020): 楽天市場データ. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/idr.2.1

Slide 31

Slide 31 text

評価方法(観点クラスタリング) 指標:purity( 1 𝐿 ~1) →クラスタの純度を表す 31 𝑁 =観点数, 𝐿 = クラスタ数 生成された𝑖番目のクラスタにおいて 𝑗というクラスに割り当てられるデー タが𝑛𝑖,𝑗 個 𝑃𝑢𝑟𝑖𝑡𝑦 = 1 𝑁 ෍ 𝑖=1 𝐿 max 𝑗 𝑛𝑖,𝑗 音質 • 低音 • 高音 • 高音質 充電 • 充電容量 • 充電時間 • バッテリー デザイン • 色 • 見た目 • サイズ 音質 • 低音 • 高音 • バッテリー 充電 • 充電容量 • サイズ デザイン • 色 • 見た目 • 高音質 →1 全てのクラスタが1クラス → 1 8 2 + 1 + 2 = 5 8 = 0.625

Slide 32

Slide 32 text

評価方法(評価集約) 指標:正解率 要約内容と評価文の内容が一致しているか? 正解例 要約:コスパが非常に高い 評価文:値段にしてはとても性能が良い 不正解例 要約:コスパが非常に高い 評価文:性能にたいして値段が高すぎる 32

Slide 33

Slide 33 text

モデルの比較結果 3項目中2項目でgemmaがSwallowを上回った  ただしSwallowも安定して高い結果となった 大グループでgemmaがSwallowを大きく下回った  観点クラスタリングはクラスタリング→再分類  クラスタリング結果が正確ではなかったため、再分類で多くの観点が異なる グループに分類されてしまった? 33 Swallow gemma 観点クラスタリング (大グループ) 0.830 0.457 観点クラスタリング (サブグループ) 0.705 0.824 評価集約 0.827 0.881

Slide 34

Slide 34 text

ユーザ実験 データ  楽天市場の商品レビューデータ(楽天市場データ1)  イヤホン4商品のレビュー各100件 大規模言語モデル  Llama-3.1-Swallow-8B-Instruct-v0.1(Swallow) 実験参加者  4名(兵庫県立大学所属) 比較手法  2つの商品のレビューを横並びで提示 評価方法  アンケート(5段階リッカート尺度) 34 モデルの比較で 安定した精度 1. 楽天グループ株式会社 (2020): 楽天市場データ. 国立情報学研究所情報学研究データリポジトリ. (データセット). https://doi.org/10.32130/idr.2.1

Slide 35

Slide 35 text

比較手法の概要 35

Slide 36

Slide 36 text

ユーザ実験のタスク タスク  2つのイヤホンを比較し購入する商品を決定する  シチュエーション:通勤通学時、自宅(オンライン会議) 制限時間  15分 実験方法  タスク1→タスク後アンケート→タスク2→タスク後アンケート→最終アンケート  被験者内実験 36 価格やスペックを 提示 タスク1 タスク2 被験者1 比較手法/商品CD 提案手法/商品EF 被験者2 提案手法/商品CD 比較手法/商品EF 被験者3 比較手法/商品EF 提案手法/商品CD 被験者4 提案手法/商品EF 比較手法/商品CD

Slide 37

Slide 37 text

タスク例  提示したシチュエーション あなたは、現在自宅で勉強やオンライン会議をする際に使用するイヤホンを新しく 購入しようと考えています。 購入する候補のイヤホンを以下のAとBの2つのイヤホンに絞りました。 システムを用いてレビューの情報から2つの商品を比較し、どちらを購入するか決 めてください。 37 A B 価格 ¥7,980 ¥8,778 機能 ワイヤレス(左右分離) ワイヤレス左右分離 タイプ インナーイヤー型 カナル型

Slide 38

Slide 38 text

タスク後アンケートの結果 比較手法 提案手法 時間内に十分情報を得られた 3.25 4.25 様々な観点について比較するのに役立った 2.25 4.75 商品を比較するための観点を知るのに役立った 2.00 5.00 システムは使いやすい 2.00 4.50 38 全ての項目で平均値が提案手法>比較手法 「時間内に十分情報を得られた」を除く3項目では有意差あり  ウェルチの𝑡検定(有意水準5%)

Slide 39

Slide 39 text

最終アンケートの結果 どちらのシステムが比較に適していたか? →全員が提案手法と回答  「観点や評価で分けられていたため自分が見たい項目だけを見ることができ た」  「各意見の件数が表示されていて数量的に比較できる」 改善点  観点が多すぎる →比較表は100行程度(観点が細かく分かれすぎている)  重複する観点が存在した →ノイズキャンセルは「音源」「静粛性」など複数グループに存在  表示内容に間違いがあった 39

Slide 40

Slide 40 text

まとめと今後の課題 まとめ 大規模言語モデルを用いてレビューを集約し、商品の比較表を作成 ユーザ実験  比較手法<提案手法  様々な観点での比較、比較する観点の発見、使いやすさ→有意差あり 今後の課題 評価文生成の精度の向上 他の評価指標による評価  重複する観点グループの有無の評価など ユーザ実験でアンケート以外の評価方法の検討  時間など主観的ではない評価指標 40