大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース

by 兵庫県立大学山本研究室

Slide 1

Slide 1 text

大規模言語モデルを用いたその場での要約に基づくレビュー探索インタフェース藤井真梨乃、河田友香、山本岳洋 (兵庫県立大学) 2024年2月29日第16回データ工学と情報マネジメントに関するフォーラム（DEIM2024） T3-B-5-04

Slide 2

Slide 2 text

背景例)ECサイトでドライヤーを購入 2 ★★★★☆ 値段もデザインも満足。ただ冷風が弱いのが少し残念。冷風が弱いのか～他のレビューにはどのようなことが書いてあるかな～

Slide 3

Slide 3 text

問題点冷風について書いている他のレビューを探す最初から見直すキーワードで検索する 3

Slide 4

Slide 4 text

問題点最初から見直す • 大量の文章の中から知りたい部分を探すには労力を要する 4 知りたいことが書かれたレビューを絞ること、要約することが必要

Slide 5

Slide 5 text

問題点キーワードで検索する • 例えば「風量」で調べたとき、「パワー」といった類義語を用いているレビューは出てこない • 言語化しづらい観点もある例)「髪の毛がツヤツヤになりました！」 5 類義語や類似文の検索機能が必要

Slide 6

Slide 6 text

背景と問題点 6 最初から見直す • 知りたいことが書かれたレビューを探すには分量多 レビューの選択と要約が必要キーワード検索を行う • 類義語を用いたレビューの表示無 • キーワードとして適切な単語がない場合有 類義語や類似文の検索機能が必要

Slide 7

Slide 7 text

研究の目的 7 最初から見直す • 知りたいことが書かれたレビューを探すには分量が多い レビューの選択と要約が必要キーワード検索を行う • 類義語を用いたレビューが表示されない • キーワードとして適切な単語がない場合有 類義語や類似文の検索機能が必要ユーザが気になる観点の他のレビュー文を要約して取得するシステム

Slide 8

Slide 8 text

関連研究 8 飲食店の口コミから料理に関する文の要約を提示1 [1]市村哲. 口コミから美味しい料理店を手早く探すシステム. 情報処理学会論文誌, Vol. 61, No. 11, pp. 1748–1756, 2020.

Slide 9

Slide 9 text

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評価」が述べられている単語を抽出して表示 • 料理情報や評価語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が高い 9

Slide 10

Slide 10 text

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評価」が述べられている単語を抽出して表示 • 単語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が高い 10 大規模言語モデルを用いるとデータセットなしで要約が可能になる

Slide 11

Slide 11 text

提案手法(全体図) 11

Slide 12

Slide 12 text

システムの概要(ユーザ視点) 初期画面 12

Slide 13

Slide 13 text

システムの概要(ユーザ視点) 13 ①ユーザが気になった部分を選択

Slide 14

Slide 14 text

システムの概要(ユーザ視点) ②検索を行うと、関連するレビューの要約を表示 14 要約結果がこの文になったレビューの件数を表示

Slide 15

Slide 15 text

システムの概要(ユーザ視点) ③要約をクリックするとレビュー本文が表示 15

Slide 16

Slide 16 text

システムの概要(内部処理) 16

Slide 17

Slide 17 text

システムの概要(内部処理) 17 あらかじめベクトル化

Slide 18

Slide 18 text

提案手法(内部処理) 18 検索時にベクトル化あらかじめベクトル化

Slide 19

Slide 19 text

提案手法(内部処理) 19 検索時にベクトル化あらかじめベクトル化クエリと各レビュー文のコサイン類似度を計算し、0.85以上のレビューを選択

Slide 20

Slide 20 text

システムの概要(内部処理) 20 選択したレビューを ChatGPTを用いて要約 商品の種類に縛られない要約が可能

Slide 21

Slide 21 text

システムの概要(内部処理) #説明文以下で入力された文章を、出力形式に従って 10 文字程度で要約してください。 #入力風量はいいけどcoolの風量もうちょいほしいかな。 #入力例ただ冷風が弱いのが少し残念。 #出力例冷風が弱い #出力形式 10 文字程度の要約結果 21 ただ冷風が弱いのが少し残念。冷風が弱いクエリの元となったレビュー文プロンプト出力風量はいいけどcoolの風量もうちょいほしいかな。要約対象のレビュー文クエリ

Slide 22

Slide 22 text

評価実験ユーザ実験 • アンケート分析 • クエリ分析検索精度の評価 22

Slide 23

Slide 23 text

ユーザ実験 23 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 目的:比較手法と比べて、7つの評価項目において差が生じるのかを把握する

Slide 24

Slide 24 text

ユーザ実験実験参加者 • 兵庫県立大学社会情報科学部、兵庫県立大学大学院情報科学研究科の学生8名(男性4名、女性4名) • 期間:2024年1月9日~2024年2月15日 24 比較手法(キーワード検索) クエリと完全に一致するレビューを表示レビューを要約せずに表示提案手法クエリと類似するレビューを表示レビューを要約して表示目的:比較手法と比べて、7つの評価項目において差が生じるのかを把握する

Slide 25

Slide 25 text

ユーザ実験使用データ • 楽天市場で販売されているドライヤー2商品のレビュー • 約6,000円(2023年12月11日時点) • 2023年7月26日時点の最新200件 25

Slide 26

Slide 26 text

ユーザ実験実験手順 26 検索タスク2 検索タスク1 被験者提案手法/商品2 比較手法/商品1 1, 5 提案手法/商品1 比較手法/商品2 2, 6 比較手法/商品2 提案手法/商品1 3, 7 比較手法/商品1 提案手法/商品2 4, 8 訓練タスク検索タスク1 アンケート検索タスク2 アンケートインタビュー • 訓練タスク:トースターのレビューを検索するタスク • 検索タスク:ドライヤーのレビューを検索するタスク • 制限時間は各10分あなたは母親に誕生日プレゼントとしてドライヤーをプレゼントすることにしました。値段などを考慮して、2つの商品に絞りました。それぞれの商品についてレビューを読み、どのような観点でどのような評価がされているのか調べて下さい。シナリオ

Slide 27

Slide 27 text

アンケート 27 質問（5段階評価）評価項目レビューに含まれる意見を簡単に確認できたと思う。要約の見やすさ 1 自分の調べたいことを調べることができたと思う。ユーザの興味に対する網羅性 2 様々な観点で調べることができたと思う。観点の網羅性 3 同じ観点の中で漏れなく意見を調べることができたと思う。意見の網羅性 4 結果の表示方法が分かりやすかったと思う。結果の見やすさ 5 システムの使用は簡単だったと思う。システムの使用難易度 6 システムの機能に満足している。全体的な満足度 7

Slide 28

Slide 28 text

評価実験ユーザ実験 • アンケート分析 • クエリ分析検索精度の評価 28

Slide 29

Slide 29 text

6以外の項目において提案手法が比較手法を上回っている評価項目（5段階評価）要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 29 比較手法提案手法平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

Slide 30

Slide 30 text

ウェルチのt検定を行い、結果の見やすさについては 5%水準で有意差が認められた評価項目（5段階評価）要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 30 比較手法提案手法平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

Slide 31

Slide 31 text

「結果の見やすさ」の評価された点 • 比較手法は、検索結果が多くなればなるほど結果が見づらくなる • 提案手法は要約を表示することで、意見がまとめて出てくるところが良かった 31

Slide 32

Slide 32 text

「意見の網羅性」を評価された検索例「風量が強い」の検索例 32 提案手法： 76件比較手法： 3件

Slide 33

Slide 33 text

キーワード検索での検索結果 • 「風量」：66件 • 「風力」：14件別々に検索する必要がある 33

Slide 34

Slide 34 text

提案手法での検索結果 • 「風量が強い」の検索結果 • 風量以外の単語で書かれたレビューが表示されている類義語で書かれたレビューも取得することが出来ている 34

Slide 35

Slide 35 text

提案手法での検索結果 • 「風量が強い」の検索結果反対意見も表示できている 35

Slide 36

Slide 36 text

「意見の網羅性」を評価されなかった検索例 • 検索結果が0件になる場合もある 36

Slide 37

Slide 37 text

考察アンケート分析 • 大規模言語モデルを用いた要約でも、検索結果全文を表示するより分かりやすいインタフェースになる • アンケート結果は、実際に検索したクエリの検索結果に影響されている 37

Slide 38

Slide 38 text

評価実験ユーザ実験 • アンケート分析 • クエリ分析検索精度の評価 38

Slide 39

Slide 39 text

クエリ分析目的:比較手法と提案手法で、検索行動に差が生じるか調べる • クエリ発行数:1回の検索タスク内で検索ボタンが押された回数 • 同じクエリが連続しているものは1回とみなす • クエリセッション:クエリの検索ボタンが押されてから次の検索ボタンが押されるまでの時間 • 検索タスク間で最後に検索されたクエリは使用しない 39

Slide 40

Slide 40 text

結果クエリ発行数(回) クエリセッション(秒) 40 8 7 6 5 4 3 2 1 参加者 54.38 33.08 63.38 48.25 43.54 21.2 33.29 56.62 比較手法 72.71 76.12 47.45 44.78 105.8 43.42 29.35 79.86 提案手法 8 7 6 5 4 3 2 1 参加者 9 13 9 13 14 26 18 9 比較手法 8 9 12 10 6 13 21 8 提案手法

Slide 41

Slide 41 text

考察クエリ分析 • クエリの発行数とクエリセッションは、手法による差が認められなかった • セッションの⾧さはシステムの実行時間と検索結果の件数に影響されるのではないか • 検索結果が表示される時間も測定すべきであった • 結果の件数とセッションには正の相関がみられた 41

Slide 42

Slide 42 text

評価実験ユーザ実験 • アンケート分析 • クエリ分析検索精度の評価 42

Slide 43

Slide 43 text

検索精度の評価目的:提案手法において、人手でふさわしいとされるレビューがどの程度検索結果に表示されるのかを調べる 43 使用するクエリ • 予備実験と本実験で商品1のレビューを検索するときに用いられたクエリ10件フレーズ(それ以外) 単語(名詞1つ) 使いやすかった風量音があまり気にならないカラーこげたような匂いプレゼント軽くていい故障冷風にすると風量が弱くなってしまう温度

Slide 44

Slide 44 text

検索精度の評価 44 • 商品1のレビュー200件を用いて、10個のクエリとの適合性判定を人手(筆者1人)で行い、比較手法および提案手法の結果と比較 • 「使いやすかった」の場合提案手法比較手法人手レビュー〇〇〇肌ざわりが良くて(シリコンぽい)使いやすかったです。軽くていいけど、風量はそんなにです。熱いので、風邪で乾かすより熱で乾かす感じです。〇〇軽くて使いやすい。最大にしても音があまり気にならないので良いです。

Slide 45

Slide 45 text

結果 • 単語だと比較手法の値が高く、フレーズだと提案手法の値が高い 45 値再現率適合率単語(名詞1つ) 0.56 0.42 0.94 比較手法 0.27 0.20 0.60 提案手法値再現率適合率フレーズ(それ以外) 0.11 0.06 1.00 比較手法 0.61 0.60 0.72 提案手法

Slide 46

Slide 46 text

考察検索精度の評価 • 比較手法では、クエリの文字数や情報量が多くなるにつれて完全にクエリと一致するレビューが少なくなるため、フレーズの値が低くなる • 提案手法では、単語と文章だと言葉の単位が異なり、類似度が低下するため、単語の値が低くなる 46

Slide 47

Slide 47 text

今後の課題類似レビュー判定の調整 • 文をベクトル化しているため、単語との類似度が低くなってしまった • 閾値の変更や、文に対して単語の除外処理などを行ってからベクトル化を行う必要がある 47

Slide 48

Slide 48 text

今後の課題プロンプトの改善 • プロンプトの出力がクエリと同様であったり、10文字以内で要約できていない事例も多数存在 • 別の記述方法でプロンプトを作成し、要約 48

Slide 49

Slide 49 text

今後の課題要約の精度評価 • 検索の精度評価は行ったが、元の文をどの程度要約できているかは評価できていない • 様々なプロンプトの記法で行う必要がある 49

Slide 50

Slide 50 text

まとめ • 工夫点:ChatGPTを用いて要約→データ少で要約可能 • ユーザ実験の結果、結果の見やすさという評価項目で提案手法の方が優位 • クエリの発行数、クエリセッションは実行時間や検索結果の件数が影響 • 検索精度は、提案手法だと単語の場合に低くなる • ベクトル化を行う手法やプロンプトの調整などが必要 50 ユーザが気になる観点の他のレビュー文を要約して取得するシステム

Slide 51

Slide 51 text

補足 51

Slide 52

Slide 52 text

アンケート結果 52

Slide 53

Slide 53 text

キーワード検索での検索結果 • 「風量」：66件 • 「風力」：14件 53

Slide 54

Slide 54 text

提案手法比較手法 54