Slide 1

Slide 1 text

大規模言語モデルを用いた その場での要約に基づく レビュー探索インタフェース 藤井 真梨乃、河田 友香、山本 岳洋 (兵庫県立大学) 2024年2月29日 第16回データ工学と情報マネジメントに関するフォーラム(DEIM2024) T3-B-5-04

Slide 2

Slide 2 text

背景 例)ECサイトでドライヤーを購入 2 ★★★★☆ 値段もデザインも満足。ただ冷風が 弱いのが少し残念。 冷風が弱いのか~ 他のレビューには どのようなことが 書いてあるかな~

Slide 3

Slide 3 text

問題点 冷風について 書いている 他のレビューを 探す 最初から見直す キーワードで 検索する 3

Slide 4

Slide 4 text

問題点 最初から見直す • 大量の文章の中から知りたい部分を探すには労力を要する 4 知りたいことが書かれたレビューを 絞ること、要約することが必要

Slide 5

Slide 5 text

問題点 キーワードで検索する • 例えば「風量」で調べたとき、「パワー」といった類義語を 用いているレビューは出てこない • 言語化しづらい観点もある 例)「髪の毛がツヤツヤになりました!」 5 類義語や類似文の検索機能が必要

Slide 6

Slide 6 text

背景と問題点 6 最初から見直す • 知りたいことが書かれた レビューを探すには分量多 レビューの選択と 要約が必要 キーワード 検索を行う • 類義語を用いたレビューの 表示無 • キーワードとして適切な 単語がない場合有 類義語や類似文の検索 機能が必要

Slide 7

Slide 7 text

研究の目的 7 最初から見直す • 知りたいことが書かれた レビューを探すには分量が 多い レビューの選択と 要約が必要 キーワード 検索を行う • 類義語を用いたレビューが 表示されない • キーワードとして適切な 単語がない場合有 類義語や類似文の検索 機能が必要 ユーザが気になる観点の他のレビュー文を 要約して取得するシステム

Slide 8

Slide 8 text

関連研究 8 飲食店の口コミから料理に関する文の 要約を提示1 [1]市村哲. 口コミから美味しい料理店を手早く探すシステム. 情報処理学会論文誌, Vol. 61, No. 11, pp. 1748–1756, 2020.

Slide 9

Slide 9 text

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評 価」が述べられている単語を抽出して表示 • 料理情報や評価語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が 高い 9

Slide 10

Slide 10 text

関連研究 • 形態素解析を行い、「料理名」と「料理の感想や評 価」が述べられている単語を抽出して表示 • 単語の抽出にはデータセットを利用 • 全文を表示するよりも、要約を表示した方が満足度が 高い 10 大規模言語モデルを用いると データセットなしで 要約が可能になる

Slide 11

Slide 11 text

提案手法(全体図) 11

Slide 12

Slide 12 text

システムの概要(ユーザ視点) 初期画面 12

Slide 13

Slide 13 text

システムの概要(ユーザ視点) 13 ①ユーザが気に なった部分を 選択

Slide 14

Slide 14 text

システムの概要(ユーザ視点) ②検索を行うと、関連するレビューの要約を 表示 14 要約結果が この文に なった レビューの 件数を表示

Slide 15

Slide 15 text

システムの概要(ユーザ視点) ③要約をクリックするとレビュー本文が表示 15

Slide 16

Slide 16 text

システムの概要(内部処理) 16

Slide 17

Slide 17 text

システムの概要(内部処理) 17 あらかじめ ベクトル化

Slide 18

Slide 18 text

提案手法(内部処理) 18 検索時に ベクトル化 あらかじめ ベクトル化

Slide 19

Slide 19 text

提案手法(内部処理) 19 検索時に ベクトル化 あらかじめ ベクトル化 クエリと 各レビュー文の コサイン類似度を計 算し、0.85以上の レビューを選択

Slide 20

Slide 20 text

システムの概要(内部処理) 20 選択したレビューを ChatGPTを用いて要約 商品の種類に縛られない 要約が可能

Slide 21

Slide 21 text

システムの概要(内部処理) #説明文 以下で入力された文章を、出力形式に従って 10 文字程度で要約してください。 #入力 風量はいいけどcoolの風量もうちょいほしい かな。 #入力例 ただ冷風が弱いのが少し残念。 #出力例 冷風が弱い #出力形式 10 文字程度の要約結果 21 ただ冷風が弱いのが 少し残念。 冷 風 が 弱 い クエリの元となった レビュー文 プロンプト 出力 風量はいいけどcoolの 風量もうちょいほしい かな。 要約対象のレビュー文 クエリ

Slide 22

Slide 22 text

評価実験 ユーザ実験 • アンケート分析 • クエリ分析 検索精度の評価 22

Slide 23

Slide 23 text

ユーザ実験 23 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 目的:比較手法と比べて、7つの評価項目において差が 生じるのかを把握する

Slide 24

Slide 24 text

ユーザ実験 実験参加者 • 兵庫県立大学社会情報科学部、兵庫県立大学大学院情報 科学研究科の学生8名(男性4名、女性4名) • 期間:2024年1月9日~2024年2月15日 24 比較手法(キーワード検索) クエリと完全に一致する レビューを表示 レビューを要約せずに表示 提案手法 クエリと類似するレビューを 表示 レビューを要約して表示 目的:比較手法と比べて、7つの評価項目において差が 生じるのかを把握する

Slide 25

Slide 25 text

ユーザ実験 使用データ • 楽天市場で販売されているドライヤー2商品のレビュー • 約6,000円(2023年12月11日時点) • 2023年7月26日時点の最新200件 25

Slide 26

Slide 26 text

ユーザ実験 実験手順 26 検索タスク2 検索タスク1 被験者 提案手法/商品2 比較手法/商品1 1, 5 提案手法/商品1 比較手法/商品2 2, 6 比較手法/商品2 提案手法/商品1 3, 7 比較手法/商品1 提案手法/商品2 4, 8 訓練タスク 検索タスク1 アンケート 検索タスク2 アンケート インタビュー • 訓練タスク:トースターのレビューを 検索するタスク • 検索タスク:ドライヤーのレビューを 検索するタスク • 制限時間は各10分 あなたは母親に誕生日プ レゼントとしてドライ ヤーをプレゼントするこ とにしました。値段など を考慮して、2つの商品 に絞りました。それぞれ の商品についてレビュー を読み、どのような観点 でどのような評価がされ ているのか調べて下さい。 シナリオ

Slide 27

Slide 27 text

アンケート 27 質問(5段階評価) 評価項目 レビューに含まれる意見を簡単に確認できたと 思う。 要約の見やすさ 1 自分の調べたいことを調べることができたと 思う。 ユーザの興味に対する網羅性 2 様々な観点で調べることができたと思う。 観点の網羅性 3 同じ観点の中で漏れなく意見を調べることが できたと思う。 意見の網羅性 4 結果の表示方法が分かりやすかったと思う。 結果の見やすさ 5 システムの使用は簡単だったと思う。 システムの使用難易度 6 システムの機能に満足している。 全体的な満足度 7

Slide 28

Slide 28 text

評価実験 ユーザ実験 • アンケート分析 • クエリ分析 検索精度の評価 28

Slide 29

Slide 29 text

6以外の項目において提案手法が比較手法を上回っている 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 29 比較手法 提案手法 平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

Slide 30

Slide 30 text

ウェルチのt検定を行い、結果の見やすさについては 5%水準で有意差が認められた 評価項目(5段階評価) 要約の見やすさ 1 ユーザの興味に対する網羅性 2 観点の網羅性 3 意見の網羅性 4 結果の見やすさ 5 システムの使用難易度 6 全体的な満足度 7 結果 30 比較手法 提案手法 平均 4.00 3.63 3.87 2.87 3.25 4.63 3.38 平均 4.80 4.20 4.40 3.60 4.20* 4.40 4.40

Slide 31

Slide 31 text

「結果の見やすさ」の評価された点 • 比較手法は、検索結果が多くなればなるほど結果が 見づらくなる • 提案手法は要約を表示することで、意見がまとめて出 てくるところが良かった 31

Slide 32

Slide 32 text

「意見の網羅性」を評価された検索例 「風量が強い」の検索例 32 提案手法: 76件 比較手法: 3件

Slide 33

Slide 33 text

キーワード検索での検索結果 • 「風量」:66件 • 「風力」:14件 別々に検索する必要がある 33

Slide 34

Slide 34 text

提案手法での検索結果 • 「風量が強い」の検索結果 • 風量以外の単語で書かれたレビューが表示されている 類義語で書かれたレビューも取得することが出来ている 34

Slide 35

Slide 35 text

提案手法での検索結果 • 「風量が強い」の検索結果 反対意見も表示できている 35

Slide 36

Slide 36 text

「意見の網羅性」を評価されなかった検索例 • 検索結果が0件になる場合もある 36

Slide 37

Slide 37 text

考察 アンケート分析 • 大規模言語モデルを用いた要約でも、検索結果 全文を表示するより分かりやすいインタフェースに なる • アンケート結果は、実際に検索したクエリの検索結 果に影響されている 37

Slide 38

Slide 38 text

評価実験 ユーザ実験 • アンケート分析 • クエリ分析 検索精度の評価 38

Slide 39

Slide 39 text

クエリ分析 目的:比較手法と提案手法で、検索行動に差が生じるか 調べる • クエリ発行数:1回の検索タスク内で検索ボタンが押された回数 • 同じクエリが連続しているものは1回とみなす • クエリセッション:クエリの検索ボタンが押されてから次の検索 ボタンが押されるまでの時間 • 検索タスク間で最後に検索されたクエリは使用しない 39

Slide 40

Slide 40 text

結果 クエリ発行数(回) クエリセッション(秒) 40 8 7 6 5 4 3 2 1 参加者 54.38 33.08 63.38 48.25 43.54 21.2 33.29 56.62 比較手法 72.71 76.12 47.45 44.78 105.8 43.42 29.35 79.86 提案手法 8 7 6 5 4 3 2 1 参加者 9 13 9 13 14 26 18 9 比較手法 8 9 12 10 6 13 21 8 提案手法

Slide 41

Slide 41 text

考察 クエリ分析 • クエリの発行数とクエリセッションは、手法による 差が認められなかった • セッションの⾧さはシステムの実行時間と検索結果 の件数に影響されるのではないか • 検索結果が表示される時間も測定すべきであった • 結果の件数とセッションには正の相関がみられた 41

Slide 42

Slide 42 text

評価実験 ユーザ実験 • アンケート分析 • クエリ分析 検索精度の評価 42

Slide 43

Slide 43 text

検索精度の評価 目的:提案手法において、人手でふさわしいとされるレビューが どの程度検索結果に表示されるのかを調べる 43 使用するクエリ • 予備実験と本実験で 商品1のレビューを 検索するときに用い られたクエリ10件 フレーズ(それ以外) 単語(名詞1つ) 使いやすかった 風量 音があまり気にならない カラー こげたような匂い プレゼント 軽くていい 故障 冷風にすると風量が弱くなってしまう 温度

Slide 44

Slide 44 text

検索精度の評価 44 • 商品1のレビュー200件を用いて、10個のクエリとの適合 性判定を人手(筆者1人)で行い、比較手法および提案手法 の結果と比較 • 「使いやすかった」の場合 提案手法 比較手法 人手 レビュー 〇 〇 〇 肌ざわりが良くて(シリコンぽい)使いや すかったです。 軽くていいけど、風量はそんなにです。 熱いので、風邪で乾かすより熱で乾かす 感じです。 〇 〇 軽くて使いやすい。最大にしても音が あまり気にならないので良いです。

Slide 45

Slide 45 text

結果 • 単語だと比較手法の 値が高く、フレーズだと提案手法の 値が高い 45 値 再現率 適合率 単語(名詞1つ) 0.56 0.42 0.94 比較手法 0.27 0.20 0.60 提案手法 値 再現率 適合率 フレーズ(それ以外) 0.11 0.06 1.00 比較手法 0.61 0.60 0.72 提案手法

Slide 46

Slide 46 text

考察 検索精度の評価 • 比較手法では、クエリの文字数や情報量が多くなる につれて完全にクエリと一致するレビューが少なく なるため、フレーズの 値が低くなる • 提案手法では、単語と文章だと言葉の単位が異なり、 類似度が低下するため、単語の 値が低くなる 46

Slide 47

Slide 47 text

今後の課題 類似レビュー判定の調整 • 文をベクトル化しているため、単語との類似度が低 くなってしまった • 閾値の変更や、文に対して単語の除外処理などを 行ってからベクトル化を行う必要がある 47

Slide 48

Slide 48 text

今後の課題 プロンプトの改善 • プロンプトの出力がクエリと同様であったり、10文 字以内で要約できていない事例も多数存在 • 別の記述方法でプロンプトを作成し、要約 48

Slide 49

Slide 49 text

今後の課題 要約の精度評価 • 検索の精度評価は行ったが、元の文をどの程度要約 できているかは評価できていない • 様々なプロンプトの記法で行う必要がある 49

Slide 50

Slide 50 text

まとめ • 工夫点:ChatGPTを用いて要約→データ少で要約可能 • ユーザ実験の結果、結果の見やすさという評価項目で提案 手法の方が優位 • クエリの発行数、クエリセッションは実行時間や検索結果の 件数が影響 • 検索精度は、提案手法だと単語の場合に低くなる • ベクトル化を行う手法やプロンプトの調整などが必要 50 ユーザが気になる観点の他のレビュー文を 要約して取得するシステム

Slide 51

Slide 51 text

補足 51

Slide 52

Slide 52 text

アンケート結果 52

Slide 53

Slide 53 text

キーワード検索での検索結果 • 「風量」:66件 • 「風力」:14件 53

Slide 54

Slide 54 text

提案手法 比較手法 54