Slide 1

Slide 1 text

⾳声対話型検索における システムの応答の⻑さが 検索⾏動へ与える影響の分析 ⾶岡 憲,⼭本 岳洋,⼤島 裕明(兵庫県⽴⼤学 ⼤学院) 第17回データ⼯学と情報マネジメントに関するフォーラム(DEIM2025) 情報検索・情報推薦・ソーシャルメディア検索モデル(3) [3E-02]

Slide 2

Slide 2 text

研究の背景 1/2 ユーザエクスペリエンスの向上,技術の進歩が成⻑因⼦となり,AI 搭載の⾳声エージェントの市場は2033年までに,平均年成⻑率28.5% で約319億⽶ドルに達すると予想されている[1]. [1]market.us. “AI in Voice Assistants Market”.https://market.us/report/ai-in-voice-assistants- market/#:~:text=AI%20in%20voice%20assistants%20market%20size%20is%20expected%20to%20reach,more%20than%20a%2079.5%25%20share.,2024-08-29 319億⽶ドル 2.6億⽶ドル 1

Slide 3

Slide 3 text

03 [2]Gary Marchionini. Exploratory search: from finding to understanding. Communications of the ACM, 49(4):41–46, 2006. 今日の天気は? 今日のニュース は? ⽇本の平均アルコール 消費量は? ヨーロッパと比較す るとどうなの? アルコール消費量の違い に⽂化的・経済的な違い はあるの? The use of the system may expand to exploratory searches[4] conducted during learning and decision making. look-up based Exploratory search 学習や意思決定の際に⾏われる探索的検索[2]へと 拡⼤する可能性がある. 研究の背景 2/2 2 参照型検索 探索的検索

Slide 4

Slide 4 text

現状の問題 1/2 ユーザは,システムの応答が⻑すぎると 認知負荷が⾼くなり,理解することが困難である. アルコールの消費量に ついて教えて. 1つ⽬は,国の平均のアルコー ル消費量についてです.⽇本 ⼈は平均で8リットルです. 2つ⽬は,アルコール別の消費 量について⾒てみましょう. ビールは.. 3つ⽬に... 応答が⻑いと理解できない 3 最初,何て⾔ってたっけ?

Slide 5

Slide 5 text

参考 gpt-4o-2024-08-06 4

Slide 6

Slide 6 text

現状の問題 2/2 ⽐較や分析等,複雑なタスクになるにつれ,様々な情報を処理する 必要があるため,より認知的負荷が⾼まる 県ごとのアルコールの 消費量について教えて. ⽇本の⼀⼈当たりのアルコール消 費量は、世界の中で⾒ると「中程 度」とされています。具体的な数 値は年やデータソースによって多 少異なりますが、以下のポイント が⼀般的です。 1. **世界平均と⽐ 較**: - ⽇本の⼀⼈当たりのアル コール消費量は、世界平均よりは やや⾼いですが、ヨーロッパの多 くの国と⽐べると... 複雑なタスクだと,余計に処理しきれない 5 ⽇本⼈は,欧⽶よりもあまり⾼ くないのか. 他の国は何て⾔ってたかな..

Slide 7

Slide 7 text

提案⼿法 6 ChatGPT(ベース) 提案⼿法(短応答型提⽰法) アルコールの消費量に ついて教えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は 平均で8リットルです. 2つ⽬は,アルコール別の消費量 について⾒てみましょう. ビールは.. 3つ⽬に... 短応答型提⽰法・・・認知的負荷を軽減させるために,システムが 簡潔に端的に答える. アルコールの消費量に ついて教えて. ⽇本⼈の平均アルコール消費量 は8リットルです.

Slide 8

Slide 8 text

⽬的 7 アルコールの消費量に ついて教えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は平 均で8リットルです. 2つ⽬は,アルコール別の消費量 について⾒てみましょう. 他にもありますがどうでしょう? ⾳声対話検索において情報獲得を⽀援するために, タスク別のシステムの応答提⽰⽅法の戦略を構築する. 例:タスクが複雑であれば,最初に広範囲に情報を提供する

Slide 9

Slide 9 text

関連研究 Spoken conversational search: Audio- only interactive information retrieval(Trippas2018) 実験環境: 従来のWebサーチインターフェース 探索的検索 参照型検索 実験環境: ⾳声対話インターフェース Keep it short: A comparison of voice assistants’ response behavior (Gabriel2022) Examining the Poten.al for Conversa.onal Exploratory Search Using a Smart Speaker Digital Assistant (Abhishek2023) 応答⻑短のユーザの好みにフォーカスされており, ユーザの検索⾏動や獲得した情報の質が考慮されていない. また,タスクの複雑性に応じた,応答の⻑さが与える影響が未知である. 応答の⻑短とタスクの複雑性の 関係における好みついての考察 ⾳声対話検索ではない 8 応答の⻑短における好みついて の考察 情報の質に関する⾔及はない 複合的に探索的検索を⽀援する Alexaを開発し,情報の質を評価 応答の⻑短とタスクの複雑性に 関しての影響が不明瞭である

Slide 10

Slide 10 text

Research Questions 9 RQ2: タスクの複雑性と応答の提⽰⽅法によって,ユーザの 検索⾏動やユーザの獲得した情報に違いがあるか. RQ1: ⾳声対話において短応答型提⽰法は有効か

Slide 11

Slide 11 text

RQ1:⾳声対話において短応答型提⽰法は有効かに対する仮説 10 認知的負荷が低いため,獲得した情報が正確であることが想定される.また, 複雑なタスクだと,認知負荷が下がるため,情報検索の満⾜度が向上する. ChatGPT(ベース) 提案⼿法(短応答型提⽰法) アルコールの消費量について教 えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は 平均で8リットルです. 2つ⽬は,アルコール別の消費量 について⾒てみましょう. ビールは.. 3つ⽬に... アルコールの消費量について教 えて. 国の平均のアルコール消費量に ついてです.⽇本⼈は平均で8 リットルです. ・・・検索後 ・・・検索後 うーん,何ていってたかな.. 使い勝⼿も悪いな,, よく覚えているぞ!使いやす かった!良い体験だった!

Slide 12

Slide 12 text

RQ2:タスクの複雑性と応答の提⽰⽅法によって,ユーザの検索⾏動やユーザ の獲得した情報に違いがあるかに対する仮説 11 RQ2の仮説:クエリの回数は多くなるが,認知的負荷が下がり,情報を記憶できる ため,複雑なタスクであっても,獲得した情報の質(事実性,関連性,批判的視 点)は良い. 結局2つ⽬以降なんだっけ.. ChatGPT(ベース) 提案⼿法(短応答型提⽰法) 1つ⽬は,国の平均のアルコール消費量 についてです.⽇本⼈は平均で8リット ルです. 2つ⽬は,アルコール別の消費量につい て⾒てみましょう. ビールは.. 3つ⽬に... 国の平均のアルコール消費量につ いてです.⽇本⼈は平均で8リッ トルです. ・・・検索後 ・・・検索後 ⽇本⼈は,8リットルで,ヨーロッパ は11リットルだな. ビールの場合は.. ヨーロッパは11リットルです.

Slide 13

Slide 13 text

実験計画 12 ■実験参加者 ・現状8名に実施した ・今後はクラウドワーカー向けに実施する(N=100ほど想定) ■トピックの選定 ・複雑性の⾼いもの,低いものを既存研究より選択[3] ■実験⽅法 ・被験者内実験 ・1実験参加者は2トピック、2インターフェース [3]Johanne R. Trippas, Damiano Spina, Lawrence Cavedon, and Mark Sanderson. 2017. How Do People Interact in Conversational Speech-Only Search Tasks: A Preliminary Analysis. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval. 325–328.

Slide 14

Slide 14 text

実験環境とシステム 1/2 13 OpenAIのAPIを⽤いて実装. Firebaseでは,発話内容(テキストデータ)やクエリ発⾏にかかった時間,クエ リの発⾏回数等情報検索に関わるデータを保存.

Slide 15

Slide 15 text

実験環境とシステム 2/2 14 参考動画:https://www.youtube.com/watch?v=oLYF8zv0-0s • ボタンを押下すると 対話できる • システム応答中は, ユーザが介⼊できな い

Slide 16

Slide 16 text

システムの応答 15 プロンプト*を調整することで,短応答型提⽰を実現させた. *ELYZA-japanese-Llama-2-7b のデフォルトプロンプトを参考 共通:「あなたは優秀な⽇本⼈アシスタントです.ユーザからの相談や質問に答えてください.」 短応答:+「必ず,と ても短く,簡潔に,要約して伝えてください. 」

Slide 17

Slide 17 text

実験の流れ 16 事前タスク (練習) 情報検索 タスク タスク毎に アンケート 2つのシステムを⽤いるので 2回繰り返す ・検索時間15分 ・情報が⼗分に集まったと感じたらいつでも検索を終了してもよい 最終アンケート

Slide 18

Slide 18 text

トピック 17 トピック 分類:Remember(複雑性低) シナモンの原産地 シナリオ 先⽇,あなたはヨーロッパから輸⼊されたスパイスクッキーを⾷べていた.あなたはシナモンの原 産地を調べようと思った. トピック2 分類:Analyze(複雑性⾼) ⼀⼈当たりのアルコール消費量 シナリオ あなたは最近,⼤きなパーティーに参加し,翌⽇⼆⽇酔いで⽬覚めた.そのため,アルコールの平 均消費量についてもっと知りたいと思った.特に,⼀⼈当たりの消費量を報告する情報に興味があ り,国,県,市町村レベルなど,グループ間で⽐較したいと考えた. トピックは,Bloomの分類法[4]に従い,複雑性が低いものと⾼いものを選択した. [4] L. W. Anderson, D. R. Krathwohl, and B. S. Bloom. A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman, New York, 2001.

Slide 19

Slide 19 text

Research Ques3ons 18 RQ2: タスクの複雑性と応答の提⽰⽅法によって,ユーザの 検索⾏動やユーザの獲得した情報に違いがあるか. RQ1: ⾳声対話において短応答型提⽰法は有効か

Slide 20

Slide 20 text

分析のアプローチ 19 短応答提示が有効であったかを計測する指標 指標1:認知的負荷が低いこと 指標2:応答の⻑さ情報検索の満⾜度 ・NASA Task Load Index[5] 認知的負荷の度合いを6項⽬を⽤いて判定(知的・知覚的,⾝体的,タイムプレッシャー,作業成績,努⼒,フラスト レーション) ・アンケート 応答の⻑さが情報検索に役⽴ったか等を評価する5段階のアンケート. [5]Hart, S., Staveland, L.: Development of nasa-tlx (task load index): Results and theoretical research, human mental workload (1988)

Slide 21

Slide 21 text

結果 1/2 20 指標1:認知的負荷が低いこと 提案⼿法の短応答型提⽰の⽅が, 総じて認知的負荷が低い傾向がある. ⻑応答型提⽰(ベースライン)と短応答型提⽰(提案⼿法)の NASA-TLX の平均値の⽐較.括弧内は標準偏 差.スコアは加重スコアとなっている.低いほど優れていることを⽰す. ただし,パフォーマンスは⾼いほ ど優れている.最⾼値は太⽂字で⽰す.

Slide 22

Slide 22 text

結果 2/2 21 Q1,2で,短応答かつ複雑性が低い場合のスコアが⾼いことから, 応答の⻑さが適切であったことが⽰唆される. また,Q3より⻑応答かつ複雑性が⾼い場合,獲得した情報は⼗分で あったが,Q4よりまとめる上で重要な情報が抜けた可能性がある. 指標4:応答の⻑さ情報検索の満⾜度

Slide 23

Slide 23 text

考察 22 ü 提案⼿法の短応答型提⽰は,複雑性にかかわらず,認知的負荷を下げることができる. ü 特に,複雑性の低いタスクの⽅は,短応答型が適切と感じやすい. ü ⼀⽅,⻑応答提⽰は,情報を沢⼭集められていると感じるが情報をうまくまとめることが困 難であることが⽰唆される. ⾳声対話型検索において,短応答提⽰は有効である.

Slide 24

Slide 24 text

結果 23 RQ2: タスクの複雑性と応答の提⽰⽅法によって,ユーザの 検索⾏動やユーザの獲得した情報に違いがあるか. RQ1: ⾳声対話において短応答型提⽰法は有効か

Slide 25

Slide 25 text

分析のアプローチ 24 指標1: 指標2: 指標3: [6]A comparison of techniques for measuring sensemaking and learning within participant-generated summaries. ・要約を⽐較する Dqual (要約の質: Quality of Facts), Dintrp (事実の関連性と構成: Interpretation of Facts) ,Dcrit (批判的分析: Critical Analysis)[6]の3観点から点数付けしてAnovaで⽐較する クエリ発⾏回数 検索行動 ユーザが獲得した情報 クエリ発⾏に要した時間 ・ナゲット*再現率 = ユーザのサマリ内のナゲット数 システム応答のナゲット数 指標4: ナゲット*=⼆値的に判断できる事実で,分割不可能な単位 ナゲット再現率=システムの応答をどれだけ獲得できたかを⽰す

Slide 26

Slide 26 text

結果 1/4 25 クエリの平均発⾏回数.括弧内は標準偏差 タスクの複雑性とは関係なく,短応答提⽰の⽅が, 情報が少ないため,情報を獲得するために,ユーザのクエリが多くな る. 指標1:クエリの発⾏回数の違い

Slide 27

Slide 27 text

結果 2/4 26 複雑性が⾼いタスクにおいて,情報量が⼗分にあることが起因となり クエリを発⾏しやすくなったため,クエリ発⾏にかかる時間が短く なった可能性がある. 指標2:クエリの発⾏に要した時間の違い クエリの発⾏にかかった時間(秒).括弧内は標準偏差.

Slide 28

Slide 28 text

結果 3/4 27 短応答提⽰が有意にナゲット再現率が⾼い. 認知的負荷が低い分,システムからの応答内容を落とさずに, 情報を獲得することができる. 指標3:ナゲット再現率 複雑性低 複雑性⾼ ⻑応答型提⽰(ベース) 0.27(0.10) 0.28(0.11) 短応答型提⽰(提案) 0.54(0.36) 0.64(0.13) ナゲット再現率.括弧内は標準偏差. ⾚字は有意差あり.

Slide 29

Slide 29 text

結果 4/4 28 ⻑応答提⽰のユーザのサマリの⽅が考察や分析に優れた傾向にある. 初期段階で広範な情報を提供していることが影響している. 指標4:要約した情報の質 ⻑応答型提⽰ (ベース) 複雑性低 ⻑応答型提⽰ (ベース) 複雑性⾼ 短応答型提⽰ (提案) 複雑性低 短応答型提⽰ (提案) 複雑性⾼ Dqual (要約の質: Quality of Facts) 2.40(1.34) 2.67(0.58) 2.67(0.58) 2.80(0.48) Dintrp (事実の関連性 と構成: Interpretation of Facts) 1.40(0.89) 1.33(0.58) 1.67(0.58) 1.60(0.58) Dcrit (批判的分析: Critical Analysis) 0.6(0.55) 0.33(0.58) 1.00(0.00) 0.40(0.55) タスク後のサマリの評価の平均.括弧内は標準偏差.⾚字は有意差あり

Slide 30

Slide 30 text

ユーザのクエリパターン 29 ⻑応答提⽰の⽅が,最初に広範囲な情報を獲得できるため, ⽐較・分析に移⾏するのが早い傾向にある. 指標3:クエリのパターンの違い ⽇本⼈の⼀⼈当たりのアルコール消費量を教え てください。 年間のアルコール消費量で⼀番アルコールを消費し ている年代を教えてください。 "⽇本国内でのアルコールの⼀⼈当たりの消費量に ついて教えてください。 " 提案 ベース "ではビールが盛んなドイツだった場合 ⼀番アルコー ルを消費している年代は何歳ぐらいですか " ""兵庫県での消費量はいくらですか? "。 " "それでは、国単位でアルコールの平均消費量を⽐較して ください。 例えば、⽇本とアメリカ、インドといった漢 字でお願いします。 " Initial query Initial query 最初の応答で年齢や性別で異なりますという情報が提⽰されていた ⽐較する視点を⾒つけられていない

Slide 31

Slide 31 text

考察 30 ü 提案⼿法は,情報量が少ないため,具体的質問に⾏くのが時間がかかる.結果として, クエリに時間がかかったり,質問のターンが増えている. ü 事実や構造に関しては,差異は⼤きくないが,分析という点において,⻑応答の⽅が良 いスコアの傾向が⾒られる. ü 質の⾼いサマリを作成したシステムの応答には,トピックに関して広げるような応答が あり,それが,考察や分析へとつながっているように⾒受けられる ⻑応答は,初期から広範囲な情報を提供するため,⽐較や分析をする 視点が増えると考えられる. 結果として,考察や分析が短応答よりも質が⾼い傾向がある.

Slide 32

Slide 32 text

議論 31 3.N数が少なく⼀般化することが難しいのではないか? ->N数を増やしてオンラインで実施する. 2.ユーザの事前知識がサマリの質に影響するのではないか? ->事前知識を確認する必要がある 1.提案⼿法の⽅が情報正解率が⾼いとあるが,⻑応答の場合は, ユーザが重要でない情報をサマリに⼊れなかっただけではないか? ->重要な情報を落としたと感じたかという質問項⽬で確認する必要がある

Slide 33

Slide 33 text

まとめと今後の⽅向性 32 ⽰唆から,応答⽣成プロセスの⾃動化(応答⻑の⾃動最適化)のモデル構築 RQ1: ⾳声対話において短応答型提⽰法 は有効か RQ2: タスクの複雑性と応答の提⽰⽅法 によって,ユーザの検索⾏動やユーザの 獲得した情報に違いがあるか. ⾳声対話型検索において,短応答提⽰は有効である. ⻑応答は情報が多いが,ユーザに⼀定の安⼼感を与えてい る. ⻑応答は,初期から広範囲な情報を提供するため, ⽐較や分析をする視点が増えると考えられる. 結果として,考察や分析が短応答よりも質が⾼い傾 向がある. 短応答は,単純タスクで効率的に情報を得る際に有効である.また,⻑応答は, ユーザが考察を深める ようなタスクで,質の⾼いサマリ作成や探索的検索を促進する ->初期段階で広範な情報にアクセスする⽅が効率的 ->必要に応じて「追加情報提⽰」や「探索を促進する質問の提⽰」など,インタラクティブな設 計が有効