音声対話型検索におけるシステムの応答の長さが検索行動へ与える影響の分析

⾳声対話型検索におけるシステムの応答の⻑さが検索⾏動へ与える影響の分析⾶岡憲，⼭本岳洋，⼤島裕明（兵庫県⽴⼤学⼤学院）第17回データ⼯学と情報マネジメントに関するフォーラム（DEIM2025）情報検索・情報推薦・ソーシャルメディア検索モデル（３）
[3E-02]

研究の背景 1/2 ユーザエクスペリエンスの向上，技術の進歩が成⻑因⼦となり，AI 搭載の⾳声エージェントの市場は2033年までに，平均年成⻑率28.5% で約319億⽶ドルに達すると予想されている[1]． [1]market.us. “AI in Voice Assistants
Market”.https://market.us/report/ai-in-voice-assistants- market/#:~:text=AI%20in%20voice%20assistants%20market%20size%20is%20expected%20to%20reach,more%20than%20a%2079.5%25%20share.,2024-08-29 319億⽶ドル 2.6億⽶ドル 1

03 [2]Gary Marchionini. Exploratory search: from finding to understanding. Communications
of the ACM, 49(4):41–46, 2006. 今日の天気は？今日のニュースは？⽇本の平均アルコール消費量は？ヨーロッパと比較するとどうなの？アルコール消費量の違いに⽂化的・経済的な違いはあるの？ The use of the system may expand to exploratory searches[4] conducted during learning and decision making. look-up based Exploratory search 学習や意思決定の際に⾏われる探索的検索[2]へと拡⼤する可能性がある．研究の背景 2/2 2 参照型検索探索的検索

現状の問題 1/2 ユーザは，システムの応答が⻑すぎると認知負荷が⾼くなり，理解することが困難である．アルコールの消費量について教えて． 1つ⽬は，国の平均のアルコール消費量についてです．⽇本⼈は平均で8リットルです． 2つ⽬は，アルコール別の消費
量について⾒てみましょう．ビールは．． 3つ⽬に．．．応答が⻑いと理解できない 3 最初，何て⾔ってたっけ？

参考 gpt-4o-2024-08-06 4

現状の問題 2/2 ⽐較や分析等，複雑なタスクになるにつれ，様々な情報を処理する必要があるため，より認知的負荷が⾼まる県ごとのアルコールの消費量について教えて．⽇本の⼀⼈当たりのアルコール消費量は、世界の中で⾒ると「中程度」とされています。具体的な数値は年やデータソースによって多
少異なりますが、以下のポイントが⼀般的です。 1. **世界平均と⽐較**: - ⽇本の⼀⼈当たりのアルコール消費量は、世界平均よりはやや⾼いですが、ヨーロッパの多くの国と⽐べると．．．複雑なタスクだと，余計に処理しきれない 5 ⽇本⼈は，欧⽶よりもあまり⾼くないのか．他の国は何て⾔ってたかな．．

提案⼿法 6 ChatGPT（ベース）提案⼿法（短応答型提⽰法）アルコールの消費量について教えて． 1つ⽬は，国の平均のアルコール消費量についてです．⽇本⼈は平均で8リットルです． 2つ⽬は，アルコール別の消費量
について⾒てみましょう．ビールは．． 3つ⽬に．．．短応答型提⽰法・・・認知的負荷を軽減させるために，システムが簡潔に端的に答える．アルコールの消費量について教えて．⽇本⼈の平均アルコール消費量は８リットルです．

⽬的 7 アルコールの消費量について教えて． 1つ⽬は，国の平均のアルコール消費量についてです．⽇本⼈は平均で8リットルです． 2つ⽬は，アルコール別の消費量について⾒てみましょう．他にもありますがどうでしょう？
⾳声対話検索において情報獲得を⽀援するために，タスク別のシステムの応答提⽰⽅法の戦略を構築する．例：タスクが複雑であれば，最初に広範囲に情報を提供する

関連研究 Spoken conversational search: Audio- only interactive information retrieval(Trippas2018) 実験環境:
従来のWebサーチインターフェース探索的検索参照型検索実験環境: ⾳声対話インターフェース Keep it short: A comparison of voice assistants’ response behavior (Gabriel2022) Examining the Poten.al for Conversa.onal Exploratory Search Using a Smart Speaker Digital Assistant (Abhishek2023) 応答⻑短のユーザの好みにフォーカスされており，ユーザの検索⾏動や獲得した情報の質が考慮されていない．また，タスクの複雑性に応じた，応答の⻑さが与える影響が未知である．応答の⻑短とタスクの複雑性の関係における好みついての考察⾳声対話検索ではない 8 応答の⻑短における好みついての考察情報の質に関する⾔及はない複合的に探索的検索を⽀援する Alexaを開発し，情報の質を評価応答の⻑短とタスクの複雑性に関しての影響が不明瞭である

Research Questions 9 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

RQ1：⾳声対話において短応答型提⽰法は有効かに対する仮説 10 認知的負荷が低いため，獲得した情報が正確であることが想定される．また，複雑なタスクだと，認知負荷が下がるため，情報検索の満⾜度が向上する． ChatGPT（ベース）提案⼿法（短応答型提⽰法）アルコールの消費量について教えて． 1つ⽬は，国の平均のアルコール消費量についてです．⽇本⼈は
平均で8リットルです． 2つ⽬は，アルコール別の消費量について⾒てみましょう．ビールは．． 3つ⽬に．．．アルコールの消費量について教えて．国の平均のアルコール消費量についてです．⽇本⼈は平均で8 リットルです．・・・検索後・・・検索後うーん，何ていってたかな．．使い勝⼿も悪いな，，よく覚えているぞ！使いやすかった！良い体験だった！

RQ2：タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるかに対する仮説 11 RQ2の仮説：クエリの回数は多くなるが，認知的負荷が下がり，情報を記憶できるため，複雑なタスクであっても，獲得した情報の質（事実性，関連性，批判的視点）は良い．結局2つ⽬以降なんだっけ．． ChatGPT（ベース）提案⼿法（短応答型提⽰法） 1つ⽬は，国の平均のアルコール消費量
についてです．⽇本⼈は平均で8リットルです． 2つ⽬は，アルコール別の消費量について⾒てみましょう．ビールは．． 3つ⽬に．．．国の平均のアルコール消費量についてです．⽇本⼈は平均で8リットルです．・・・検索後・・・検索後⽇本⼈は，8リットルで，ヨーロッパは11リットルだな．ビールの場合は．．ヨーロッパは11リットルです．

実験計画 12 ▪実験参加者・現状8名に実施した・今後はクラウドワーカー向けに実施する（N=100ほど想定） ▪トピックの選定・複雑性の⾼いもの，低いものを既存研究より選択[3] ▪実験⽅法・被験者内実験・1実験参加者は2トピック、2インターフェース
[3]Johanne R. Trippas, Damiano Spina, Lawrence Cavedon, and Mark Sanderson. 2017. How Do People Interact in Conversational Speech-Only Search Tasks: A Preliminary Analysis. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval. 325–328.

実験環境とシステム 1/2 13 OpenAIのAPIを⽤いて実装． Firebaseでは，発話内容（テキストデータ）やクエリ発⾏にかかった時間，クエリの発⾏回数等情報検索に関わるデータを保存．

実験環境とシステム 2/2 14 参考動画：https://www.youtube.com/watch?v=oLYF8zv0-0s • ボタンを押下すると対話できる • システム応答中は，ユーザが介⼊できな
い

システムの応答 15 プロンプト*を調整することで，短応答型提⽰を実現させた．＊ELYZA-japanese-Llama-2-7b のデフォルトプロンプトを参考共通：「あなたは優秀な⽇本⼈アシスタントです．ユーザからの相談や質問に答えてください.」短応答：+「必ず，とても短く，簡潔に，要約して伝えてください. 」

実験の流れ 16 事前タスク（練習）情報検索タスクタスク毎にアンケート２つのシステムを⽤いるので 2回繰り返す
・検索時間15分・情報が⼗分に集まったと感じたらいつでも検索を終了してもよい最終アンケート

トピック 17 トピック分類：Remember（複雑性低）シナモンの原産地シナリオ先⽇，あなたはヨーロッパから輸⼊されたスパイスクッキーを⾷べていた．あなたはシナモンの原産地を調べようと思った．トピック2 分類:Analyze（複雑性⾼）
⼀⼈当たりのアルコール消費量シナリオあなたは最近，⼤きなパーティーに参加し，翌⽇⼆⽇酔いで⽬覚めた．そのため，アルコールの平均消費量についてもっと知りたいと思った．特に，⼀⼈当たりの消費量を報告する情報に興味があり，国，県，市町村レベルなど，グループ間で⽐較したいと考えた．トピックは，Bloomの分類法[4]に従い，複雑性が低いものと⾼いものを選択した． [4] L. W. Anderson, D. R. Krathwohl, and B. S. Bloom. A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman, New York, 2001.

Research Ques3ons 18 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

分析のアプローチ 19 短応答提示が有効であったかを計測する指標指標1:認知的負荷が低いこと指標2:応答の⻑さ情報検索の満⾜度・NASA Task Load Index[5] 認知的負荷の度合いを６項⽬を⽤いて判定（知的・知覚的，⾝体的，タイムプレッシャー，作業成績，努⼒，フラスト
レーション）・アンケート応答の⻑さが情報検索に役⽴ったか等を評価する5段階のアンケート． [5]Hart, S., Staveland, L.: Development of nasa-tlx (task load index): Results and theoretical research, human mental workload (1988)

結果 1/2 20 指標1:認知的負荷が低いこと提案⼿法の短応答型提⽰の⽅が，総じて認知的負荷が低い傾向がある．⻑応答型提⽰（ベースライン）と短応答型提⽰（提案⼿法）の NASA-TLX の平均値の⽐較．括弧内は標準偏差．スコアは加重スコアとなっている．低いほど優れていることを⽰す.
ただし，パフォーマンスは⾼いほど優れている．最⾼値は太⽂字で⽰す．

結果 2/2 21 Q1,2で，短応答かつ複雑性が低い場合のスコアが⾼いことから，応答の⻑さが適切であったことが⽰唆される．また，Q3より⻑応答かつ複雑性が⾼い場合，獲得した情報は⼗分であったが，Q4よりまとめる上で重要な情報が抜けた可能性がある．指標4:応答の⻑さ情報検索の満⾜度

考察 22 ü 提案⼿法の短応答型提⽰は，複雑性にかかわらず，認知的負荷を下げることができる． ü 特に，複雑性の低いタスクの⽅は，短応答型が適切と感じやすい． ü ⼀⽅，⻑応答提⽰は，情報を沢⼭集められていると感じるが情報をうまくまとめることが困難であることが⽰唆される．⾳声対話型検索において，短応答提⽰は有効である．

結果 23 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

分析のアプローチ 24 指標1: 指標2: 指標3: [6]A comparison of techniques for
measuring sensemaking and learning within participant-generated summaries. ・要約を⽐較する Dqual (要約の質: Quality of Facts)， Dintrp (事実の関連性と構成: Interpretation of Facts) ，Dcrit (批判的分析: Critical Analysis)[6]の３観点から点数付けしてAnovaで⽐較するクエリ発⾏回数検索行動ユーザが獲得した情報クエリ発⾏に要した時間・ナゲット*再現率 = ユーザのサマリ内のナゲット数システム応答のナゲット数指標4: ナゲット*＝⼆値的に判断できる事実で，分割不可能な単位ナゲット再現率=システムの応答をどれだけ獲得できたかを⽰す

結果 1/4 25 クエリの平均発⾏回数．括弧内は標準偏差タスクの複雑性とは関係なく，短応答提⽰の⽅が，情報が少ないため，情報を獲得するために，ユーザのクエリが多くなる．指標1:クエリの発⾏回数の違い

結果 2/4 26 複雑性が⾼いタスクにおいて，情報量が⼗分にあることが起因となりクエリを発⾏しやすくなったため，クエリ発⾏にかかる時間が短くなった可能性がある．指標2:クエリの発⾏に要した時間の違いクエリの発⾏にかかった時間（秒）．括弧内は標準偏差．

結果 3/4 27 短応答提⽰が有意にナゲット再現率が⾼い．認知的負荷が低い分，システムからの応答内容を落とさずに，情報を獲得することができる．指標3:ナゲット再現率複雑性低複雑性⾼⻑応答型提⽰（ベース）
0.27（0.10） 0.28（0.11）短応答型提⽰（提案） 0.54（0.36） 0.64（0.13）ナゲット再現率.括弧内は標準偏差. ⾚字は有意差あり．

結果 4/4 28 ⻑応答提⽰のユーザのサマリの⽅が考察や分析に優れた傾向にある．初期段階で広範な情報を提供していることが影響している．指標4:要約した情報の質⻑応答型提⽰（ベース）複雑性低⻑応答型提⽰
（ベース）複雑性⾼短応答型提⽰（提案）複雑性低短応答型提⽰（提案）複雑性⾼ Dqual (要約の質: Quality of Facts) 2.40（1.34） 2.67（0.58） 2.67（0.58） 2.80（0.48） Dintrp (事実の関連性と構成: Interpretation of Facts) 1.40（0.89） 1.33（0.58） 1.67（0.58） 1.60（0.58） Dcrit (批判的分析: Critical Analysis) 0.6（0.55） 0.33（0.58） 1.00（0.00） 0.40（0.55）タスク後のサマリの評価の平均.括弧内は標準偏差．⾚字は有意差あり

ユーザのクエリパターン 29 ⻑応答提⽰の⽅が，最初に広範囲な情報を獲得できるため，⽐較・分析に移⾏するのが早い傾向にある．指標3:クエリのパターンの違い⽇本⼈の⼀⼈当たりのアルコール消費量を教えてください。年間のアルコール消費量で⼀番アルコールを消費している年代を教えてください。 "⽇本国内でのアルコールの⼀⼈当たりの消費量に
ついて教えてください。 " 提案ベース "ではビールが盛んなドイツだった場合⼀番アルコールを消費している年代は何歳ぐらいですか " ""兵庫県での消費量はいくらですか? "。 " "それでは、国単位でアルコールの平均消費量を⽐較してください。例えば、⽇本とアメリカ、インドといった漢字でお願いします。 " Initial query Initial query 最初の応答で年齢や性別で異なりますという情報が提⽰されていた⽐較する視点を⾒つけられていない

考察 30 ü 提案⼿法は，情報量が少ないため，具体的質問に⾏くのが時間がかかる．結果として，クエリに時間がかかったり，質問のターンが増えている． ü 事実や構造に関しては，差異は⼤きくないが，分析という点において，⻑応答の⽅が良いスコアの傾向が⾒られる． ü 質の⾼いサマリを作成したシステムの応答には，トピックに関して広げるような応答が
あり，それが，考察や分析へとつながっているように⾒受けられる⻑応答は，初期から広範囲な情報を提供するため，⽐較や分析をする視点が増えると考えられる．結果として，考察や分析が短応答よりも質が⾼い傾向がある．

議論 31 3.N数が少なく⼀般化することが難しいのではないか？ ->N数を増やしてオンラインで実施する． 2.ユーザの事前知識がサマリの質に影響するのではないか？ ->事前知識を確認する必要がある 1.提案⼿法の⽅が情報正解率が⾼いとあるが，⻑応答の場合は，ユーザが重要でない情報をサマリに⼊れなかっただけではないか？ ->重要な情報を落としたと感じたかという質問項⽬で確認する必要がある

まとめと今後の⽅向性 32 ⽰唆から，応答⽣成プロセスの⾃動化（応答⻑の⾃動最適化）のモデル構築 RQ1: ⾳声対話において短応答型提⽰法は有効か RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか．
⾳声対話型検索において，短応答提⽰は有効である．⻑応答は情報が多いが，ユーザに⼀定の安⼼感を与えている．⻑応答は，初期から広範囲な情報を提供するため，⽐較や分析をする視点が増えると考えられる．結果として，考察や分析が短応答よりも質が⾼い傾向がある．短応答は，単純タスクで効率的に情報を得る際に有効である．また，⻑応答は，ユーザが考察を深めるようなタスクで，質の⾼いサマリ作成や探索的検索を促進する ->初期段階で広範な情報にアクセスする⽅が効率的 ->必要に応じて「追加情報提⽰」や「探索を促進する質問の提⽰」など，インタラクティブな設計が有効

音声対話型検索におけるシステムの応答の長さが検索行動へ与える影響の分析

音声対話型検索におけるシステムの応答の長さが検索行動へ与える影響の分析

兵庫県立大学山本研究室

More Decks by 兵庫県立大学山本研究室

Featured

Transcript

03 [2]Gary Marchionini. Exploratory search: from finding to understanding. Communications

参考 gpt-4o-2024-08-06 4

提案⼿法 6 ChatGPT（ベース）提案⼿法（短応答型提⽰法）アルコールの消費量について教えて． 1つ⽬は，国の平均のアルコール消費量についてです．⽇本⼈は平均で8リットルです． 2つ⽬は，アルコール別の消費量

関連研究 Spoken conversational search: Audio- only interactive information retrieval(Trippas2018) 実験環境:

Research Questions 9 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

実験環境とシステム 1/2 13 OpenAIのAPIを⽤いて実装． Firebaseでは，発話内容（テキストデータ）やクエリ発⾏にかかった時間，クエリの発⾏回数等情報検索に関わるデータを保存．

実験環境とシステム 2/2 14 参考動画：https://www.youtube.com/watch?v=oLYF8zv0-0s • ボタンを押下すると対話できる • システム応答中は，ユーザが介⼊できな

実験の流れ 16 事前タスク（練習）情報検索タスクタスク毎にアンケート２つのシステムを⽤いるので 2回繰り返す

Research Ques3ons 18 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

結果 23 RQ2: タスクの複雑性と応答の提⽰⽅法によって，ユーザの検索⾏動やユーザの獲得した情報に違いがあるか． RQ1: ⾳声対話において短応答型提⽰法は有効か

分析のアプローチ 24 指標1: 指標2: 指標3: [6]A comparison of techniques for

結果 1/4 25 クエリの平均発⾏回数．括弧内は標準偏差タスクの複雑性とは関係なく，短応答提⽰の⽅が，情報が少ないため，情報を獲得するために，ユーザのクエリが多くなる．指標1:クエリの発⾏回数の違い

結果 3/4 27 短応答提⽰が有意にナゲット再現率が⾼い．認知的負荷が低い分，システムからの応答内容を落とさずに，情報を獲得することができる．指標3:ナゲット再現率複雑性低複雑性⾼⻑応答型提⽰（ベース）

結果 4/4 28 ⻑応答提⽰のユーザのサマリの⽅が考察や分析に優れた傾向にある．初期段階で広範な情報を提供していることが影響している．指標4:要約した情報の質⻑応答型提⽰（ベース）複雑性低⻑応答型提⽰

音声対話型検索における システムの応答の長さが 検索行動へ与える影響の分析

音声対話型検索における システムの応答の長さが 検索行動へ与える影響の分析

More Decks by 兵庫県立大学 山本研究室

Featured

Transcript

音声対話型検索におけるシステムの応答の長さが検索行動へ与える影響の分析

音声対話型検索におけるシステムの応答の長さが検索行動へ与える影響の分析

More Decks by 兵庫県立大学山本研究室