Upgrade to Pro — share decks privately, control downloads, hide ads and more …

音声対話型検索における システムの応答の長さが 検索行動へ与える影響の分析

音声対話型検索における システムの応答の長さが 検索行動へ与える影響の分析

More Decks by 兵庫県立大学 山本研究室

Transcript

  1. 研究の背景 1/2 ユーザエクスペリエンスの向上,技術の進歩が成⻑因⼦となり,AI 搭載の⾳声エージェントの市場は2033年までに,平均年成⻑率28.5% で約319億⽶ドルに達すると予想されている[1]. [1]market.us. “AI in Voice Assistants

    Market”.https://market.us/report/ai-in-voice-assistants- market/#:~:text=AI%20in%20voice%20assistants%20market%20size%20is%20expected%20to%20reach,more%20than%20a%2079.5%25%20share.,2024-08-29 319億⽶ドル 2.6億⽶ドル 1
  2. 03 [2]Gary Marchionini. Exploratory search: from finding to understanding. Communications

    of the ACM, 49(4):41–46, 2006. 今日の天気は? 今日のニュース は? ⽇本の平均アルコール 消費量は? ヨーロッパと比較す るとどうなの? アルコール消費量の違い に⽂化的・経済的な違い はあるの? The use of the system may expand to exploratory searches[4] conducted during learning and decision making. look-up based Exploratory search 学習や意思決定の際に⾏われる探索的検索[2]へと 拡⼤する可能性がある. 研究の背景 2/2 2 参照型検索 探索的検索
  3. 現状の問題 2/2 ⽐較や分析等,複雑なタスクになるにつれ,様々な情報を処理する 必要があるため,より認知的負荷が⾼まる 県ごとのアルコールの 消費量について教えて. ⽇本の⼀⼈当たりのアルコール消 費量は、世界の中で⾒ると「中程 度」とされています。具体的な数 値は年やデータソースによって多

    少異なりますが、以下のポイント が⼀般的です。 1. **世界平均と⽐ 較**: - ⽇本の⼀⼈当たりのアル コール消費量は、世界平均よりは やや⾼いですが、ヨーロッパの多 くの国と⽐べると... 複雑なタスクだと,余計に処理しきれない 5 ⽇本⼈は,欧⽶よりもあまり⾼ くないのか. 他の国は何て⾔ってたかな..
  4. 提案⼿法 6 ChatGPT(ベース) 提案⼿法(短応答型提⽰法) アルコールの消費量に ついて教えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は 平均で8リットルです. 2つ⽬は,アルコール別の消費量

    について⾒てみましょう. ビールは.. 3つ⽬に... 短応答型提⽰法・・・認知的負荷を軽減させるために,システムが 簡潔に端的に答える. アルコールの消費量に ついて教えて. ⽇本⼈の平均アルコール消費量 は8リットルです.
  5. ⽬的 7 アルコールの消費量に ついて教えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は平 均で8リットルです. 2つ⽬は,アルコール別の消費量 について⾒てみましょう. 他にもありますがどうでしょう?

    ⾳声対話検索において情報獲得を⽀援するために, タスク別のシステムの応答提⽰⽅法の戦略を構築する. 例:タスクが複雑であれば,最初に広範囲に情報を提供する
  6. 関連研究 Spoken conversational search: Audio- only interactive information retrieval(Trippas2018) 実験環境:

    従来のWebサーチインターフェース 探索的検索 参照型検索 実験環境: ⾳声対話インターフェース Keep it short: A comparison of voice assistants’ response behavior (Gabriel2022) Examining the Poten.al for Conversa.onal Exploratory Search Using a Smart Speaker Digital Assistant (Abhishek2023) 応答⻑短のユーザの好みにフォーカスされており, ユーザの検索⾏動や獲得した情報の質が考慮されていない. また,タスクの複雑性に応じた,応答の⻑さが与える影響が未知である. 応答の⻑短とタスクの複雑性の 関係における好みついての考察 ⾳声対話検索ではない 8 応答の⻑短における好みついて の考察 情報の質に関する⾔及はない 複合的に探索的検索を⽀援する Alexaを開発し,情報の質を評価 応答の⻑短とタスクの複雑性に 関しての影響が不明瞭である
  7. RQ1:⾳声対話において短応答型提⽰法は有効かに対する仮説 10 認知的負荷が低いため,獲得した情報が正確であることが想定される.また, 複雑なタスクだと,認知負荷が下がるため,情報検索の満⾜度が向上する. ChatGPT(ベース) 提案⼿法(短応答型提⽰法) アルコールの消費量について教 えて. 1つ⽬は,国の平均のアルコール 消費量についてです.⽇本⼈は

    平均で8リットルです. 2つ⽬は,アルコール別の消費量 について⾒てみましょう. ビールは.. 3つ⽬に... アルコールの消費量について教 えて. 国の平均のアルコール消費量に ついてです.⽇本⼈は平均で8 リットルです. ・・・検索後 ・・・検索後 うーん,何ていってたかな.. 使い勝⼿も悪いな,, よく覚えているぞ!使いやす かった!良い体験だった!
  8. RQ2:タスクの複雑性と応答の提⽰⽅法によって,ユーザの検索⾏動やユーザ の獲得した情報に違いがあるかに対する仮説 11 RQ2の仮説:クエリの回数は多くなるが,認知的負荷が下がり,情報を記憶できる ため,複雑なタスクであっても,獲得した情報の質(事実性,関連性,批判的視 点)は良い. 結局2つ⽬以降なんだっけ.. ChatGPT(ベース) 提案⼿法(短応答型提⽰法) 1つ⽬は,国の平均のアルコール消費量

    についてです.⽇本⼈は平均で8リット ルです. 2つ⽬は,アルコール別の消費量につい て⾒てみましょう. ビールは.. 3つ⽬に... 国の平均のアルコール消費量につ いてです.⽇本⼈は平均で8リッ トルです. ・・・検索後 ・・・検索後 ⽇本⼈は,8リットルで,ヨーロッパ は11リットルだな. ビールの場合は.. ヨーロッパは11リットルです.
  9. 実験計画 12 ▪実験参加者 ・現状8名に実施した ・今後はクラウドワーカー向けに実施する(N=100ほど想定) ▪トピックの選定 ・複雑性の⾼いもの,低いものを既存研究より選択[3] ▪実験⽅法 ・被験者内実験 ・1実験参加者は2トピック、2インターフェース

    [3]Johanne R. Trippas, Damiano Spina, Lawrence Cavedon, and Mark Sanderson. 2017. How Do People Interact in Conversational Speech-Only Search Tasks: A Preliminary Analysis. In Proceedings of the 2017 Conference on Human Information Interaction and Retrieval. 325–328.
  10. 実験の流れ 16 事前タスク (練習) 情報検索 タスク タスク毎に アンケート 2つのシステムを⽤いるので 2回繰り返す

    ・検索時間15分 ・情報が⼗分に集まったと感じたらいつでも検索を終了してもよい 最終アンケート
  11. トピック 17 トピック 分類:Remember(複雑性低) シナモンの原産地 シナリオ 先⽇,あなたはヨーロッパから輸⼊されたスパイスクッキーを⾷べていた.あなたはシナモンの原 産地を調べようと思った. トピック2 分類:Analyze(複雑性⾼)

    ⼀⼈当たりのアルコール消費量 シナリオ あなたは最近,⼤きなパーティーに参加し,翌⽇⼆⽇酔いで⽬覚めた.そのため,アルコールの平 均消費量についてもっと知りたいと思った.特に,⼀⼈当たりの消費量を報告する情報に興味があ り,国,県,市町村レベルなど,グループ間で⽐較したいと考えた. トピックは,Bloomの分類法[4]に従い,複雑性が低いものと⾼いものを選択した. [4] L. W. Anderson, D. R. Krathwohl, and B. S. Bloom. A taxonomy for learning, teaching, and assessing: A revision of Bloom’s taxonomy of educational objectives. Longman, New York, 2001.
  12. 分析のアプローチ 19 短応答提示が有効であったかを計測する指標 指標1:認知的負荷が低いこと 指標2:応答の⻑さ情報検索の満⾜度 ・NASA Task Load Index[5] 認知的負荷の度合いを6項⽬を⽤いて判定(知的・知覚的,⾝体的,タイムプレッシャー,作業成績,努⼒,フラスト

    レーション) ・アンケート 応答の⻑さが情報検索に役⽴ったか等を評価する5段階のアンケート. [5]Hart, S., Staveland, L.: Development of nasa-tlx (task load index): Results and theoretical research, human mental workload (1988)
  13. 分析のアプローチ 24 指標1: 指標2: 指標3: [6]A comparison of techniques for

    measuring sensemaking and learning within participant-generated summaries. ・要約を⽐較する Dqual (要約の質: Quality of Facts), Dintrp (事実の関連性と構成: Interpretation of Facts) ,Dcrit (批判的分析: Critical Analysis)[6]の3観点から点数付けしてAnovaで⽐較する クエリ発⾏回数 検索行動 ユーザが獲得した情報 クエリ発⾏に要した時間 ・ナゲット*再現率 = ユーザのサマリ内のナゲット数 システム応答のナゲット数 指標4: ナゲット*=⼆値的に判断できる事実で,分割不可能な単位 ナゲット再現率=システムの応答をどれだけ獲得できたかを⽰す
  14. 結果 4/4 28 ⻑応答提⽰のユーザのサマリの⽅が考察や分析に優れた傾向にある. 初期段階で広範な情報を提供していることが影響している. 指標4:要約した情報の質 ⻑応答型提⽰ (ベース) 複雑性低 ⻑応答型提⽰

    (ベース) 複雑性⾼ 短応答型提⽰ (提案) 複雑性低 短応答型提⽰ (提案) 複雑性⾼ Dqual (要約の質: Quality of Facts) 2.40(1.34) 2.67(0.58) 2.67(0.58) 2.80(0.48) Dintrp (事実の関連性 と構成: Interpretation of Facts) 1.40(0.89) 1.33(0.58) 1.67(0.58) 1.60(0.58) Dcrit (批判的分析: Critical Analysis) 0.6(0.55) 0.33(0.58) 1.00(0.00) 0.40(0.55) タスク後のサマリの評価の平均.括弧内は標準偏差.⾚字は有意差あり
  15. ユーザのクエリパターン 29 ⻑応答提⽰の⽅が,最初に広範囲な情報を獲得できるため, ⽐較・分析に移⾏するのが早い傾向にある. 指標3:クエリのパターンの違い ⽇本⼈の⼀⼈当たりのアルコール消費量を教え てください。 年間のアルコール消費量で⼀番アルコールを消費し ている年代を教えてください。 "⽇本国内でのアルコールの⼀⼈当たりの消費量に

    ついて教えてください。 " 提案 ベース "ではビールが盛んなドイツだった場合 ⼀番アルコー ルを消費している年代は何歳ぐらいですか " ""兵庫県での消費量はいくらですか? "。 " "それでは、国単位でアルコールの平均消費量を⽐較して ください。 例えば、⽇本とアメリカ、インドといった漢 字でお願いします。 " Initial query Initial query 最初の応答で年齢や性別で異なりますという情報が提⽰されていた ⽐較する視点を⾒つけられていない
  16. まとめと今後の⽅向性 32 ⽰唆から,応答⽣成プロセスの⾃動化(応答⻑の⾃動最適化)のモデル構築 RQ1: ⾳声対話において短応答型提⽰法 は有効か RQ2: タスクの複雑性と応答の提⽰⽅法 によって,ユーザの検索⾏動やユーザの 獲得した情報に違いがあるか.

    ⾳声対話型検索において,短応答提⽰は有効である. ⻑応答は情報が多いが,ユーザに⼀定の安⼼感を与えてい る. ⻑応答は,初期から広範囲な情報を提供するため, ⽐較や分析をする視点が増えると考えられる. 結果として,考察や分析が短応答よりも質が⾼い傾 向がある. 短応答は,単純タスクで効率的に情報を得る際に有効である.また,⻑応答は, ユーザが考察を深める ようなタスクで,質の⾼いサマリ作成や探索的検索を促進する ->初期段階で広範な情報にアクセスする⽅が効率的 ->必要に応じて「追加情報提⽰」や「探索を促進する質問の提⽰」など,インタラクティブな設 計が有効