[社内論文読み会資料] Adapting User Interfaces with Model-based Reinforcement Learning

Adapting User Interfaces with Model-based Reinforcement Learning Kashyap Todi, Gilles
Bailly, Luis A. Leiva, Antti Oulasvirta 社内論文読み会, 20211109 Kazuhiro Ota 1

UIの改善とユーザの反応ウェブサービスを展開している企業にとっては重要な課題例えば右のようなメニューデザインの改善を考える場合においても… • 急激な改変は既存ユーザに混乱や慣れるまでの学習コストをもたらす ◦ 画面キャプチャによるマニュアルが意味なくなったりする • デザインの局所最適解（初心者向けUIなど）を採用してしまうとその後の対応が取りづらい
◦ ユーザはいつまでも初心者ではないそのため、UIを少し更新→使い勝手について評価→UIを少し更新→…というように、徐々に変更を反映する手法が採用されている（Adaptive User Interface） 2

提案手法: モデルベース強化学習を用いたAdaptive UI MCTSによるシミュレーションとHCIモデルによる状態評価でユーザに優しいUI更新フローを計画する 3

Adaptive interfaces literature • ルールベース・ヒューリスティック ◦ かなりの事前知識が要求される職人芸 • 教師あり学習 ◦
更新内容とそのユーザーへの影響に関するデータを得るのが困難 • バンディット・ベイズ最適化 ◦ インターフェイスパラメータ選定などで成功を収めているが、連続的な変化に伴う更新計画を立てるといったことができない • 強化学習 ◦ 次のページ 4

強化学習を用いたAdaptive Interface 最終報酬がすぐには得られないような一連の行動から意思決定方針（ポリシー、方策）を学習することが出来る • モデルフリー（エージェントが実際に試行錯誤して経験から学習） ◦ クラウドソーシング・対話システムなどでの成功例 ◦ 良いポリシーを学習するために膨大な数のtrial-and-errorが必要
◦ 今回のような状態行動空間がとてつもなく大きいような状況には適していない • モデルベース（報酬関数を直接利用、またはモデル化したものを利用） ◦ 可能性をシミュレーションすることで試行回数や時間を抑えることができる ◦ 今回のようなAdaptive UIに適していると考えられるがこれまで事例は見当たらなかった 5

問題設定：Stochastic sequential decision problem Markov decision processとして定式化逐次的なUI更新計画によって得られる累積割引報酬を
最大化する問題を解いてデザイン変更ポリシーを得る 6

状態はデザインとユーザ属性のペアで表現 UIデザイン … 熟練度・スキル・興味などのユーザ属性 7

Menu Adaptation with Deep Model-based RL 8

Possible menu design adaptations • moving a menu item to
a certain position • swapping two items • adding or removing a separator • moving an entire group • swapping two groups • not making any changes • etc. 9

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 10

Monte-Carlo Tree Search 1. Selection Upper Conﬁdence Tree値を基準として良い子ノード（変更適応後のUIデザイン・ユーザの状態）を選択しつつ現在の最深ノードまで辿って行く過去の累積報酬値と探索回数をもと
にした各ノードの良さを表す値定数Cで知識活用（第1項）と探索（第2項）のバランスを調節できる 12

Monte-Carlo Tree Search 2. Expansion デザイン変更回数上限に達していない、かつ、まだそこからシミューレションしていないUIデザイン・ユーザの状態が残っている場合は新たに現行ノードの子ノードとして追加する
14

Monte-Carlo Tree Search 3. Roll-out 追加した子ノードからさらにその子や孫ノードについてランダムサンプリングし続けるシミュレーションを一定回数行うデザイン変更回数上限に達したらその状態のデザインの使い勝手についてHCIモデルを利用して
予測し報酬化する（もしくは効率化のために学習済みNNを利用） 16

UIの使い勝手をHCIモデルで報酬化ユーザのメニュー探索体験をHCIモデルでシミュレーションしその改善度を報酬とする例えば、デザイン変更前後で目当ての項目を探し当てるまでの平均探索時間の減少度をユーザの熟練度・興味などの推定値で重み付けしたもの Before After diﬀ in average selection
time 17

メニュー探索モデルの種類 • Serial search ◦ 目的の項目を見つけるまで上から下へと連続的に探索する • Foraging search ◦
項目のグルーピングに従って関連するグループの中から目的のものを探索する • Recall search ◦ 記憶を頼りにメニューの中の予想される場所にあたりを付けてアイテムを探索する例えば、ユーザが初心者であればSerial searchとForaging search、熟練者であればForaging searchとRecall searchについて探索時間を計算する、みたいな重み付けが考えられる 18

HCIモデルを模したニューラルネットモデルの活用長期に渡る様々なデザイン変更に対しHCIモデルによるユーザのメニュー探索シミュレーションを行うのは現実的ではないニューラルネットを予めこれまでのデータで学習しておき、MCTS Roll-out時の報酬算出の効率化のために利用する 19

Monte-Carlo Tree Search 4. Backpropagation シミューレション後に得られた報酬を親ノード（適応前のデザイン・ユーザ状態）に伝播していく 21

Menu Adaptation with Deep Model-based RL 22

Technical Evaluation 提案手法がそもそも使い物になるのか、ユーザ興味に基づくMenu Adaptationについて実験予測される平均選択時間の減少をもって成功とみなすシミュレーションモデル別の成功率: • HCIモデル:
92.7% • NNモデル: 89.6% 提案手法が使い勝手の向上に役立つことを確認 23

Technical Evaluation MCTSの探索深度を変化させつつHCIモデルとニューラルネットでのシミューレションにかかる計算時間を比較 400回のシミューレションにおいて、木が深くなるほど計算時間が伸びていくHCIモデルと比較してニューラルネットでの計算時間の変化は微々たるもの提案手法のスケーラビリティについて確認
24

Empirical Evaluation 各Adaptive UI手法によって更新されたデザインにおける、メニュー内の指定項目の選択時間について被験者を集めて比較比較手法 • STATIC ◦ デザインの変更は全くされない
• FREQUENCY ◦ 項目のクリック率に基づく手法 [Lee, 2004] • MCTS ◦ 提案手法詳細な実験設定や評価方法については論文参照してください… 25

Empirical Evaluation 26

Conclusion • 強化学習を用いたAdaptive UIにおける逐次的意思決定問題のモデル化 • HCIモデルを用いたMCTSシミュレーション手法の提案およびそれを促進するためのDNNの提案 27

Limitations and Future Work • シミュレーションに利用するモデルが正確であることが何より大事 • 大規模なアプリケーションデザインに展開するためには計算リソースが必要になる ◦
今回例に挙げたメニューデザインの場合20項目までぐらいが手の届く範囲 ◦ GPU利用などシステムでの解決とか • 今回は価値ネットワークを用いて成功したが、AlphaGoのようにポリシーネットワークも用いることでさらなる改善も期待できる 28

[社内論文読み会資料] Adapting User Interfaces with Model...

[社内論文読み会資料] Adapting User Interfaces with Model-based Reinforcement Learning

Kazuhiro Ota

More Decks by Kazuhiro Ota

Other Decks in Technology

Featured

Transcript

Adapting User Interfaces with Model-based Reinforcement Learning Kashyap Todi, Gilles

提案手法: モデルベース強化学習を用いたAdaptive UI MCTSによるシミュレーションとHCIモデルによる状態評価でユーザに優しいUI更新フローを計画する 3

Adaptive interfaces literature • ルールベース・ヒューリスティック ◦ かなりの事前知識が要求される職人芸 • 教師あり学習 ◦

問題設定：Stochastic sequential decision problem Markov decision processとして定式化逐次的なUI更新計画によって得られる累積割引報酬を

状態はデザインとユーザ属性のペアで表現 UIデザイン … 熟練度・スキル・興味などのユーザ属性 7

Menu Adaptation with Deep Model-based RL 8

Possible menu design adaptations • moving a menu item to

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 10

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 11

Monte-Carlo Tree Search 1. Selection Upper Conﬁdence Tree値を基準として良い子ノード（変更適応後のUIデザイン・ユーザの状態）を選択しつつ現在の最深ノードまで辿って行く過去の累積報酬値と探索回数をもと

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 13

Monte-Carlo Tree Search 2. Expansion デザイン変更回数上限に達していない、かつ、まだそこからシミューレションしていないUIデザイン・ユーザの状態が残っている場合は新たに現行ノードの子ノードとして追加する

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 15

メニュー探索モデルの種類 • Serial search ◦ 目的の項目を見つけるまで上から下へと連続的に探索する • Foraging search ◦

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 20

Monte-Carlo Tree Search 4. Backpropagation シミューレション後に得られた報酬を親ノード（適応前のデザイン・ユーザ状態）に伝播していく 21

Menu Adaptation with Deep Model-based RL 22

Technical Evaluation 提案手法がそもそも使い物になるのか、ユーザ興味に基づくMenu Adaptationについて実験予測される平均選択時間の減少をもって成功とみなすシミュレーションモデル別の成功率: • HCIモデル:

Empirical Evaluation 各Adaptive UI手法によって更新されたデザインにおける、メニュー内の指定項目の選択時間について被験者を集めて比較比較手法 • STATIC ◦ デザインの変更は全くされない

Empirical Evaluation 26

Conclusion • 強化学習を用いたAdaptive UIにおける逐次的意思決定問題のモデル化 • HCIモデルを用いたMCTSシミュレーション手法の提案およびそれを促進するためのDNNの提案 27

Limitations and Future Work • シミュレーションに利用するモデルが正確であることが何より大事 • 大規模なアプリケーションデザインに展開するためには計算リソースが必要になる ◦