[社内論文読み会資料] Adapting User Interfaces with Model-based Reinforcement Learning

Slide 1

Slide 1 text

Adapting User Interfaces with Model-based Reinforcement Learning Kashyap Todi, Gilles Bailly, Luis A. Leiva, Antti Oulasvirta 社内論文読み会, 20211109 Kazuhiro Ota 1

Slide 2

Slide 2 text

UIの改善とユーザの反応ウェブサービスを展開している企業にとっては重要な課題例えば右のようなメニューデザインの改善を考える場合においても… ● 急激な改変は既存ユーザに混乱や慣れるまでの学習コストをもたらす ○ 画面キャプチャによるマニュアルが意味なくなったりする ● デザインの局所最適解（初心者向けUIなど）を採用してしまうとその後の対応が取りづらい ○ ユーザはいつまでも初心者ではないそのため、UIを少し更新→使い勝手について評価→UIを少し更新→…というように、徐々に変更を反映する手法が採用されている（Adaptive User Interface） 2

Slide 3

Slide 3 text

提案手法: モデルベース強化学習を用いたAdaptive UI MCTSによるシミュレーションとHCIモデルによる状態評価でユーザに優しいUI更新フローを計画する 3

Slide 4

Slide 4 text

Adaptive interfaces literature ● ルールベース・ヒューリスティック ○ かなりの事前知識が要求される職人芸 ● 教師あり学習 ○ 更新内容とそのユーザーへの影響に関するデータを得るのが困難 ● バンディット・ベイズ最適化 ○ インターフェイスパラメータ選定などで成功を収めているが、連続的な変化に伴う更新計画を立てるといったことができない ● 強化学習 ○ 次のページ 4

Slide 5

Slide 5 text

強化学習を用いたAdaptive Interface 最終報酬がすぐには得られないような一連の行動から意思決定方針（ポリシー、方策）を学習することが出来る ● モデルフリー（エージェントが実際に試行錯誤して経験から学習） ○ クラウドソーシング・対話システムなどでの成功例 ○ 良いポリシーを学習するために膨大な数のtrial-and-errorが必要 ○ 今回のような状態行動空間がとてつもなく大きいような状況には適していない ● モデルベース（報酬関数を直接利用、またはモデル化したものを利用） ○ 可能性をシミュレーションすることで試行回数や時間を抑えることができる ○ 今回のようなAdaptive UIに適していると考えられるがこれまで事例は見当たらなかった 5

Slide 6

Slide 6 text

問題設定：Stochastic sequential decision problem Markov decision processとして定式化逐次的なUI更新計画によって得られる累積割引報酬を最大化する問題を解いてデザイン変更ポリシーを得る 6

Slide 7

Slide 7 text

状態はデザインとユーザ属性のペアで表現 UIデザイン … 熟練度・スキル・興味などのユーザ属性 7

Slide 8

Slide 8 text

Menu Adaptation with Deep Model-based RL 8

Slide 9

Slide 9 text

Possible menu design adaptations ● moving a menu item to a certain position ● swapping two items ● adding or removing a separator ● moving an entire group ● swapping two groups ● not making any changes ● etc. 9

Slide 10

Slide 10 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 10

Slide 11

Slide 11 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 11

Slide 12

Slide 12 text

Monte-Carlo Tree Search 1. Selection Upper Conﬁdence Tree値を基準として良い子ノード（変更適応後のUIデザイン・ユーザの状態）を選択しつつ現在の最深ノードまで辿って行く過去の累積報酬値と探索回数をもとにした各ノードの良さを表す値定数Cで知識活用（第1項）と探索（第2項）のバランスを調節できる 12

Slide 13

Slide 13 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 13

Slide 14

Slide 14 text

Monte-Carlo Tree Search 2. Expansion デザイン変更回数上限に達していない、かつ、まだそこからシミューレションしていないUIデザイン・ユーザの状態が残っている場合は新たに現行ノードの子ノードとして追加する 14

Slide 15

Slide 15 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 15

Slide 16

Slide 16 text

Monte-Carlo Tree Search 3. Roll-out 追加した子ノードからさらにその子や孫ノードについてランダムサンプリングし続けるシミュレーションを一定回数行うデザイン変更回数上限に達したらその状態のデザインの使い勝手についてHCIモデルを利用して予測し報酬化する（もしくは効率化のために学習済みNNを利用） 16

Slide 17

Slide 17 text

UIの使い勝手をHCIモデルで報酬化ユーザのメニュー探索体験をHCIモデルでシミュレーションしその改善度を報酬とする例えば、デザイン変更前後で目当ての項目を探し当てるまでの平均探索時間の減少度をユーザの熟練度・興味などの推定値で重み付けしたもの Before After diﬀ in average selection time 17

Slide 18

Slide 18 text

メニュー探索モデルの種類 ● Serial search ○ 目的の項目を見つけるまで上から下へと連続的に探索する ● Foraging search ○ 項目のグルーピングに従って関連するグループの中から目的のものを探索する ● Recall search ○ 記憶を頼りにメニューの中の予想される場所にあたりを付けてアイテムを探索する例えば、ユーザが初心者であればSerial searchとForaging search、熟練者であればForaging searchとRecall searchについて探索時間を計算する、みたいな重み付けが考えられる 18

Slide 19

Slide 19 text

HCIモデルを模したニューラルネットモデルの活用長期に渡る様々なデザイン変更に対しHCIモデルによるユーザのメニュー探索シミュレーションを行うのは現実的ではないニューラルネットを予めこれまでのデータで学習しておき、MCTS Roll-out時の報酬算出の効率化のために利用する 19

Slide 20

Slide 20 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 20

Slide 21

Slide 21 text

Monte-Carlo Tree Search 4. Backpropagation シミューレション後に得られた報酬を親ノード（適応前のデザイン・ユーザ状態）に伝播していく 21

Slide 22

Slide 22 text

Menu Adaptation with Deep Model-based RL 22

Slide 23

Slide 23 text

Technical Evaluation 提案手法がそもそも使い物になるのか、ユーザ興味に基づくMenu Adaptationについて実験予測される平均選択時間の減少をもって成功とみなすシミュレーションモデル別の成功率: ● HCIモデル: 92.7% ● NNモデル: 89.6% 提案手法が使い勝手の向上に役立つことを確認 23

Slide 24

Slide 24 text

Technical Evaluation MCTSの探索深度を変化させつつHCIモデルとニューラルネットでのシミューレションにかかる計算時間を比較 400回のシミューレションにおいて、木が深くなるほど計算時間が伸びていくHCIモデルと比較してニューラルネットでの計算時間の変化は微々たるもの提案手法のスケーラビリティについて確認 24

Slide 25

Slide 25 text

Empirical Evaluation 各Adaptive UI手法によって更新されたデザインにおける、メニュー内の指定項目の選択時間について被験者を集めて比較比較手法 ● STATIC ○ デザインの変更は全くされない ● FREQUENCY ○ 項目のクリック率に基づく手法 [Lee, 2004] ● MCTS ○ 提案手法詳細な実験設定や評価方法については論文参照してください… 25

Slide 26

Slide 26 text

Empirical Evaluation 26

Slide 27

Slide 27 text

Conclusion ● 強化学習を用いたAdaptive UIにおける逐次的意思決定問題のモデル化 ● HCIモデルを用いたMCTSシミュレーション手法の提案およびそれを促進するためのDNNの提案 27

Slide 28

Slide 28 text

Limitations and Future Work ● シミュレーションに利用するモデルが正確であることが何より大事 ● 大規模なアプリケーションデザインに展開するためには計算リソースが必要になる ○ 今回例に挙げたメニューデザインの場合20項目までぐらいが手の届く範囲 ○ GPU利用などシステムでの解決とか ● 今回は価値ネットワークを用いて成功したが、AlphaGoのようにポリシーネットワークも用いることでさらなる改善も期待できる 28