Slide 1

Slide 1 text

Adapting User Interfaces with Model-based Reinforcement Learning Kashyap Todi, Gilles Bailly, Luis A. Leiva, Antti Oulasvirta 社内論文読み会, 20211109 Kazuhiro Ota 1

Slide 2

Slide 2 text

UIの改善とユーザの反応 ウェブサービスを展開している企業にとっては重要な課題 例えば右のようなメニューデザインの改善を考える場合においても… ● 急激な改変は既存ユーザに混乱や慣れるまでの学習コストをもたらす ○ 画面キャプチャによるマニュアルが意味なくなったりする ● デザインの局所最適解(初心者向けUIなど)を採用してしまうとその後 の対応が取りづらい ○ ユーザはいつまでも初心者ではない そのため、UIを少し更新→使い勝手について評価→UIを少し更新→…というよ うに、徐々に変更を反映する手法が採用されている(Adaptive User Interface) 2

Slide 3

Slide 3 text

提案手法: モデルベース強化学習を用いたAdaptive UI MCTSによるシミュレーションとHCIモデルによる状態評価でユーザに優しいUI更新フローを計画する 3

Slide 4

Slide 4 text

Adaptive interfaces literature ● ルールベース・ヒューリスティック ○ かなりの事前知識が要求される職人芸 ● 教師あり学習 ○ 更新内容とそのユーザーへの影響に関するデータを得るのが困難 ● バンディット・ベイズ最適化 ○ インターフェイスパラメータ選定などで成功を収めているが、連続的な変化に伴う更新 計画を立てるといったことができない ● 強化学習 ○ 次のページ 4

Slide 5

Slide 5 text

強化学習を用いたAdaptive Interface 最終報酬がすぐには得られないような一連の行動から意思決定方針(ポリシー、 方策)を学習することが出来る ● モデルフリー(エージェントが実際に試行錯誤して経験から学習) ○ クラウドソーシング・対話システムなどでの成功例 ○ 良いポリシーを学習するために膨大な数のtrial-and-errorが必要 ○ 今回のような状態行動空間がとてつもなく大きいような状況には適していない ● モデルベース(報酬関数を直接利用、またはモデル化したものを利用) ○ 可能性をシミュレーションすることで試行回数や時間を抑えることができる ○ 今回のようなAdaptive UIに適していると考えられるがこれまで事例は見当たらなかった 5

Slide 6

Slide 6 text

問題設定:Stochastic sequential decision problem Markov decision processと して定式化 逐次的なUI更新計画によっ て得られる累積割引報酬を 最大化する問題を解いてデ ザイン変更ポリシーを得る 6

Slide 7

Slide 7 text

状態はデザインとユーザ属性のペアで表現 UIデザイン … 熟練度・スキル・興味 などのユーザ属性 7

Slide 8

Slide 8 text

Menu Adaptation with Deep Model-based RL 8

Slide 9

Slide 9 text

Possible menu design adaptations ● moving a menu item to a certain position ● swapping two items ● adding or removing a separator ● moving an entire group ● swapping two groups ● not making any changes ● etc. 9

Slide 10

Slide 10 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 10

Slide 11

Slide 11 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 11

Slide 12

Slide 12 text

Monte-Carlo Tree Search 1. Selection Upper Confidence Tree値を基準として良い子ノード(変更適応後のUIデザイン・ ユーザの状態)を選択しつつ現在の最深ノードまで辿って行く 過去の累積報酬値と探索回数をもと にした各ノードの良さを表す値 定数Cで知識活用(第1項)と探索 (第2項)のバランスを調節できる 12

Slide 13

Slide 13 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 13

Slide 14

Slide 14 text

Monte-Carlo Tree Search 2. Expansion デザイン変更回数上限に達していない、かつ、まだそこ からシミューレションしていないUIデザイン・ユーザの状 態が残っている場合は新たに現行ノードの子ノードとし て追加する  14

Slide 15

Slide 15 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 15

Slide 16

Slide 16 text

Monte-Carlo Tree Search 3. Roll-out 追加した子ノードからさらにその子や孫ノード についてランダムサンプリングし続けるシミュ レーションを一定回数行う デザイン変更回数上限に達したらその状態のデ ザインの使い勝手についてHCIモデルを利用して 予測し報酬化する(もしくは効率化のために学 習済みNNを利用) 16

Slide 17

Slide 17 text

UIの使い勝手をHCIモデルで報酬化 ユーザのメニュー探索体験をHCIモデルでシミュレーションしその改善度を報酬とする 例えば、デザイン変更前後で目当ての項目を探し当てるまでの平均探索時間の減少度を ユーザの熟練度・興味などの推定値で重み付けしたもの Before After diff in average selection time 17

Slide 18

Slide 18 text

メニュー探索モデルの種類 ● Serial search ○ 目的の項目を見つけるまで上から下へと連続的に探索する ● Foraging search ○ 項目のグルーピングに従って関連するグループの中から目的のものを探索する ● Recall search ○ 記憶を頼りにメニューの中の予想される場所にあたりを付けてアイテムを探索する 例えば、ユーザが初心者であればSerial searchとForaging search、熟練者であれ ばForaging searchとRecall searchについ て探索時間を計算する、みたいな重み付け が考えられる 18

Slide 19

Slide 19 text

HCIモデルを模したニューラルネットモデルの活用 長期に渡る様々なデザイン変更に対しHCIモデルによるユーザのメニュー探索シ ミュレーションを行うのは現実的ではない ニューラルネットを予めこれまでのデータで学習しておき、MCTS Roll-out時の 報酬算出の効率化のために利用する 19

Slide 20

Slide 20 text

Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 20

Slide 21

Slide 21 text

Monte-Carlo Tree Search 4. Backpropagation シミューレション後に得られた報酬を親ノード(適応前のデ ザイン・ユーザ状態)に伝播していく 21

Slide 22

Slide 22 text

Menu Adaptation with Deep Model-based RL 22

Slide 23

Slide 23 text

Technical Evaluation 提案手法がそもそも使い物になるのか、ユーザ興 味に基づくMenu Adaptationについて実験 予測される平均選択時間の減少をもって成功とみ なす シミュレーションモデル別の成功率: ● HCIモデル: 92.7% ● NNモデル: 89.6% 提案手法が使い勝手の向上に役立つことを確認 23

Slide 24

Slide 24 text

Technical Evaluation MCTSの探索深度を変化させつつHCIモデル とニューラルネットでのシミューレションに かかる計算時間を比較 400回のシミューレションにおいて、木が深 くなるほど計算時間が伸びていくHCIモデル と比較してニューラルネットでの計算時間の 変化は微々たるもの 提案手法のスケーラビリティについて確認 24

Slide 25

Slide 25 text

Empirical Evaluation 各Adaptive UI手法によって更新されたデザインにおける、メニュー内の指定項 目の選択時間について被験者を集めて比較 比較手法 ● STATIC ○ デザインの変更は全くされない ● FREQUENCY ○ 項目のクリック率に基づく手法 [Lee, 2004] ● MCTS ○ 提案手法 詳細な実験設定や評価方法については論文参照してください… 25

Slide 26

Slide 26 text

Empirical Evaluation 26

Slide 27

Slide 27 text

Conclusion ● 強化学習を用いたAdaptive UIにおける逐次的意思決定問題のモデル化 ● HCIモデルを用いたMCTSシミュレーション手法の提案およびそれを促進する ためのDNNの提案 27

Slide 28

Slide 28 text

Limitations and Future Work ● シミュレーションに利用するモデルが正確であることが何より大事 ● 大規模なアプリケーションデザインに展開するためには計算リソースが必要 になる ○ 今回例に挙げたメニューデザインの場合20項目までぐらいが手の届く範囲 ○ GPU利用などシステムでの解決とか ● 今回は価値ネットワークを用いて成功したが、AlphaGoのようにポリシー ネットワークも用いることでさらなる改善も期待できる 28