Upgrade to PRO for Only $50/Year—Limited-Time Offer! 🔥
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
[社内論文読み会資料] Adapting User Interfaces with Model...
Search
Kazuhiro Ota
November 10, 2021
Technology
0
81
[社内論文読み会資料] Adapting User Interfaces with Model-based Reinforcement Learning
社内の論文読み会で紹介したCHI2021採択論文Adapting User Interfaces with Model-based Reinforcement Learningの紹介スライドです
Kazuhiro Ota
November 10, 2021
Tweet
Share
More Decks by Kazuhiro Ota
See All by Kazuhiro Ota
ソフトウェア化と成果物の公開 AI Lab スキルアップ研修 研究コードの公開 [発展編]
cielan
0
10
GitHubでの実験・分析コード公開 AI Lab スキルアップ研修 研究コードの公開 [基礎編]
cielan
0
62
研究開発組織のエンジニアによる画像系プロダクトサポート
cielan
1
440
Other Decks in Technology
See All in Technology
今からでも間に合う!速習Devin入門とその活用方法
ismk
1
530
Ruby で作る大規模イベントネットワーク構築・運用支援システム TTDB
taketo1113
1
210
Uncertainty in the LLM era - Science, more than scale
gaelvaroquaux
0
810
re:Inventで気になったサービスを10分でいけるところまでお話しします
yama3133
1
120
SSO方式とJumpアカウント方式の比較と設計方針
yuobayashi
7
510
Overture Maps Foundationの3年を振り返る
moritoru
0
160
Debugging Edge AI on Zephyr and Lessons Learned
iotengineer22
0
120
新 Security HubがついにGA!仕組みや料金を深堀り #AWSreInvent #regrowth / AWS Security Hub Advanced GA
masahirokawahara
1
1.5k
形式手法特論:CEGAR を用いたモデル検査の状態空間削減 #kernelvm / Kernel VM Study Hokuriku Part 8
ytaka23
2
450
Kiro Autonomous AgentとKiro Powers の紹介 / kiro-autonomous-agent-and-powers
tomoki10
0
320
Karate+Database RiderによるAPI自動テスト導入工数をCline+GitLab MCPを使って2割削減を目指す! / 20251206 Kazuki Takahashi
shift_evolve
PRO
1
560
モダンデータスタック (MDS) の話とデータ分析が起こすビジネス変革
sutotakeshi
0
430
Featured
See All Featured
Facilitating Awesome Meetings
lara
57
6.7k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
31
3k
The Hidden Cost of Media on the Web [PixelPalooza 2025]
tammyeverts
1
93
Art, The Web, and Tiny UX
lynnandtonic
303
21k
Stop Working from a Prison Cell
hatefulcrawdad
273
21k
Why Our Code Smells
bkeepers
PRO
340
57k
Building Applications with DynamoDB
mza
96
6.8k
Refactoring Trust on Your Teams (GOTO; Chicago 2020)
rmw
35
3.3k
Cheating the UX When There Is Nothing More to Optimize - PixelPioneers
stephaniewalter
285
14k
GitHub's CSS Performance
jonrohan
1032
470k
Principles of Awesome APIs and How to Build Them.
keavy
127
17k
KATA
mclloyd
PRO
32
15k
Transcript
Adapting User Interfaces with Model-based Reinforcement Learning Kashyap Todi, Gilles
Bailly, Luis A. Leiva, Antti Oulasvirta 社内論文読み会, 20211109 Kazuhiro Ota 1
UIの改善とユーザの反応 ウェブサービスを展開している企業にとっては重要な課題 例えば右のようなメニューデザインの改善を考える場合においても… • 急激な改変は既存ユーザに混乱や慣れるまでの学習コストをもたらす ◦ 画面キャプチャによるマニュアルが意味なくなったりする • デザインの局所最適解(初心者向けUIなど)を採用してしまうとその後 の対応が取りづらい
◦ ユーザはいつまでも初心者ではない そのため、UIを少し更新→使い勝手について評価→UIを少し更新→…というよ うに、徐々に変更を反映する手法が採用されている(Adaptive User Interface) 2
提案手法: モデルベース強化学習を用いたAdaptive UI MCTSによるシミュレーションとHCIモデルによる状態評価でユーザに優しいUI更新フローを計画する 3
Adaptive interfaces literature • ルールベース・ヒューリスティック ◦ かなりの事前知識が要求される職人芸 • 教師あり学習 ◦
更新内容とそのユーザーへの影響に関するデータを得るのが困難 • バンディット・ベイズ最適化 ◦ インターフェイスパラメータ選定などで成功を収めているが、連続的な変化に伴う更新 計画を立てるといったことができない • 強化学習 ◦ 次のページ 4
強化学習を用いたAdaptive Interface 最終報酬がすぐには得られないような一連の行動から意思決定方針(ポリシー、 方策)を学習することが出来る • モデルフリー(エージェントが実際に試行錯誤して経験から学習) ◦ クラウドソーシング・対話システムなどでの成功例 ◦ 良いポリシーを学習するために膨大な数のtrial-and-errorが必要
◦ 今回のような状態行動空間がとてつもなく大きいような状況には適していない • モデルベース(報酬関数を直接利用、またはモデル化したものを利用) ◦ 可能性をシミュレーションすることで試行回数や時間を抑えることができる ◦ 今回のようなAdaptive UIに適していると考えられるがこれまで事例は見当たらなかった 5
問題設定:Stochastic sequential decision problem Markov decision processと して定式化 逐次的なUI更新計画によっ て得られる累積割引報酬を
最大化する問題を解いてデ ザイン変更ポリシーを得る 6
状態はデザインとユーザ属性のペアで表現 UIデザイン … 熟練度・スキル・興味 などのユーザ属性 7
Menu Adaptation with Deep Model-based RL 8
Possible menu design adaptations • moving a menu item to
a certain position • swapping two items • adding or removing a separator • moving an entire group • swapping two groups • not making any changes • etc. 9
Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 10
Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 11
Monte-Carlo Tree Search 1. Selection Upper Confidence Tree値を基準として良い子ノード(変更適応後のUIデザイン・ ユーザの状態)を選択しつつ現在の最深ノードまで辿って行く 過去の累積報酬値と探索回数をもと
にした各ノードの良さを表す値 定数Cで知識活用(第1項)と探索 (第2項)のバランスを調節できる 12
Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 13
Monte-Carlo Tree Search 2. Expansion デザイン変更回数上限に達していない、かつ、まだそこ からシミューレションしていないUIデザイン・ユーザの状 態が残っている場合は新たに現行ノードの子ノードとし て追加する 
14
Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 15
Monte-Carlo Tree Search 3. Roll-out 追加した子ノードからさらにその子や孫ノード についてランダムサンプリングし続けるシミュ レーションを一定回数行う デザイン変更回数上限に達したらその状態のデ ザインの使い勝手についてHCIモデルを利用して
予測し報酬化する(もしくは効率化のために学 習済みNNを利用) 16
UIの使い勝手をHCIモデルで報酬化 ユーザのメニュー探索体験をHCIモデルでシミュレーションしその改善度を報酬とする 例えば、デザイン変更前後で目当ての項目を探し当てるまでの平均探索時間の減少度を ユーザの熟練度・興味などの推定値で重み付けしたもの Before After diff in average selection
time 17
メニュー探索モデルの種類 • Serial search ◦ 目的の項目を見つけるまで上から下へと連続的に探索する • Foraging search ◦
項目のグルーピングに従って関連するグループの中から目的のものを探索する • Recall search ◦ 記憶を頼りにメニューの中の予想される場所にあたりを付けてアイテムを探索する 例えば、ユーザが初心者であればSerial searchとForaging search、熟練者であれ ばForaging searchとRecall searchについ て探索時間を計算する、みたいな重み付け が考えられる 18
HCIモデルを模したニューラルネットモデルの活用 長期に渡る様々なデザイン変更に対しHCIモデルによるユーザのメニュー探索シ ミュレーションを行うのは現実的ではない ニューラルネットを予めこれまでのデータで学習しておき、MCTS Roll-out時の 報酬算出の効率化のために利用する 19
Monte-Carlo Tree Search ランダムサンプリングに基づくシミュレーションによって状態遷移を表現した木を構築 するアルゴリズム Adaptive UIのためにユーザの状態を考慮したデザインの変更フローを計画できる 20
Monte-Carlo Tree Search 4. Backpropagation シミューレション後に得られた報酬を親ノード(適応前のデ ザイン・ユーザ状態)に伝播していく 21
Menu Adaptation with Deep Model-based RL 22
Technical Evaluation 提案手法がそもそも使い物になるのか、ユーザ興 味に基づくMenu Adaptationについて実験 予測される平均選択時間の減少をもって成功とみ なす シミュレーションモデル別の成功率: • HCIモデル:
92.7% • NNモデル: 89.6% 提案手法が使い勝手の向上に役立つことを確認 23
Technical Evaluation MCTSの探索深度を変化させつつHCIモデル とニューラルネットでのシミューレションに かかる計算時間を比較 400回のシミューレションにおいて、木が深 くなるほど計算時間が伸びていくHCIモデル と比較してニューラルネットでの計算時間の 変化は微々たるもの 提案手法のスケーラビリティについて確認
24
Empirical Evaluation 各Adaptive UI手法によって更新されたデザインにおける、メニュー内の指定項 目の選択時間について被験者を集めて比較 比較手法 • STATIC ◦ デザインの変更は全くされない
• FREQUENCY ◦ 項目のクリック率に基づく手法 [Lee, 2004] • MCTS ◦ 提案手法 詳細な実験設定や評価方法については論文参照してください… 25
Empirical Evaluation 26
Conclusion • 強化学習を用いたAdaptive UIにおける逐次的意思決定問題のモデル化 • HCIモデルを用いたMCTSシミュレーション手法の提案およびそれを促進する ためのDNNの提案 27
Limitations and Future Work • シミュレーションに利用するモデルが正確であることが何より大事 • 大規模なアプリケーションデザインに展開するためには計算リソースが必要 になる ◦
今回例に挙げたメニューデザインの場合20項目までぐらいが手の届く範囲 ◦ GPU利用などシステムでの解決とか • 今回は価値ネットワークを用いて成功したが、AlphaGoのようにポリシー ネットワークも用いることでさらなる改善も期待できる 28