この1年で、生成AIが自然言語を解釈してブラウザを操作する、Browser UseやPlaywright MCPといった自動テストの仕組みが次々と登場しました。しかし、これらのツールは一体どのようにWebサイトを『見て』、私たちの指示を解釈しているのでしょうか?
本セッションでは、そのAIの『視点』の正体の1つであるアクセシビリティツリーに焦点を当てます。Playwright MCPのソースコードをベースに、自然言語の指示がどのように解釈され、どのUI要素が特定されるのか、その内部プロセスを見ていきます。また、実際にRailsのシステムテストで使用するCapybaraドライバを作って、Railsとのつなぎの部分についても解説していきます。