Slide 1

Slide 1 text

理工学の紙書籍を用いた 学習の効率を向上させるインタフェース 情報科学類 2年 浅田睦葉 アドバイザ教員: 志築文太郎先生 1

Slide 2

Slide 2 text

2 モチベーション ・何かを学ぶ時、よく教科書を使って勉強する  → 電子書籍は便利、検索したり写真を簡単に撮ったりできる   → 古い書籍では電子化されていないものもある  → 紙の質感が好ましい

Slide 3

Slide 3 text

3 モチベーション ・何かを学ぶ時、よく教科書を使って勉強する  → 電子書籍は便利、検索したり写真を簡単に撮ったりできる   → 古い書籍では電子化されていないものもある  → 紙の質感が好ましい ・紙の質感が好ましいとは?  → ページを進める(= 学習を進める)ことが触覚的に伝わり   モチベーションを維持しやすい  → 直接本に書き込んだり付箋を貼り付けたりすることができる  → 本を実際に手に取ることで学習意欲を高めることができる

Slide 4

Slide 4 text

4 目標 ・紙書籍に電子書籍的な機能を付加したい  → マーカーやメモなどの注釈をつける  → 文章の検索をする  → 関連情報の提示をする ・ARを使えば可能なのでは?

Slide 5

Slide 5 text

5 先行研究 ・これまでにはGrassetらによりARによって本にアニメーションを加える試み [1] がされている。また、Rajaram らによりプリントに動画やシミュレーショ ンを付与し、タブレットを通してその内容を確認する試み[2]もされている。 [1]: R. Grasset, A. Duenser, H. Seichter and M. Billinghurst, ``The mixed reality book: a new multimedia reading experience", CHI '07 Extended Abstracts on Human Factors in Computing Systems, pp.1953–1958, 2007 [2]: S. Rajaram and M. Nebeling, ``Paper Trail: An Immersive Authoring System for Augmented Reality Instructional Experiences", Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, no.382, pp.16, 2022

Slide 6

Slide 6 text

6 先行研究 ・これまでにはGrassetらによりARによって本にアニメーションを加える試み [1] がされている。また、Rajaram らによりプリントに動画やシミュレーショ ンを付与し、タブレットを通してその内容を確認する試み[2]もされている。 ・これらは予め作成したコンテンツを表示させるものであり、読書中にユーザが 情報を入力して、システムがさらに関連情報を提示するようなインタラクティブ 性を持つものではない。 [1]: R. Grasset, A. Duenser, H. Seichter and M. Billinghurst, ``The mixed reality book: a new multimedia reading experience", CHI '07 Extended Abstracts on Human Factors in Computing Systems, pp.1953–1958, 2007 [2]: S. Rajaram and M. Nebeling, ``Paper Trail: An Immersive Authoring System for Augmented Reality Instructional Experiences", Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems, no.382, pp.16, 2022

Slide 7

Slide 7 text

7 実験機材 ・XReal Air  ・XREAL社が販売するARグラス  ・内側に半透明のディスプレイが付いており、   視界を完全に遮ることなく情報を提示することができる  ・カメラが付いていない 内側から見たグラス

Slide 8

Slide 8 text

8 実験機材 ・ロジクール Webカメラ C922n  ・普通のカメラ  ・解像度: 1920x1080  ・30FPS  ・これを頭にバンドを使って装着する Amazonで買ったバンド カメラを取り付けて 頭に装着する

Slide 9

Slide 9 text

9 技術構成 クライアント XReal Air (ARグラス) Websocketサーバを 公開する トンネリング Realsense (深度カメラ) YOLO v8 本の検出 ファインチューニング ページ識別 ジェスチャ認識 サーバー Python (実装言語) クライアントが リクエストを送る

Slide 10

Slide 10 text

10 ページ識別の実装 ・ページごとに異なる注釈を表示したい  → OCRを使って文字を取得してページ番号で比較すればいいのでは?  → 解像度が足らず全く認識できなかった ・要因  ・日本語が多分に含まれているのでそもそも認識が難しい  ・位置を合わせて丁寧に撮影した写真からは認識できることも多いが、   カメラを装着して映像で取得した画像から認識させるのは難しい

Slide 11

Slide 11 text

11 ページ識別の実装 ・本の画像を切り出して比較すると良さそう  → カメラ画像にrembgを適用して背景を除去する U2-Net[3]を利用して背景除去を行うライブラリ [3]:

Slide 12

Slide 12 text

12 ページ識別の実装 ・本の画像を切り出して比較すると良さそう  → カメラ画像にrembgを適用して背景を除去する

Slide 13

Slide 13 text

13 ページ識別の実装 ・本の画像を切り出して比較すると良さそう  → カメラ画像にrembgを適用して背景を除去する  → OpenCVで総当たりマッチングをしてページを判別する 背景情報が落ちると精度が上がる

Slide 14

Slide 14 text

14 ページ識別の実装 ・画像の特徴点を総当たりでマッチング  → OpenCVではBFMatcherクラスで提供されている  → 図表やテキストの配置から特徴点を取って比較できる “OpenCV-Pythonチュートリアル/特徴量検出と特徴量記述” より引用

Slide 15

Slide 15 text

ページ識別の実装 ・本の画像を切り出して比較すると良さそう  → カメラ画像にrembgを適用して背景を除去する すごい! 15 ありえないくらい重い

Slide 16

Slide 16 text

16 ページ識別の実装 ・深度カメラを使って本のみを抽出するようにした

Slide 17

Slide 17 text

17 ページ識別の課題 ・特徴点のみを信頼してページ識別をしているので  同一の書籍では偶然上手く区別できただけかもしれない  → ページごとの特徴の差がない本の場合は?  → 古典的な画像処理では限界があるかもしれない、文字認識を導入したり   画像鮮明化によって画像を比較すると良いのかも ・深度に一定の閾値を設けて画像を抽出しているだけ  → 後述するように本の座標をリアルタイムに追跡できるようになったので   それと組み合わせて抽出する深度を決定すれば良いかも

Slide 18

Slide 18 text

18 テキスト追従の実装 ・Androidカメラから直接入力できればクライアント(C#)で直接扱える  → ビルドできるが起動しない、困った  → XReal AirはWebCamTextureクラスをサポートしないらしい おしまいです

Slide 19

Slide 19 text

19 テキスト追従の実装 ・本が動いたらテキストを追従させる必要がある  → YOLO v8を使って本を認識させてみる (yolov8n.pt)

Slide 20

Slide 20 text

20 ファインチューニング ・本を撮影してlabelimgというソフトウェアを使ってデータセットを作成した

Slide 21

Slide 21 text

21 ファインチューニング 認識精度はそこまで高くない

Slide 22

Slide 22 text

22 ファインチューニング ・Roboflowで提供されていたall-books データセットを使って  ファインチューニング

Slide 23

Slide 23 text

23 ファインチューニング ・研究室のGPUサーバを使って学習を回した もうちょっと損失を下げれそう

Slide 24

Slide 24 text

24 ファインチューニング ・まだ改善の余地はあるが、デフォルトモデルと比較するとかなり追従できている

Slide 25

Slide 25 text

25 テキスト追従の課題 ・認識精度はまだ完璧ではない  → データ拡張によって精度を向上させられるかも? ・座標しか認識できない  → できれば同じモデルで本の種類も区別できると良い ・本ではない物を本であると認識しやすい  → 破局的忘却が起こっている?  → 継続学習を利用してみる

Slide 26

Slide 26 text

26 ジェスチャー認識 ・mediapipeを使ってジェスチャ認識を行い、機能を付加した

Slide 27

Slide 27 text

27 被験者実験の計画 ・対象となる本を2冊用いて、  被験者をインタフェース利用者・未利用者の2グループに分け、  最後に習得度を測るテストを行うことで  被験者内計画に持ち込めるかどうかということを、  順序効果などを念頭に検討した ・実装に目処がついたら被験者実験も行う予定

Slide 28

Slide 28 text

28 感想 ・物体認識型のAR開発はかなりお金が掛かる  → 廉価なデバイスを利用するとかなり制約がある  → 一方十分な機能を備えたデバイスは40〜50万する ・バージョン管理は絶対やった方がいい  → アイディアを思いついて実装して取りやめてのサイクルが何度も回って   ソースコードや実験結果をかなり消失してしまった  → 特に実験結果が追跡から外していたので全滅 記録を残す

Slide 29

Slide 29 text

29 展望 ・XRealユーザが利用可能な形でアプリケーションを公開する  → 現状では深度カメラなどを要求するため異なるデバイス(Quest3,   XReal Air2 Ultraなど?)を試していきたい ・来年のWISSに出す  → 引き続き実装を継続して、クライアントで問題なく表示できるようにする  → 先述した被験者実験を行う

Slide 30

Slide 30 text

30 まとめ ・XReal Airにカメラを組み合わせて連携させるための実装を行った ・背景除去と総当たりマッチングによってページ識別を実装した  ・今後はより妥当な判定方法がないかどうかを検討して比較したい ・YOLOのファインチューニングによってテキストの追従を実装した  ・今後はデータ拡張や継続学習の導入によって精度を向上させたい ・ジェスチャー認識によってメモの切り替えやマーカーなどの、電子書籍機能の プロトタイプを作成した ・被験者実験の検討・計画を行った ・謝辞  ・本研究を進めるにあたり、   アドバイザ教員の志築文太郎先生にご指導いただきました  ・ARE予算でIntel Realsenseを購入させていただきました