画像を用いた論文解説の可能性

by Elith

Slide 1

Slide 1 text

画像を用いた論文解説の可能性株式会社Elith 高橋将生/大森一祥

Slide 2

Slide 2 text

自己紹介 2 2 高橋将生 JOY Elith 機械学習スペシャリスト東京大学大学院在学松尾研究所所属 @wwwsoccerwww 大森一祥もっさん Elith MLOpsスペシャリストデータサイエンティスト @oriki111

Slide 3

Slide 3 text

会社のサービス紹介 3 ChatGPT導入支援 AIcon

Slide 4

Slide 4 text

目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5. 出力結果 6. まとめ 7. 今後の動き 4

Slide 5

Slide 5 text

1. 全体概要 5 画像情報を考慮した論文解説入力出力

Slide 6

Slide 6 text

2. 背景 6

Slide 7

Slide 7 text

2. 背景 ● AIエンジニアは素早くキャッチアップする必要がある ● 翻訳サイトだけでは完全な理解が難しい ○ 完璧ではなく英文も一部読む必要あり ○ ネイティブに比べて読解が遅くなる ● 重要な文章を探すのが手間 ● 重要情報は図表で示される ➡図、表の説明をして欲しい！！ 7 論文で重要な点を早くきちんと理解したい論文読む時間が足りない〜

Slide 8

Slide 8 text

2. 背景 8 既存ツールで図などの説明ができないか？ ChatPDF ・画像の説明ができないことがある・画像情報は理解していない　　・画像のキャプションを取得できない ChatGPT with Link Reader ・ChatGPTでPDFを読み込むためのプラグイン・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例

Slide 9

Slide 9 text

2. 背景 9 PDFファイルを扱う難しさ画像取得・PyMuPDFでは画像が細切れになるキャプション取得図とキャプションの関係が定義されていない・図とキャプションの関係が定義されていない　　・図の位置から予測　　・キャプションのテキスト情報抽出　　　　・キャプションの・キャプションの多様性(Fig. Figureなど)

Slide 10

Slide 10 text

3. デモ 10

Slide 11

Slide 11 text

11 本番ではデモ動画を発表

Slide 12

Slide 12 text

4. 画像情報を用いた論文解説 12

Slide 13

Slide 13 text

4. 画像情報を用いた論文解説 13 全体アーキテクチャーテキスト物体検出 vector DB 図キャプションテキストテキスト要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像

Slide 14

Slide 14 text

4. 画像情報を用いた論文解説 ● 論文をアノテーション ○ 学習65枚 ○ テスト10枚 ● YOLOv8で学習 ● Figureが92%、captionが90%で検出可能 ● Figureとcaptionのセットは、最適輸送問題を解くことでペアを見つける 14 画像とキャプションの取得

Slide 15

Slide 15 text

4. 画像情報を用いた論文解説 15 画像情報の利用法の模索画像キャプション・画像の簡単な説明文・この情報を詳しく説明させると図を理解できる画像・解説してほしい対象・OCRによる文字起こし　　・グラフなどの構造データを理解できない・イメージキャプショニングによる説明文付与　　・グラフなどの数値は読み取ってくれない　　・変な文章を生成することもあるキャプション

Slide 16

Slide 16 text

4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 ● チャートをテーブル(テキスト)に変換 ● 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16 チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”

Slide 17

Slide 17 text

4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 ● Google’s Tesseract-OCR Engine（C++）のラッパー ● 文字認識精度は98%程度 17 キャプション画像のOCR（optional character recognition） https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像テキスト

Slide 18

Slide 18 text

4.1 Function callingによる引数のフォーマット 18 2: 関数の分類（今回は未使用） ● 入力した文字列から、予め定義した関数を選択する関数の定義：①set_alarm_function, ②delete_alarm_function, ③check_alarm_function 入力："7時にアラームを設定して" 出力：{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 ● 入力した文字列から、引数を引き出す関数の引数：figure, number 入力："画像1を解説してください" 出力：{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能関数の分類と、関数に必要な引数の作成という2つを同時に実行

Slide 19

Slide 19 text

5. 出力結果 19

Slide 20

Slide 20 text

5. 出力結果① 20 チャートの情報に関する質問に回答することができる

Slide 21

Slide 21 text

5. 出力結果② 21 数値の大きいものを表示することも可能

Slide 22

Slide 22 text

5. 出力結果③ 22 グラフの詳細な説明が可能

Slide 23

Slide 23 text

6. まとめ ● 画像から図とキャプションを取得 ● キャプションをOCR ● 図をdeplot ● PDFをベクトル化 ● Function callingで引数作成 23 画像情報を考慮した論文解説

Slide 24

Slide 24 text

7. 今後の動き ● フローチャートを解説したい ○ 現状LLMが画像を理解できない ○ 入出力関係をLLMで理解させたい ○ 論文専用のキャプション生成をしたい 24 ● 論文解説記事の自動生成したい ○ 論文の画像の取得ができると、記事に画像を貼り付けられる ● 参考文献を考慮した論文解説をしたい ○ 1つの論文は主観が入る ○ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい