Lock in $30 Savings on PRO—Offer Ends Soon! ⏳
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像を用いた論文解説の可能性
Search
Elith
July 29, 2023
Programming
1
1.3k
画像を用いた論文解説の可能性
画像の中のFigureを用いて論文解説ができる手法についての紹介
Elith
July 29, 2023
Tweet
Share
More Decks by Elith
See All by Elith
株式会社Elith_会社紹介資料
elith
1
64
Gitの使い方とチーム開発
elith
0
100
【W&B ミートアップ#19】AI エージェントは何に使うべきか - エージェント周りの分類の整理と利用すべき場面 -
elith
0
370
【Elith開催】ITSC 2024論文発表ウェビナー
elith
0
33
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.3k
生成AI グローバルトレンド実務で活かす新規事業構築の5つの方法
elith
0
250
今、知っておきたい! 生成AIエージェントの世界
elith
3
1.1k
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
2
900
LLMに医療知識をつけるには
elith
5
1.7k
Other Decks in Programming
See All in Programming
AIの誤りが許されない業務システムにおいて“信頼されるAI” を目指す / building-trusted-ai-systems
yuya4
6
2.8k
C-Shared Buildで突破するAI Agent バックテストの壁
po3rin
0
380
Building AI Agents with TypeScript #TSKaigiHokuriku
izumin5210
6
1.3k
How Software Deployment tools have changed in the past 20 years
geshan
0
29k
AIコードレビューがチームの"文脈"を 読めるようになるまで
marutaku
0
350
tparseでgo testの出力を見やすくする
utgwkk
1
190
宅宅自以為的浪漫:跟 AI 一起為自己辦的研討會寫一個售票系統
eddie
0
500
モデル駆動設計をやってみようワークショップ開催報告(Modeling Forum2025) / model driven design workshop report
haru860
0
260
全員アーキテクトで挑む、 巨大で高密度なドメインの紐解き方
agatan
8
20k
Giselleで作るAI QAアシスタント 〜 Pull Requestレビューに継続的QAを
codenote
0
130
MAP, Jigsaw, Code Golf 振り返り会 by 関東Kaggler会|Jigsaw 15th Solution
hasibirok0
0
230
Developing static sites with Ruby
okuramasafumi
0
260
Featured
See All Featured
The Language of Interfaces
destraynor
162
25k
Embracing the Ebb and Flow
colly
88
4.9k
Automating Front-end Workflow
addyosmani
1371
200k
Exploring the Power of Turbo Streams & Action Cable | RailsConf2023
kevinliebholz
36
6.2k
CoffeeScript is Beautiful & I Never Want to Write Plain JavaScript Again
sstephenson
162
15k
[Rails World 2023 - Day 1 Closing Keynote] - The Magic of Rails
eileencodes
37
2.6k
Fashionably flexible responsive web design (full day workshop)
malarkey
407
66k
RailsConf & Balkan Ruby 2019: The Past, Present, and Future of Rails at GitHub
eileencodes
141
34k
What’s in a name? Adding method to the madness
productmarketing
PRO
24
3.8k
Unsuck your backbone
ammeep
671
58k
The Invisible Side of Design
smashingmag
302
51k
Designing Experiences People Love
moore
143
24k
Transcript
画像を用いた論文解説の可能性 株式会社Elith 高橋将生/大森 一祥
自己紹介 2 2 高橋 将生 JOY Elith 機械学習スペシャリスト 東京大学大学院 在学
松尾研究所 所属 @wwwsoccerwww 大森 一祥 もっさん Elith MLOpsスペシャリスト データサイエンティスト @oriki111
会社のサービス紹介 3 ChatGPT導入支援 AIcon
目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5.
出力結果 6. まとめ 7. 今後の動き 4
1. 全体概要 5 画像情報を考慮した論文解説 入力 出力
2. 背景 6
2. 背景 • AIエンジニアは素早くキャッチアップする必要がある • 翻訳サイトだけでは完全な理解が難しい ◦ 完璧ではなく英文も一部読む必要あり ◦ ネイティブに比べて読解が遅くなる
• 重要な文章を探すのが手間 • 重要情報は図表で示される ➡図、表の説明をして欲しい!! 7 論文で重要な点を早くきちんと理解したい 論文読む時間が 足りない〜
2. 背景 8 既存ツールで図などの説明ができないか? ChatPDF ・画像の説明ができないことがある ・画像情報は理解していない ・画像のキャプションを取得できない ChatGPT with
Link Reader ・ChatGPTでPDFを読み込むためのプラグイン ・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例
2. 背景 9 PDFファイルを扱う難しさ 画像取得 ・PyMuPDFでは画像が細切れになる キャプション取得 図とキャプションの 関係が定義されていない ・図とキャプションの関係が定義されていない
・図の位置から予測 ・キャプションのテキスト情報抽出 ・キャプションの ・キャプションの多様性(Fig. Figureなど)
3. デモ 10
11 本番ではデモ動画を発表
4. 画像情報を用いた論文解説 12
4. 画像情報を用いた論文解説 13 全体アーキテクチャー テキスト 物体検出 vector DB 図 キャプション
テキスト テキスト 要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像
4. 画像情報を用いた論文解説 • 論文をアノテーション ◦ 学習65枚 ◦ テスト10枚 • YOLOv8で学習
• Figureが92%、captionが90%で検出可能 • Figureとcaptionのセットは、最適輸送問題を 解くことでペアを見つける 14 画像とキャプションの取得
4. 画像情報を用いた論文解説 15 画像情報の利用法の模索 画像キャプション ・画像の簡単な説明文 ・この情報を詳しく説明させると図を理解できる 画像 ・解説してほしい対象 ・OCRによる文字起こし
・グラフなどの構造データを理解できない ・イメージキャプショニングによる説明文付与 ・グラフなどの数値は読み取ってくれない ・変な文章を生成することもある キャプション
4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 • チャートをテーブル(テキスト)に変換 • 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16
チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”
4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 • Google’s Tesseract-OCR Engine(C++)のラッパー • 文字認識精度は98%程度 17
キャプション画像のOCR(optional character recognition) https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像 テキスト
4.1 Function callingによる引数のフォーマット 18 2: 関数の分類(今回は未使用) • 入力した文字列から、予め定義した関数を選択する 関数の定義:①set_alarm_function, ②delete_alarm_function,
③check_alarm_function 入力:"7時にアラームを設定して" 出力:{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 • 入力した文字列から、引数を引き出す 関数の引数:figure, number 入力:"画像1を解説してください" 出力:{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能 関数の分類と、関数に必要な引数の作成という2つを同時に実行
5. 出力結果 19
5. 出力結果① 20 チャートの情報に関する質問に回答することができる
5. 出力結果② 21 数値の大きいものを表示することも可能
5. 出力結果③ 22 グラフの詳細な説明が可能
6. まとめ • 画像から図とキャプションを取得 • キャプションをOCR • 図をdeplot • PDFをベクトル化
• Function callingで引数作成 23 画像情報を考慮した論文解説
7. 今後の動き • フローチャートを解説したい ◦ 現状LLMが画像を理解できない ◦ 入出力関係をLLMで理解させたい ◦ 論文専用のキャプション生成をしたい
24 • 論文解説記事の自動生成したい ◦ 論文の画像の取得ができると、記事に画像を貼り付けられる • 参考文献を考慮した論文解説をしたい ◦ 1つの論文は主観が入る ◦ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい