Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
画像を用いた論文解説の可能性
Search
Elith
July 29, 2023
Programming
1
1.2k
画像を用いた論文解説の可能性
画像の中のFigureを用いて論文解説ができる手法についての紹介
Elith
July 29, 2023
Tweet
Share
More Decks by Elith
See All by Elith
【W&B ミートアップ#19】AI エージェントは何に使うべきか - エージェント周りの分類の整理と利用すべき場面 -
elith
0
310
【Elith開催】ITSC 2024論文発表ウェビナー
elith
0
19
[ECCV2024読み会] 衛星画像からの地上画像生成
elith
1
1.2k
生成AI グローバルトレンド実務で活かす新規事業構築の5つの方法
elith
0
170
今、知っておきたい! 生成AIエージェントの世界
elith
3
1k
マルチモーダルLLMがもたらすビジネス革新と技術解説
elith
2
810
LLMに医療知識をつけるには
elith
5
1.6k
放射線分野の問題をLLMに解かせてみた
elith
1
760
Data Is All You Need
elith
0
260
Other Decks in Programming
See All in Programming
明示と暗黙 ー PHPとGoの インターフェイスの違いを知る
shimabox
2
520
Azure AI Foundryではじめてのマルチエージェントワークフロー
seosoft
0
170
地方に住むエンジニアの残酷な現実とキャリア論
ichimichi
5
1.5k
Railsアプリケーションと パフォーマンスチューニング ー 秒間5万リクエストの モバイルオーダーシステムを支える事例 ー Rubyセミナー 大阪
falcon8823
5
1.1k
GitHub Copilot and GitHub Codespaces Hands-on
ymd65536
2
150
PipeCDのプラグイン化で目指すところ
warashi
1
280
初学者でも今すぐできる、Claude Codeの生産性を10倍上げるTips
s4yuba
16
11k
Claude Code + Container Use と Cursor で作る ローカル並列開発環境のススメ / ccc local dev
kaelaela
10
5.4k
Startups on Rails in Past, Present and Future–Irina Nazarova, RailsConf 2025
irinanazarova
0
120
LT 2025-06-30: プロダクトエンジニアの役割
yamamotok
0
760
AI コーディングエージェントの時代へ:JetBrains が描く開発の未来
masaruhr
1
160
MDN Web Docs に日本語翻訳でコントリビュートしたくなる
ohmori_yusuke
1
120
Featured
See All Featured
Optimising Largest Contentful Paint
csswizardry
37
3.3k
Fantastic passwords and where to find them - at NoRuKo
philnash
51
3.3k
Building Better People: How to give real-time feedback that sticks.
wjessup
367
19k
4 Signs Your Business is Dying
shpigford
184
22k
How to Create Impact in a Changing Tech Landscape [PerfNow 2023]
tammyeverts
53
2.9k
Fireside Chat
paigeccino
37
3.5k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
367
26k
Helping Users Find Their Own Way: Creating Modern Search Experiences
danielanewman
29
2.7k
Scaling GitHub
holman
460
140k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Design and Strategy: How to Deal with People Who Don’t "Get" Design
morganepeng
130
19k
Building a Modern Day E-commerce SEO Strategy
aleyda
42
7.4k
Transcript
画像を用いた論文解説の可能性 株式会社Elith 高橋将生/大森 一祥
自己紹介 2 2 高橋 将生 JOY Elith 機械学習スペシャリスト 東京大学大学院 在学
松尾研究所 所属 @wwwsoccerwww 大森 一祥 もっさん Elith MLOpsスペシャリスト データサイエンティスト @oriki111
会社のサービス紹介 3 ChatGPT導入支援 AIcon
目次 1. 全体概要 2. 背景 3. デモの紹介 4. 画像情報を用いた論文解説 5.
出力結果 6. まとめ 7. 今後の動き 4
1. 全体概要 5 画像情報を考慮した論文解説 入力 出力
2. 背景 6
2. 背景 • AIエンジニアは素早くキャッチアップする必要がある • 翻訳サイトだけでは完全な理解が難しい ◦ 完璧ではなく英文も一部読む必要あり ◦ ネイティブに比べて読解が遅くなる
• 重要な文章を探すのが手間 • 重要情報は図表で示される ➡図、表の説明をして欲しい!! 7 論文で重要な点を早くきちんと理解したい 論文読む時間が 足りない〜
2. 背景 8 既存ツールで図などの説明ができないか? ChatPDF ・画像の説明ができないことがある ・画像情報は理解していない ・画像のキャプションを取得できない ChatGPT with
Link Reader ・ChatGPTでPDFを読み込むためのプラグイン ・Link Readerではグラフなどの図は説明できない Link Readerの失敗例 ChatPDFの失敗例
2. 背景 9 PDFファイルを扱う難しさ 画像取得 ・PyMuPDFでは画像が細切れになる キャプション取得 図とキャプションの 関係が定義されていない ・図とキャプションの関係が定義されていない
・図の位置から予測 ・キャプションのテキスト情報抽出 ・キャプションの ・キャプションの多様性(Fig. Figureなど)
3. デモ 10
11 本番ではデモ動画を発表
4. 画像情報を用いた論文解説 12
4. 画像情報を用いた論文解説 13 全体アーキテクチャー テキスト 物体検出 vector DB 図 キャプション
テキスト テキスト 要約 Figure1: XXX YOLOv8 pytesseract LangChain Function Calling 画像
4. 画像情報を用いた論文解説 • 論文をアノテーション ◦ 学習65枚 ◦ テスト10枚 • YOLOv8で学習
• Figureが92%、captionが90%で検出可能 • Figureとcaptionのセットは、最適輸送問題を 解くことでペアを見つける 14 画像とキャプションの取得
4. 画像情報を用いた論文解説 15 画像情報の利用法の模索 画像キャプション ・画像の簡単な説明文 ・この情報を詳しく説明させると図を理解できる 画像 ・解説してほしい対象 ・OCRによる文字起こし
・グラフなどの構造データを理解できない ・イメージキャプショニングによる説明文付与 ・グラフなどの数値は読み取ってくれない ・変な文章を生成することもある キャプション
4. 画像情報を用いた論文解説 Google開発のPix2StructモデルDePlotを利用 • チャートをテーブル(テキスト)に変換 • 技術は、OCR、Object Detection、Key Pointなどを組み合わせたモデル 16
チャートの読み取り DePlot論文*のFigure1抜粋 *Fangyu Liu et al. “DePlot: One-shot visual language reasoning by plot-to-table translation”
4. 画像情報を用いた論文解説 pytesseractによる事前学習モデルを使用 • Google’s Tesseract-OCR Engine(C++)のラッパー • 文字認識精度は98%程度 17
キャプション画像のOCR(optional character recognition) https://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/33418.pdf TABLE Ⅱ:Results of Q3, Q4, amd Q5 画像 テキスト
4.1 Function callingによる引数のフォーマット 18 2: 関数の分類(今回は未使用) • 入力した文字列から、予め定義した関数を選択する 関数の定義:①set_alarm_function, ②delete_alarm_function,
③check_alarm_function 入力:"7時にアラームを設定して" 出力:{"name": "set_alarm_function"} 1: 関数に必要な引数の作成 • 入力した文字列から、引数を引き出す 関数の引数:figure, number 入力:"画像1を解説してください" 出力:{"Figure": "1"} 文字列に応じて特定の関数を呼び出すことができるGPT機能 関数の分類と、関数に必要な引数の作成という2つを同時に実行
5. 出力結果 19
5. 出力結果① 20 チャートの情報に関する質問に回答することができる
5. 出力結果② 21 数値の大きいものを表示することも可能
5. 出力結果③ 22 グラフの詳細な説明が可能
6. まとめ • 画像から図とキャプションを取得 • キャプションをOCR • 図をdeplot • PDFをベクトル化
• Function callingで引数作成 23 画像情報を考慮した論文解説
7. 今後の動き • フローチャートを解説したい ◦ 現状LLMが画像を理解できない ◦ 入出力関係をLLMで理解させたい ◦ 論文専用のキャプション生成をしたい
24 • 論文解説記事の自動生成したい ◦ 論文の画像の取得ができると、記事に画像を貼り付けられる • 参考文献を考慮した論文解説をしたい ◦ 1つの論文は主観が入る ◦ 複数の文献を読んだ上で俯瞰的に解説するモデルを作りたい