#ミニハッカソンのお題 LLMを用いた面白いサービス・プロダクト。 学習させても、推論のみでも、APIを使っても可。 評価基準:有用性と独自性
# 実装 Chat-GPT + Pandoc + Marp + Stable Diffusion / Nuxt + Tailwind
ミニハッカソンarXiv Slider慶應義塾大学 杉浦孔明研究室チームShinnosuke和田唯我 小松拓実 平野慎之助
View Slide
2ü 背景: この世には大量の論文が存在する→ 論文の内容を素早く・簡潔に理解したいü 提案プロダクト: arXivのリンクだけで論文の説明スライドを作成可能!• 対象ユーザ: 論文を読む全ての理系学生 (論文速読に勤しむ現B4)概要
3• 論文の投稿数は年々高まっている− 特に深層学習の進歩は凄まじく,読みたい論文が山積している状況− 学生の脳は日々爆発傾向にある− 例: CVPRの投稿数グラフ背景: 論文の投稿数は年々高まっている
4デモ: arXivSlider
5実装: Pandoc + Chat-GPT + Marp + SD / Nuxt + TailwindStableDiffusionPandocmarkdownChat-GPTAPISlideFrontend
6実装: Pandoc + Chat-GPT + Marp + SD / Nuxt + TailwindStableDiffusionPandocmarkdownChat-GPTAPISlideFrontendarXivのtexソースから有用な文章を抽出
7実装: Pandoc + Chat-GPT + Marp + SD / Nuxt + TailwindStableDiffusionPandocmarkdownChat-GPTAPISlideFrontend指定した形式で要約するよう指示
8実装: Pandoc + Chat-GPT + Marp + SD / Nuxt + TailwindStableDiffusionPandocmarkdownChat-GPTAPISlideFrontend指定した形式でスライドを作成
9実装: Pandoc + Chat-GPT + Marp + SD / Nuxt + TailwindStableDiffusionPandocmarkdownChat-GPTAPISlideFrontendテーマに即した背景画像の作成
10的確なpromptで出力形式に制約を付与要約promptStable Diffusion用promptキャプションprompt
11• スライドを補強するためにモデル図を論文から抽出したい→ ルールベースのパーサ or 画像・言語による識別器が必要…⇒ キャプションを与えてLLMに解かせよう!例:Zero shotによる画像抽出 (Caption-Matching)Transformer EncoderMLPHeadVision Transformer (ViT)*Linear Projection of Flattened Patches* Extra learnable[ cl ass] embedding1 2 3 4 5 6 7 8 90Patch + PositionEmbeddingClassBirdBallCar...EmbeddedPatchesMulti-HeadAttentionNormMLPNorm+L x+Transformer EncoderCaption: hoge1 Caption: hoge2 Caption: hoge3
12Zero shotによる画像抽出 (Caption-Matching)Transformer EncoderMLPHeadVision Transformer (ViT)*Linear Projection of Flattened Patches* Extra learnable[ cl ass] embedding1 2 3 4 5 6 7 8 90Patch + PositionEmbeddingClassBirdBallCar...EmbeddedPatchesMulti-HeadAttentionNormMLPNorm+L x+Transformer EncoderCaption: hoge1Caption: hoge2Caption: hoge3どのキャプションがモデル図として相応しいかをLLMに問い合わせる• スライドを補強するためにモデル図を論文から抽出したい→ ルールベースのパーサ or 画像・言語による識別器が必要…⇒ キャプションを与えてLLMに解かせよう!例:
13ü 背景: この世には大量の論文が存在し,論文の内容は素早く・簡潔に理解したいü 本プロダクト: arxivのリンクだけで論文の説明スライドを作成可能!ü Pandoc + Chat-GPT + Marp + SD / Nuxt + Tailwind で実装まとめ
14• 和田 … 全て• 小松 … 画像の埋め込み・スライド作成部分• 平野 … Stable Diffusion / Chat-GPT のprompt担当役割担当:チームShinnosuke
Appendix
16• LLMの返す文字列が手元の候補キャプションと一致しない場合がある→ レーベンシュタイン距離が最小のキャプションの図を採用するCaption-Matchingについて
17生成したスライド表紙の例Attention Is All You NeedAshish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, LlionJones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin
18• 任意のlatexコードをhtmlやmarkdownへと変換できる.• 本プロダクトではmarkdownへと変換することで,arXivのtexソースから有用な文章を抽出した.Pandoc: OSSのドキュメントコンバータ
19• Markdown記法でスライドを作成できるツール.• 画像等の埋め込みも可能で,CSSによりスタイルを記述可能.• 本プロダクトでは,最終的なスライド作成に使用.Marp: OSSのスライド作成ツール