Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GROBIDを用いて論文PDF翻訳補助ツールを作成する
Search
Sponsored
·
Ship Features Fearlessly
Turn features on and off without deploys. Used by thousands of Ruby developers.
→
matsumototo180
May 23, 2022
Programming
1
2.8k
GROBIDを用いて論文PDF翻訳補助ツールを作成する
第1回Tokushima.R 発表資料
matsumototo180
May 23, 2022
Tweet
Share
Other Decks in Programming
See All in Programming
JPUG勉強会 OSSデータベースの内部構造を理解しよう
oga5
2
230
The Past, Present, and Future of Enterprise Java
ivargrimstad
0
390
AIに仕事を丸投げしたら、本当に楽になれるのか
dip_tech
PRO
0
180
守る「だけ」の優しいEMを抜けて、 事業とチームを両方見る視点を身につけた話
maroon8021
3
270
あなたはユーザーではない #PdENight
kajitack
4
300
Claude Code の Skill で複雑な既存仕様をすっきり整理しよう
yuichirokato
1
290
米国のサイバーセキュリティタイムラインと見る Goの暗号パッケージの進化
tomtwinkle
2
420
CSC307 Lecture 15
javiergs
PRO
0
220
Agent Skills Workshop - AIへの頼み方を仕組み化する
gotalab555
14
7.9k
LangChain4jとは一味違うLangChain4j-CDI
kazumura
1
140
どんと来い、データベース信頼性エンジニアリング / Introduction to DBRE
nnaka2992
1
120
RAGでハマりがちな"Excelの罠"を、データの構造化で突破する
harumiweb
9
2.5k
Featured
See All Featured
Taking LLMs out of the black box: A practical guide to human-in-the-loop distillation
inesmontani
PRO
3
2.1k
The Cult of Friendly URLs
andyhume
79
6.8k
Making Projects Easy
brettharned
120
6.6k
I Don’t Have Time: Getting Over the Fear to Launch Your Podcast
jcasabona
34
2.6k
AI Search: Implications for SEO and How to Move Forward - #ShenzhenSEOConference
aleyda
1
1.1k
Practical Orchestrator
shlominoach
191
11k
The Spectacular Lies of Maps
axbom
PRO
1
580
Ruling the World: When Life Gets Gamed
codingconduct
0
160
Product Roadmaps are Hard
iamctodd
PRO
55
12k
The Impact of AI in SEO - AI Overviews June 2024 Edition
aleyda
5
760
Building Applications with DynamoDB
mza
96
6.9k
Jess Joyce - The Pitfalls of Following Frameworks
techseoconnect
PRO
1
94
Transcript
GROBID を用いて論文PDF 翻訳補助ツールを作成する 松本 涼
目次 1. はじめに 2. つくりたいもの 3. GROBID とは 4. 実装
5. 実際の使用感 6. 今後の課題
はじめに
自己紹介 松本 涼 デザイン型AI 教育研究センター 特任技術員 創成科学研究科 地域創成専攻 2 年(修士)
研究テーマ:深層学習を用いた音楽のジャンル変換 wav やmp3 などの楽曲データのジャンルを変換する 楽曲データ [Rock] 楽曲データ [Hip-Hop] ジャンル変換
背景 英語の論文を読む機会が多い 英語が苦手・・・読むのに時間がかかる 機械翻訳を使って読む
機械翻訳の利用 Google 翻訳や DeepL など そこそこ自然な翻訳が得られる 英語で読むよりも早く理解できる PDF 形式の論文の翻訳に難あり
PDF ファイルの翻訳 ファイルごと翻訳する (Google 翻訳 ) 翻訳文
None
PDF ファイルの翻訳 不自然な翻訳になりがち 文章内の改行が正しく認識されていない 手作業で修正する必要あり
そのままコピペした場合
手作業で修正
PDF ファイルの翻訳 文章コピペ補助ツール Shaper - dream-exp.net PDF 論文翻訳補助 | EVT1.COM
改ページ・脚注などの問題が残る PDF 論文翻訳補助 | EVT1.COM
つくりたいもの
つくりたいもの 以下のような機能のツールを作成したい PDF ファイルを入力したら翻訳したものを出力 翻訳文が正しいかどうか確認できるように、原文と対照して表示 翻訳文はその場で編集可能
つくりたいもの PDF ファイルを入力したら翻訳したものを出力 英語 変換 日本語 機械翻訳にかける作業の自動化
つくりたいもの 翻訳文が正しいかどうか確認できるように原文と対照して表示 訳が正しいかどうか確認するための機能
つくりたいもの 翻訳文はその場で編集可能 訳に不自然な点を見つけたら修正できるようにする
GROBID とは
GROBID とは GROBID...GeneRation Of Bibliographic Data PDF のような生の文書の内容を 抽出、解析、再構築するための機械学習ライ ブラリ
Java で書かれたものだが、 Python 用のクライアントが用意されている オープンソース https://github.com/kermitt2/grobid
GROBID とは GROBID では以下のようなことができる 書誌情報(タイトル、抄録、著者、所属、キーワードなど)の抽出 参考文献の抽出と解析 論文中の引用コンテキスト認識と、その参考文献へのリンク 著者名(姓、名、ミドルネーム)、所属、日付、住所など細かい情報の解析 文書全体のセグメンテーションと、テキスト本文の構造化 (段落、セクションタイトル、参考文献の吹き出し、図、表など)を含む、PDF
論文からの全 文抽出 様々な書誌情報が XML/TEI 形式に構造化されて抽出される
実装
実装 GROBID を用いて論文 PDF からテキストを抽出し機械翻訳にかけるための整形処 理を行う 以下のような流れのプログラムを作成する GROBID PDF の⼊⼒
本⽂抽出・構造化 PDF の⼊⼒ 整形した HTML ファイル
実装 利用するライブラリ・プログラム等 GROBID grobid_client_python tei-xsl (teitohtml ) BeautifulSoup FastAPI Google
Chrome PDF ファイルからXML/TEI ファイルへの変換(抽出) GROBID のPython 用クライアント XML/TEI からHTML への変換(CLI ツール) HTML ファイルの整形 ツールのWeb アプリ化 入出力のインターフェイス・翻訳に利用
実装 処理の流れ 1. GROBID サーバー&Web アプリサーバー(FastAPI )を起動 2. ブラウザ(Chrome )のフォームからPDF
ファイルを受け取る 3. Python スクリプトでPDF をGROBID に入力 4. GROBID からの出力をHTML に変換(teitohtml ) 5. GROBID からの出力をPython (BeautifulSoup )で整形 6. ブラウザに整形したHTML ファイルを返す 7. ブラウザの翻訳機能で翻訳する
実際の使用感
今後の課題 図・表・数式などを見やすく表示する 現状:文章だけしか抽出できていない GROBID は図・表・数式の出現する座標を取得できるので 構造を保ったまま表示できるようにしたい 翻訳品質の向上 現状:Chrome の翻訳機能を利用 DeepL
等のAPI を利用するようにしたい 編集機能の向上 現状:HTML5 の編集機能(contentEditable 属性) を利用 より使いやすい編集機能にしたい