Upgrade to Pro
— share decks privately, control downloads, hide ads and more …
Speaker Deck
Features
Speaker Deck
PRO
Sign in
Sign up for free
Search
Search
GROBIDを用いて論文PDF翻訳補助ツールを作成する
Search
matsumototo180
May 23, 2022
Programming
1
1.4k
GROBIDを用いて論文PDF翻訳補助ツールを作成する
第1回Tokushima.R 発表資料
matsumototo180
May 23, 2022
Tweet
Share
Other Decks in Programming
See All in Programming
SwiftUI移行のためのインプレッショントラッキング基盤の構築
kokihirokawa
0
180
Lambdaの監視、できてますか?Datadogを用いてLambdaを見守ろう
nealle
2
800
CSS Linter による Baseline サポートの仕組み
ryo_manba
1
160
SwiftUI Viewの責務分離
elmetal
PRO
2
280
Jasprが凄い話
hyshu
0
190
DRFを少しずつ オニオンアーキテクチャに寄せていく DjangoCongress JP 2025
nealle
2
300
Djangoにおける複数ユーザー種別認証の設計アプローチ@DjangoCongress JP 2025
delhi09
PRO
4
510
5分で理解する SOLID 原則 #phpcon_nagoya
shogogg
1
410
Go 1.24でジェネリックになった型エイリアスの紹介
syumai
2
310
Boost Your Web Performance with Hyperdrive
chimame
1
130
ML.NETで始める機械学習
ymd65536
0
250
DevNexus - Create AI Infused Java Apps with LangChain4j
kdubois
0
140
Featured
See All Featured
Music & Morning Musume
bryan
46
6.4k
Mobile First: as difficult as doing things right
swwweet
223
9.5k
4 Signs Your Business is Dying
shpigford
183
22k
StorybookのUI Testing Handbookを読んだ
zakiyama
28
5.5k
The Success of Rails: Ensuring Growth for the Next 100 Years
eileencodes
44
7.1k
Keith and Marios Guide to Fast Websites
keithpitt
411
22k
Building Applications with DynamoDB
mza
93
6.2k
Dealing with People You Can't Stand - Big Design 2015
cassininazir
366
25k
ピンチをチャンスに:未来をつくるプロダクトロードマップ #pmconf2020
aki_iinuma
115
51k
Practical Tips for Bootstrapping Information Extraction Pipelines
honnibal
PRO
13
1k
KATA
mclloyd
29
14k
XXLCSS - How to scale CSS and keep your sanity
sugarenia
248
1.3M
Transcript
GROBID を用いて論文PDF 翻訳補助ツールを作成する 松本 涼
目次 1. はじめに 2. つくりたいもの 3. GROBID とは 4. 実装
5. 実際の使用感 6. 今後の課題
はじめに
自己紹介 松本 涼 デザイン型AI 教育研究センター 特任技術員 創成科学研究科 地域創成専攻 2 年(修士)
研究テーマ:深層学習を用いた音楽のジャンル変換 wav やmp3 などの楽曲データのジャンルを変換する 楽曲データ [Rock] 楽曲データ [Hip-Hop] ジャンル変換
背景 英語の論文を読む機会が多い 英語が苦手・・・読むのに時間がかかる 機械翻訳を使って読む
機械翻訳の利用 Google 翻訳や DeepL など そこそこ自然な翻訳が得られる 英語で読むよりも早く理解できる PDF 形式の論文の翻訳に難あり
PDF ファイルの翻訳 ファイルごと翻訳する (Google 翻訳 ) 翻訳文
None
PDF ファイルの翻訳 不自然な翻訳になりがち 文章内の改行が正しく認識されていない 手作業で修正する必要あり
そのままコピペした場合
手作業で修正
PDF ファイルの翻訳 文章コピペ補助ツール Shaper - dream-exp.net PDF 論文翻訳補助 | EVT1.COM
改ページ・脚注などの問題が残る PDF 論文翻訳補助 | EVT1.COM
つくりたいもの
つくりたいもの 以下のような機能のツールを作成したい PDF ファイルを入力したら翻訳したものを出力 翻訳文が正しいかどうか確認できるように、原文と対照して表示 翻訳文はその場で編集可能
つくりたいもの PDF ファイルを入力したら翻訳したものを出力 英語 変換 日本語 機械翻訳にかける作業の自動化
つくりたいもの 翻訳文が正しいかどうか確認できるように原文と対照して表示 訳が正しいかどうか確認するための機能
つくりたいもの 翻訳文はその場で編集可能 訳に不自然な点を見つけたら修正できるようにする
GROBID とは
GROBID とは GROBID...GeneRation Of Bibliographic Data PDF のような生の文書の内容を 抽出、解析、再構築するための機械学習ライ ブラリ
Java で書かれたものだが、 Python 用のクライアントが用意されている オープンソース https://github.com/kermitt2/grobid
GROBID とは GROBID では以下のようなことができる 書誌情報(タイトル、抄録、著者、所属、キーワードなど)の抽出 参考文献の抽出と解析 論文中の引用コンテキスト認識と、その参考文献へのリンク 著者名(姓、名、ミドルネーム)、所属、日付、住所など細かい情報の解析 文書全体のセグメンテーションと、テキスト本文の構造化 (段落、セクションタイトル、参考文献の吹き出し、図、表など)を含む、PDF
論文からの全 文抽出 様々な書誌情報が XML/TEI 形式に構造化されて抽出される
実装
実装 GROBID を用いて論文 PDF からテキストを抽出し機械翻訳にかけるための整形処 理を行う 以下のような流れのプログラムを作成する GROBID PDF の⼊⼒
本⽂抽出・構造化 PDF の⼊⼒ 整形した HTML ファイル
実装 利用するライブラリ・プログラム等 GROBID grobid_client_python tei-xsl (teitohtml ) BeautifulSoup FastAPI Google
Chrome PDF ファイルからXML/TEI ファイルへの変換(抽出) GROBID のPython 用クライアント XML/TEI からHTML への変換(CLI ツール) HTML ファイルの整形 ツールのWeb アプリ化 入出力のインターフェイス・翻訳に利用
実装 処理の流れ 1. GROBID サーバー&Web アプリサーバー(FastAPI )を起動 2. ブラウザ(Chrome )のフォームからPDF
ファイルを受け取る 3. Python スクリプトでPDF をGROBID に入力 4. GROBID からの出力をHTML に変換(teitohtml ) 5. GROBID からの出力をPython (BeautifulSoup )で整形 6. ブラウザに整形したHTML ファイルを返す 7. ブラウザの翻訳機能で翻訳する
実際の使用感
今後の課題 図・表・数式などを見やすく表示する 現状:文章だけしか抽出できていない GROBID は図・表・数式の出現する座標を取得できるので 構造を保ったまま表示できるようにしたい 翻訳品質の向上 現状:Chrome の翻訳機能を利用 DeepL
等のAPI を利用するようにしたい 編集機能の向上 現状:HTML5 の編集機能(contentEditable 属性) を利用 より使いやすい編集機能にしたい