Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GROBIDを用いて論文PDF翻訳補助ツールを作成する

Sponsored · Ship Features Fearlessly Turn features on and off without deploys. Used by thousands of Ruby developers.

 GROBIDを用いて論文PDF翻訳補助ツールを作成する

第1回Tokushima.R 発表資料

Avatar for matsumototo180

matsumototo180

May 23, 2022
Tweet

Other Decks in Programming

Transcript

  1. 自己紹介 松本 涼 デザイン型AI 教育研究センター 特任技術員 創成科学研究科 地域創成専攻 2 年(修士)

    研究テーマ:深層学習を用いた音楽のジャンル変換 wav やmp3 などの楽曲データのジャンルを変換する 楽曲データ [Rock] 楽曲データ [Hip-Hop] ジャンル変換
  2. PDF ファイルの翻訳 文章コピペ補助ツール Shaper - dream-exp.net PDF 論文翻訳補助 | EVT1.COM

    改ページ・脚注などの問題が残る PDF 論文翻訳補助 | EVT1.COM
  3. GROBID とは GROBID...GeneRation Of Bibliographic Data PDF のような生の文書の内容を 抽出、解析、再構築するための機械学習ライ ブラリ

    Java で書かれたものだが、 Python 用のクライアントが用意されている オープンソース https://github.com/kermitt2/grobid
  4. 実装 利用するライブラリ・プログラム等 GROBID grobid_client_python tei-xsl (teitohtml ) BeautifulSoup FastAPI Google

    Chrome PDF ファイルからXML/TEI ファイルへの変換(抽出) GROBID のPython 用クライアント XML/TEI からHTML への変換(CLI ツール) HTML ファイルの整形 ツールのWeb アプリ化 入出力のインターフェイス・翻訳に利用
  5. 実装 処理の流れ 1. GROBID サーバー&Web アプリサーバー(FastAPI )を起動 2. ブラウザ(Chrome )のフォームからPDF

    ファイルを受け取る 3. Python スクリプトでPDF をGROBID に入力 4. GROBID からの出力をHTML に変換(teitohtml ) 5. GROBID からの出力をPython (BeautifulSoup )で整形 6. ブラウザに整形したHTML ファイルを返す 7. ブラウザの翻訳機能で翻訳する