Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GROBIDを用いて論文PDF翻訳補助ツールを作成する

 GROBIDを用いて論文PDF翻訳補助ツールを作成する

第1回Tokushima.R 発表資料

matsumototo180

May 23, 2022
Tweet

Other Decks in Programming

Transcript

  1. 自己紹介 松本 涼 デザイン型AI 教育研究センター 特任技術員 創成科学研究科 地域創成専攻 2 年(修士)

    研究テーマ:深層学習を用いた音楽のジャンル変換 wav やmp3 などの楽曲データのジャンルを変換する 楽曲データ [Rock] 楽曲データ [Hip-Hop] ジャンル変換
  2. PDF ファイルの翻訳 文章コピペ補助ツール Shaper - dream-exp.net PDF 論文翻訳補助 | EVT1.COM

    改ページ・脚注などの問題が残る PDF 論文翻訳補助 | EVT1.COM
  3. GROBID とは GROBID...GeneRation Of Bibliographic Data PDF のような生の文書の内容を 抽出、解析、再構築するための機械学習ライ ブラリ

    Java で書かれたものだが、 Python 用のクライアントが用意されている オープンソース https://github.com/kermitt2/grobid
  4. 実装 利用するライブラリ・プログラム等 GROBID grobid_client_python tei-xsl (teitohtml ) BeautifulSoup FastAPI Google

    Chrome PDF ファイルからXML/TEI ファイルへの変換(抽出) GROBID のPython 用クライアント XML/TEI からHTML への変換(CLI ツール) HTML ファイルの整形 ツールのWeb アプリ化 入出力のインターフェイス・翻訳に利用
  5. 実装 処理の流れ 1. GROBID サーバー&Web アプリサーバー(FastAPI )を起動 2. ブラウザ(Chrome )のフォームからPDF

    ファイルを受け取る 3. Python スクリプトでPDF をGROBID に入力 4. GROBID からの出力をHTML に変換(teitohtml ) 5. GROBID からの出力をPython (BeautifulSoup )で整形 6. ブラウザに整形したHTML ファイルを返す 7. ブラウザの翻訳機能で翻訳する