TensorFlow Docs Translation Proofreading

TensorFlow Docs Translation Proofreading

D6bf88af4f3c68f688d433ad0c3c1345?s=128

Shuhei Fujiwara

May 28, 2020
Tweet

Transcript

  1. TensorFlow 日本語ドキュメント 自動校正ツールの変遷 @shuhei_fujiwara

  2. 自己紹介 藤原 秀平 (Shuhei Fujiwara) • TensorFlow User Group Tokyo

    organizer • Google Developers Experts (ML) • TensorFlow 日本語ドキュメント reviewer ◦ 最近サボってますが…
  3. 今日の話 • 日本コミュニティの TensorFlow ドキュメント翻訳活動 • 最近のドキュメント翻訳の工夫 ◦ GitHub Actions

    を使った自動校正
  4. TensorFlow のドキュメントはオープンソース 有志のコントリビューターによって翻訳されている Repository はココ: https://github.com/tensorflow/docs-l10n

  5. 詳しい話はこちら https://speakerdeck.com/asei/tensorflow-falsedokiyumento fan-yi-woxing-ukomiyuniteihuo-dong-nituite

  6. 複数人で翻訳をしていると発生しがちな問題 用語の表記ゆれなど、文章のスタイルを揃えたい • パラメーター or パラメータ? • 「、」or「,」? • 半角

    or 全角 • etc… レビューするのがしんどい...
  7. RedPen https://redpen.cc/ • redpen-conf.xml に記載したルールに従って校正結果を出力してくれる ◦ 表記の統一、一文の長さの上限、etc… • 皆で共通の設定で redpen

    の校正を通過すれば良さそう $ redpen --conf redpen-conf.xml HOGE.md
  8. 日本語翻訳の校正ツール誕生 だいたい @chie8842 さんが全部やってくれた https://github.com/tfug/proofreading • RedPen の設定ファイルをここで管理 • 対象のドキュメントに対して

    RedPen を適用する シェルスクリプト • Jupyter Notebook ==> Markdown の変換
  9. 解決したこと • Reviewer の表記揺れを探す単純作業が減った • 「ツールがこう言っている」という指摘ができるので 角が立ちにくい(たぶん) ◦ 個人的に重要だと思っているポイント ◦

    人に指摘されるより機械に指摘される方が精神的に楽だよね?
  10. まだ解決していなかったこと 校正ツールを人間が実行しなければならない • Reviewer が皆の翻訳に対して都度実行して結果を 見せながら GitHub 上でレビューする ◦ かなり面倒くさい

    • 翻訳者が PR を作る前に自分でチェックする ◦ 理想的だけど浸透させるのが難しい CI 上で実行されれば解決だよなぁ!?
  11. CI 上で実行するまでの壁 • ドキュメントは tensorflow/docs 以下で管理されていた ◦ Google のリポジトリの構成は簡単にはいじらせてもらえない ◦

    過去に一度ここに校正ツールを置こうとして失敗している • コミュニティによる翻訳が活性化して tensorflow/docs-l10 への引っ越しが 行われた ◦ 何かリポジトリオーナーが GitHub Actions 活用しようとした形跡を 発見した ◦ 今ならドサクサにまぎれていけるのでは…?
  12. issue を立てて様子を見る https://github.com/tensorflow/docs-l10n/issues/144 • 日本語ドキュメントのディレクトリ内の diff にしか反応しないことを主張 ◦ GitHub Actions

    の機能でできる(すごい便利!) • どんなファイルをどこに置こうとしてるか、何がどう便利か説明 • 好感触っぽかったので PR を作成
  13. PR を作って説得しにいく https://github.com/tensorflow/docs-l10n/pull/185 Fork した自分のリポジトリ上で動いているスクリーンショットを見せて マージしてもらえるよう説明

  14. PR 上での表示 • ディレクトリごとに校正を pass したか見える • 通らなかった場合翻訳者が 自分ですぐに気付ける!

  15. GitHub Actions のログ • 校正ツールの実行結果が ログに出る • Reviewer が実行して結果を 共有する手間が省ける!

  16. まとめ • 翻訳作業も自動化できるものは自動化できるといいよね • OSS では適当に交渉してみるのも大事かも