Upgrade to Pro — share decks privately, control downloads, hide ads and more …

TensorFlow Docs Translation Proofreading

TensorFlow Docs Translation Proofreading

Shuhei Fujiwara

May 28, 2020
Tweet

More Decks by Shuhei Fujiwara

Other Decks in Technology

Transcript

  1. TensorFlow 日本語ドキュメント
    自動校正ツールの変遷
    @shuhei_fujiwara

    View Slide

  2. 自己紹介
    藤原 秀平 (Shuhei Fujiwara)
    ● TensorFlow User Group Tokyo organizer
    ● Google Developers Experts (ML)
    ● TensorFlow 日本語ドキュメント reviewer
    ○ 最近サボってますが…

    View Slide

  3. 今日の話
    ● 日本コミュニティの TensorFlow ドキュメント翻訳活動
    ● 最近のドキュメント翻訳の工夫
    ○ GitHub Actions を使った自動校正

    View Slide

  4. TensorFlow のドキュメントはオープンソース
    有志のコントリビューターによって翻訳されている
    Repository はココ:
    https://github.com/tensorflow/docs-l10n

    View Slide

  5. 詳しい話はこちら
    https://speakerdeck.com/asei/tensorflow-falsedokiyumento
    fan-yi-woxing-ukomiyuniteihuo-dong-nituite

    View Slide

  6. 複数人で翻訳をしていると発生しがちな問題
    用語の表記ゆれなど、文章のスタイルを揃えたい
    ● パラメーター or パラメータ?
    ● 「、」or「,」?
    ● 半角 or 全角
    ● etc…
    レビューするのがしんどい...

    View Slide

  7. RedPen
    https://redpen.cc/
    ● redpen-conf.xml に記載したルールに従って校正結果を出力してくれる
    ○ 表記の統一、一文の長さの上限、etc…
    ● 皆で共通の設定で redpen の校正を通過すれば良さそう
    $ redpen --conf redpen-conf.xml HOGE.md

    View Slide

  8. 日本語翻訳の校正ツール誕生
    だいたい @chie8842 さんが全部やってくれた
    https://github.com/tfug/proofreading
    ● RedPen の設定ファイルをここで管理
    ● 対象のドキュメントに対して RedPen を適用する
    シェルスクリプト
    ● Jupyter Notebook ==> Markdown の変換

    View Slide

  9. 解決したこと
    ● Reviewer の表記揺れを探す単純作業が減った
    ● 「ツールがこう言っている」という指摘ができるので
    角が立ちにくい(たぶん)
    ○ 個人的に重要だと思っているポイント
    ○ 人に指摘されるより機械に指摘される方が精神的に楽だよね?

    View Slide

  10. まだ解決していなかったこと
    校正ツールを人間が実行しなければならない
    ● Reviewer が皆の翻訳に対して都度実行して結果を
    見せながら GitHub 上でレビューする
    ○ かなり面倒くさい
    ● 翻訳者が PR を作る前に自分でチェックする
    ○ 理想的だけど浸透させるのが難しい
    CI 上で実行されれば解決だよなぁ!?

    View Slide

  11. CI 上で実行するまでの壁
    ● ドキュメントは tensorflow/docs 以下で管理されていた
    ○ Google のリポジトリの構成は簡単にはいじらせてもらえない
    ○ 過去に一度ここに校正ツールを置こうとして失敗している
    ● コミュニティによる翻訳が活性化して tensorflow/docs-l10 への引っ越しが
    行われた
    ○ 何かリポジトリオーナーが GitHub Actions 活用しようとした形跡を
    発見した
    ○ 今ならドサクサにまぎれていけるのでは…?

    View Slide

  12. issue を立てて様子を見る
    https://github.com/tensorflow/docs-l10n/issues/144
    ● 日本語ドキュメントのディレクトリ内の diff にしか反応しないことを主張
    ○ GitHub Actions の機能でできる(すごい便利!)
    ● どんなファイルをどこに置こうとしてるか、何がどう便利か説明
    ● 好感触っぽかったので PR を作成

    View Slide

  13. PR を作って説得しにいく
    https://github.com/tensorflow/docs-l10n/pull/185
    Fork した自分のリポジトリ上で動いているスクリーンショットを見せて
    マージしてもらえるよう説明

    View Slide

  14. PR 上での表示
    ● ディレクトリごとに校正を
    pass したか見える
    ● 通らなかった場合翻訳者が
    自分ですぐに気付ける!

    View Slide

  15. GitHub Actions のログ
    ● 校正ツールの実行結果が
    ログに出る
    ● Reviewer が実行して結果を
    共有する手間が省ける!

    View Slide

  16. まとめ
    ● 翻訳作業も自動化できるものは自動化できるといいよね
    ● OSS では適当に交渉してみるのも大事かも

    View Slide