Slide 1

Slide 1 text

TensorFlow 日本語ドキュメント 自動校正ツールの変遷 @shuhei_fujiwara

Slide 2

Slide 2 text

自己紹介 藤原 秀平 (Shuhei Fujiwara) ● TensorFlow User Group Tokyo organizer ● Google Developers Experts (ML) ● TensorFlow 日本語ドキュメント reviewer ○ 最近サボってますが…

Slide 3

Slide 3 text

今日の話 ● 日本コミュニティの TensorFlow ドキュメント翻訳活動 ● 最近のドキュメント翻訳の工夫 ○ GitHub Actions を使った自動校正

Slide 4

Slide 4 text

TensorFlow のドキュメントはオープンソース 有志のコントリビューターによって翻訳されている Repository はココ: https://github.com/tensorflow/docs-l10n

Slide 5

Slide 5 text

詳しい話はこちら https://speakerdeck.com/asei/tensorflow-falsedokiyumento fan-yi-woxing-ukomiyuniteihuo-dong-nituite

Slide 6

Slide 6 text

複数人で翻訳をしていると発生しがちな問題 用語の表記ゆれなど、文章のスタイルを揃えたい ● パラメーター or パラメータ? ● 「、」or「,」? ● 半角 or 全角 ● etc… レビューするのがしんどい...

Slide 7

Slide 7 text

RedPen https://redpen.cc/ ● redpen-conf.xml に記載したルールに従って校正結果を出力してくれる ○ 表記の統一、一文の長さの上限、etc… ● 皆で共通の設定で redpen の校正を通過すれば良さそう $ redpen --conf redpen-conf.xml HOGE.md

Slide 8

Slide 8 text

日本語翻訳の校正ツール誕生 だいたい @chie8842 さんが全部やってくれた https://github.com/tfug/proofreading ● RedPen の設定ファイルをここで管理 ● 対象のドキュメントに対して RedPen を適用する シェルスクリプト ● Jupyter Notebook ==> Markdown の変換

Slide 9

Slide 9 text

解決したこと ● Reviewer の表記揺れを探す単純作業が減った ● 「ツールがこう言っている」という指摘ができるので 角が立ちにくい(たぶん) ○ 個人的に重要だと思っているポイント ○ 人に指摘されるより機械に指摘される方が精神的に楽だよね?

Slide 10

Slide 10 text

まだ解決していなかったこと 校正ツールを人間が実行しなければならない ● Reviewer が皆の翻訳に対して都度実行して結果を 見せながら GitHub 上でレビューする ○ かなり面倒くさい ● 翻訳者が PR を作る前に自分でチェックする ○ 理想的だけど浸透させるのが難しい CI 上で実行されれば解決だよなぁ!?

Slide 11

Slide 11 text

CI 上で実行するまでの壁 ● ドキュメントは tensorflow/docs 以下で管理されていた ○ Google のリポジトリの構成は簡単にはいじらせてもらえない ○ 過去に一度ここに校正ツールを置こうとして失敗している ● コミュニティによる翻訳が活性化して tensorflow/docs-l10 への引っ越しが 行われた ○ 何かリポジトリオーナーが GitHub Actions 活用しようとした形跡を 発見した ○ 今ならドサクサにまぎれていけるのでは…?

Slide 12

Slide 12 text

issue を立てて様子を見る https://github.com/tensorflow/docs-l10n/issues/144 ● 日本語ドキュメントのディレクトリ内の diff にしか反応しないことを主張 ○ GitHub Actions の機能でできる(すごい便利!) ● どんなファイルをどこに置こうとしてるか、何がどう便利か説明 ● 好感触っぽかったので PR を作成

Slide 13

Slide 13 text

PR を作って説得しにいく https://github.com/tensorflow/docs-l10n/pull/185 Fork した自分のリポジトリ上で動いているスクリーンショットを見せて マージしてもらえるよう説明

Slide 14

Slide 14 text

PR 上での表示 ● ディレクトリごとに校正を pass したか見える ● 通らなかった場合翻訳者が 自分ですぐに気付ける!

Slide 15

Slide 15 text

GitHub Actions のログ ● 校正ツールの実行結果が ログに出る ● Reviewer が実行して結果を 共有する手間が省ける!

Slide 16

Slide 16 text

まとめ ● 翻訳作業も自動化できるものは自動化できるといいよね ● OSS では適当に交渉してみるのも大事かも