TensorFlow 日本語ドキュメント自動校正ツールの変遷@shuhei_fujiwara
View Slide
自己紹介藤原 秀平 (Shuhei Fujiwara)● TensorFlow User Group Tokyo organizer● Google Developers Experts (ML)● TensorFlow 日本語ドキュメント reviewer○ 最近サボってますが…
今日の話● 日本コミュニティの TensorFlow ドキュメント翻訳活動● 最近のドキュメント翻訳の工夫○ GitHub Actions を使った自動校正
TensorFlow のドキュメントはオープンソース有志のコントリビューターによって翻訳されているRepository はココ:https://github.com/tensorflow/docs-l10n
詳しい話はこちらhttps://speakerdeck.com/asei/tensorflow-falsedokiyumentofan-yi-woxing-ukomiyuniteihuo-dong-nituite
複数人で翻訳をしていると発生しがちな問題用語の表記ゆれなど、文章のスタイルを揃えたい● パラメーター or パラメータ?● 「、」or「,」?● 半角 or 全角● etc…レビューするのがしんどい...
RedPenhttps://redpen.cc/● redpen-conf.xml に記載したルールに従って校正結果を出力してくれる○ 表記の統一、一文の長さの上限、etc…● 皆で共通の設定で redpen の校正を通過すれば良さそう$ redpen --conf redpen-conf.xml HOGE.md
日本語翻訳の校正ツール誕生だいたい @chie8842 さんが全部やってくれたhttps://github.com/tfug/proofreading● RedPen の設定ファイルをここで管理● 対象のドキュメントに対して RedPen を適用するシェルスクリプト● Jupyter Notebook ==> Markdown の変換
解決したこと● Reviewer の表記揺れを探す単純作業が減った● 「ツールがこう言っている」という指摘ができるので角が立ちにくい(たぶん)○ 個人的に重要だと思っているポイント○ 人に指摘されるより機械に指摘される方が精神的に楽だよね?
まだ解決していなかったこと校正ツールを人間が実行しなければならない● Reviewer が皆の翻訳に対して都度実行して結果を見せながら GitHub 上でレビューする○ かなり面倒くさい● 翻訳者が PR を作る前に自分でチェックする○ 理想的だけど浸透させるのが難しいCI 上で実行されれば解決だよなぁ!?
CI 上で実行するまでの壁● ドキュメントは tensorflow/docs 以下で管理されていた○ Google のリポジトリの構成は簡単にはいじらせてもらえない○ 過去に一度ここに校正ツールを置こうとして失敗している● コミュニティによる翻訳が活性化して tensorflow/docs-l10 への引っ越しが行われた○ 何かリポジトリオーナーが GitHub Actions 活用しようとした形跡を発見した○ 今ならドサクサにまぎれていけるのでは…?
issue を立てて様子を見るhttps://github.com/tensorflow/docs-l10n/issues/144● 日本語ドキュメントのディレクトリ内の diff にしか反応しないことを主張○ GitHub Actions の機能でできる(すごい便利!)● どんなファイルをどこに置こうとしてるか、何がどう便利か説明● 好感触っぽかったので PR を作成
PR を作って説得しにいくhttps://github.com/tensorflow/docs-l10n/pull/185Fork した自分のリポジトリ上で動いているスクリーンショットを見せてマージしてもらえるよう説明
PR 上での表示● ディレクトリごとに校正をpass したか見える● 通らなかった場合翻訳者が自分ですぐに気付ける!
GitHub Actions のログ● 校正ツールの実行結果がログに出る● Reviewer が実行して結果を共有する手間が省ける!
まとめ● 翻訳作業も自動化できるものは自動化できるといいよね● OSS では適当に交渉してみるのも大事かも