Upgrade to Pro — share decks privately, control downloads, hide ads and more …

GCP: AutoML Translation API

kenz
February 20, 2019

GCP: AutoML Translation API

(In Japanese)
The gist of Google Cloud Platform (GCP) AutoML Translation API and how it works.

kenz

February 20, 2019
Tweet

More Decks by kenz

Other Decks in Technology

Transcript

  1. About me • 米川 賢治 @ GCPUG横浜オーガナイザ • エンジニア •

    好きなもの ◦ GCP, G Suite, Go, Python, Vim, Zsh, BSD ◦ 登山、スノボ • 苦手なもの ◦ 敬語 • https://www.linkedin.com/in/kenjiyonekawa/ 2
  2. 本スライドで知れること、知れないこと 知れること • AutoML Translationが誰でも 使えることが分かる! • AutoML Translationの概要を 知れる

    • 使った結果がどんな感じか分かる • 利用時の注意点が分かる 3 知れないこと • 機械学習とはなにか • 転移学習の仕組み • 他のAutoMLのAPIたち
  3. 概要 • AutoML Translationとは ◦ AutoML3兄弟の一つ。他は画像認識の Vision、文章カテゴリ化の Natural Language。 ◦

    カスタム翻訳モデル が簡単に作れるサービス。 May 24, 2018に追加された。 ◦ こんな感じ ▪ インプット : 自分のデータセットを与えると ▪ 中身 : Cloud Translation APIのモデルに転移学習してくれて ▪ アウトプット: カスタムの翻訳モデルを作ってくれる 6 英語 -> 日本語 インプット 中身 アウトプット カスタムモデル
  4. イメージ 翻訳前 モデル 翻訳後 日本語 勉強中 の人 鼻うんこ Cloud Translation

    API なんか違う。。。 AutoML Translation カスタムモデル Yes!!! 9
  5. 概要つづき • 今(Feb 18, 2019)はまだベータ。 ◦ 下位互換なくなる可能性あり。 ◦ SLA保証なし。 •

    いつ必要か? ◦ Cloud Translation APIのジェネリックな翻訳だと足りないとき。 ◦ 例えば、、業界独自の単語、スラング等を翻訳したいときとか。 10
  6. メリット、デメリット • メリット ◦ 転移学習してくれるので 少ないデータで良いモデル ができる。 ◦ フルマネージドで管理が楽。 ◦

    機械学習等の知識が必要ない 。 • デメリット ◦ ある程度データ量が必要 (後述)。 ◦ 高い?(後述)。 ◦ データ前処理必須(後述)。 11
  7. やったこと • 英語 -> 大阪弁 翻訳機作ってみた ◦ チュートリアルのデータで分かる言語がなかった。。 (スペイン語、フランス語とか )

    ◦ 大阪弁なら結果なんとなく良いか悪いか分かる気がした。 ◦ ある程度データが必要だったけど集めるのは大変なので探してみた。 13 英語 大阪弁
  8. 確認したかったこと • 本当にお手軽に使えるものなのか • 翻訳の精度 • モデル作成にかかる時間 • モデル作成にかかるお金 26

    お手軽に使える! スコア上がった!が低い!! :( 10未満は”Almost Useless”... データ処理: 2.5hr モデル構築: 1.5-2h GUI操作: ほぼ0 14,000JPY……:[
  9. こんなになりました。 30 翻訳前 前のモデル 後のモデル Why did you think coffee

    is better than tea? なぜコーヒーは紅茶よりもええと思っ たんや。 なぜコーヒーは茶よりも丈夫だとお 考えになりましたか。 What is the best food in Osaka? 大阪で最高の料理は何ですか? 大阪で一番ええ料理は? What's the best way to go to Osaka from Tokyo? 東京から大阪に行くにはどんな方法 がいいですか。 東京から大阪に行くにはどんな方法 がいいですか。 I love takoyaki! たこ焼き大好き! たこ焼き好きや。 I've been to Osaka five times already and I still love going there. 私はすでに大阪に5回も行きました が、まだそこに行くのが大好きです。 私はすでに5回大阪に行ってきたけ ど、まだそこに行くのが大好きなん や。
  10. 感想 • 本当に簡単に転移学習ができる!民主化! • 少ないデータ量(数千行)、短時間で翻訳が独自モデルができる。 ◦ 0から作るためには膨大なデータが必要なので、それと比較すると非常に楽。 • インプットデータに依存する。 ◦

    楽には使えるけど結局はデータの前処理に強く依存する。 ◦ 今回だとそもそもgoogle translateで得た英語が正しくないかもしれない、とか。 • 結果が微妙だと高く感じる。 ◦ 一回14,000JPY. • モデル作成前に(時間とお金掛ける前に)ある程度スコアが分かると嬉しい 本当に誰でも使えます!ぜひ使ってみてください。 31
  11. 注意点とか • ハイパーパラメータのチューニングは今の所できない。 ◦ いつ学習止めてるか等はブラックボックス。 ◦ 学習、バリデーション、テストの割合固定。 • 翻訳は片方向で両方向したければ別途学習が必要 ◦

    今回のは英語->日本語で、日本語->英語はできない。 ◦ 日本語->日本語もできない(標準語->大阪弁は不可)。 • データのフォーマットはtsvかtmx。 • ファイルに空行があると取り込みに失敗する。 32