データサイエンティストよ、ふるえて眠れ

1 データサイエンティストよ      ふるえて眠れ           
  白金鉱業 Meetup vol.8 2019/6/11

2 自己紹介  名前：辻陽行将来の夢：天にも届くような高いビルに住むことトラウマ：高２のクラスマッチでオウンゴールを決め敗退が決まったことなりたかった職業：先生最近の悩み：不安で夜も眠れないこと Twitter: @Hyperion134 Qiita:
@Hyperion13ﬂeet 免責事項：本日の発表内容は、個人の意見であり所属組織を代表するものではありません

3 これまでの発表内容  「あったらイヤだな」をカタチにした第１回目のLT データサイエンティストの皆さまに「お分かり頂けただろう」第2回目のLT

2019年4月8-11日に開催されていたGoogleCloudNext 19 San Franciscoに参加してきたのですが、それについては特に触れず GCPNext19に参加してから不眠症気味になっている私に何が起こったかを紹介させていただきたいなと思いますあと、なんとなく語感がいいから「ふるえて眠れ」とタイトルつけたら思いの外、挑戦的なタイトルになってしまいましたが、別に誰かを攻撃するつもりはありません大事なことなのでもう一度言います
誰かを攻撃するつもりはありませんちなみに GCPNextの参加レポートなどは弊社ブログにて紹介させていただいています [宣伝] http://blog.brainpad.co.jp/

5   やばい英語が聞き取れない  Task.1

6 [症状]I can’t speak English   I can’t speak English!!!
Oh… Listening too!!! Oh… • GCPNext19のプレゼン内容が左の耳から右の耳へそのまま通り過ぎていく • そんなこともあろうかとMacの録音機能を使ってプレゼン内容を録音しておいたが、何回リピートしても未だに内容が入ってこない自覚症状困っていること • 英語への接触機会が圧倒的に足りない • 聞き取った内容が合っているのか文章で確認できるようにしたい

いったいなぜこんなことに？？

そういえば人類は元々同じ言語を喋っていたはず

彼らさえ。。。彼らさえいなければ私がこんな屈辱を味わうことはなかったはず！

バベルの塔作った責任者出てこい!!

お前のことやぞ

12 英語が聞き取れるようになりたい   まぁ、数千年前のヘブライ人に文句を言っても仕方がないので、素直に Berlitzに登録しようとかとも思ったのですが、もっと楽する方法はないかと GCPのサービスを漁ってみることに。。。

13 翻訳関連で使えそうなGCPサービス   Cloud Speech-to-Text Cloud Translation API 言語ペアの変換可能テキストを音声に変換可能
音声をテキストデータに変換可能 Cloud Text-to-Speech

14 やろうと思えばGCPでできそうなこと   やりたいこと出来そうなこと関連サービス翻訳アプリでは収まりきらないほど長いスピーチや議論を全て翻訳したい事前に録音された音声をCloud Speech-to-Textを介して
文字情報に変換するその後、Translate APIで希望の言語に変換する Cloud Speech-to-Text Translate API 古代ヘブライ人にバベルの塔を建設しないように忠告したい Translate APIで日本語からヘブライ語に変換しイラクまで行く（Cloud Text-to-Speechはヘブライ語未対応。残念） Translate API 英語のシャドーイングがちゃんと出来ているか発話内容を文字に起こしたいストリーミング型のCloud Speech-to-Textを介して変換を実施するか、バッチ実行を行う Cloud Speech-to-Text Cloud pub-sub 何かデモ的なことをやろうとも思いましたが、どの機能も翻訳アプリの要素技術であり目新しさが全くないので、どんなことが出来そうかだけまとめておきます。

15   FIFAで全然勝てない  Task.2

16 症状：ディフェンスライン？何それ？   • FIFAがシンプルに下手 • 発作的にディフェンスラインを崩す癖がある • ドイツ人に英語で「下手くそ」と煽られす
ぎて、もはややっていない自覚症状困っていること • 自分のプレイのどこに問題があるのかなんとなくしか知らないのでいまいち上手くならない

17 ちなみにこんな感じのゲーム [FIFA19]   人生の絶頂と絶望が詰め込まれた作品

18 FIFAで勝ちたい  すでにプレイするのを放棄するぐらい強くなるモチベーションは下がっているものの、9月に発売されるFIFA20に向けて練習しようかとも思ったのですが、もっと楽する方法はないかとGCPのサービスを漁ってみることに。。。

19 画像・動画関連で使えそうなGCPサービス   Cloud Vision API Cloud Video Intelligence API
動画のラベル識別などが可能一般的な物体検知や顔検出が可能 Cloud AutoML Vision ラベルを自分でつけて固有の画像認識問題を解くことが可能

20 画像・動画関連で使えそうなGCPサービス   Cloud Vision API Cloud Video Intelligence API
動画のラベル識別などが可能一般的な物体検知や顔検出が可能 Cloud AutoML Vision ラベルを自分でつけて固有の画像認識問題を解くことが可能神

21 FIFAの重要なシーンをAutoML Visionを使って判定・抽出する   PS4からYoutubeへプレイ動画をシェア動画を今度はGCSに格納 Compute Engine
Cloud AutoML Cloud Storage Cloud Storage 動画をクラウドに格納動画を画像に分割画像へのラベリング判別モデルの構築予測結果の格納外の環境 GCP この部分を試してみる【目的】まずは、ゴールやシュートが絡んでくるアタッキングサードの画像だけを正確に判別する【方法】 PS4でシェアした動画を画像に分割し、数百前後の画像に対してアタッキングサードとセンターフィールド周辺かを識別したラベルを付与し未知の画像でもちゃんと識別できるか確かめる

22 [ミニアウトプット] アタッキングサードを特定する   アタッキングサードセンターフィールド正解不正解
ラベル付与モデル作成真ん中周辺ペナルティエリア周辺 300前後の画像をラベリング [設定ラベル] attacking_third:正解 center_field:不正解 inplay:プレイ中 outplay:プレイ外 setting:設定画面ペナルティエリア周辺の画像には [attacking_third]ラベルを付与だいたい１時間くらいでモデル完成

23 [ミニアウトプット] 未知の画像でアタッキングサードを予測できるか検証   学習モデルに含まれていない画像を作成されたモデルに投入した結果

精度えぐい

25 [ミニアウトプット] 逆にcenter_fieldも正しく検出できるか検証   学習モデルに含まれていない画像を作成されたモデルに投入した結果

えぐい

27 やろうと思えばGCPでできそうなこと   やりたいこと出来そうなこと関連サービスディフェンスラインの動きをひたすら追っかける検知器を作りたい AutoML Vision(物体検出）を用いて検出したい物体を
囲った画像とラベルを用意してモデルを学習させることで実現可能 AutoML Vision フィールド上にいるプレイヤーの人数を数え上げて有利不利をウォッチしたい個人を特定しないラベル検知はVision APIで実現可能 Vision API 画像単位ではなくて、アタッキングサード周辺での動きを切り出した動画を集めてゴールに繋がった動画と繋がらなかった動画を識別したい最近、AutoML Video Intelligenceがリリースされたので動画自体にラベルを付与することが可能となり動画レベルでの識別が可能になった AutoML Video Intelligence Cloud Video Intelligence API ディフェンスの人数×ペナルティエリア内外といった複雑な状況でも識別したい画像には複数のラベルの付与が可能なため、ユーザーがラベルをつける努力を怠らなければ識別可能 AutoML Vision 翻訳アプリの要素技術となっている TranslateAPIと比べて、まだ進歩中の画像系の APIはその発展も目まぐるしいものがあります。今の GCPの機能だけで下記のようなことが実際に可能です。

28   何もかも３行で言ってほしい  Task.3

29 症状:Conclusion Comes First 症候群   • すぐに「で？」「つまり？」と言ってしまう • 学校の授業はいつも65分の内容を５分
にまとめて教えてもらい、あとは自習にして欲しいと思っていた（どうせ、覚えてないし）自覚症状困っていること • 論旨だけ知りたいと思ってしまうので、小説を楽しめない

30 「こゝろ」ってあるじゃないですか  ３０代前半の方ならご理解いただけると思うのですが、高校の現代文の授業で夏目漱石の「こゝろ」ってあったじゃないですかあれ、みなさん、意味わかりました？？いきなり下巻部分を抜粋して読まされて「私」やら「先生」が出てくるアレです。私は、授業中にすごく苦痛な思いをしたことだけを覚えているんですよね。終始、いや「私」って誰やねんと！！お前の日記読まされとんのかと！！先生ってなんの先生やねん！？ピアノか？スイミングか？と。。。でも、ある程度年齢も重ねたことだし、そろそろ純文学に触れてみるのもいいかなって思ったんです
よ。そして、今ならあの「こゝろ」も楽しく読めるようになってるんじゃないかって思ってるんですよね。

31 こゝろの背景  そもそも、授業であれを読まされた時は当時の時代背景とかがちゃんとわかっていなかったのが理解を妨げていた要因だと思うんですよね。そこで、ちゃんとこゝろを読む前に Wikipediaで予習（復習？）をしておこうと思ったんです。みなさんも一緒にこゝろが書かれた時代背景を一緒に理解しましょう！！背景漱石が乃木希典の殉死に影響を受け執筆した作品である。後期三部作とされる前作『彼岸過迄』『行人』と同様に、人間の深いところにあるエゴイズムと、人間としての倫理観との葛藤が表現されている。
明治天皇の崩御、乃木大将の殉死に象徴される時代の変化によって、「明治の精神」が批判されることを予測した漱石は、大正という新しい時代を生きるために「先生」を「明治の精神」に殉死させる。 Wikipedia「こゝろ」より抜粋

ちょっと何言ってるかわかんないっすね

33 「こゝろ」のあらすじ  この時点で私のこゝろは折れかけていたのですが、 Wikipediaは親切にもあらすじまで記載してくれていたので、せめてそれぐらいは読むことにしました。上先生と私語り手は「私」。時は明治末期。夏休みに鎌倉由比ヶ浜に海水浴に来ていた「私」は、同じく来ていた「先生」と出会い、交流を始め、東京に帰ったあとも先生の家に出入りするようになる。先生は奥さんと静かに暮らしていた。 -中略-
正月すぎに東京に戻った私は、先生に過去を打ち明けるように迫る。先生は来るべきときに過去を話すことを約束した。 -中略- 下先生と遺書「先生」の手紙。東京で大学生活を送るため「奥さん」と「お嬢さん」の家に下宿する。友人の「 K」が家族との不和で悩んでいるのを知った先生は、Kを同じ下宿に誘うが、これが大きな悲劇を生む。手紙は先生のある決意で締めくくられる。 Wikipedia「こゝろ」より抜粋

あらすじやのに話が全然見えてこんやんけ！！なんやこれ

K お前、誰や！！

36 登場人物紹介見ればなんとかなるやろ   この時点で私のこゝろは折れていたのですが、 Wikipediaは親切にも人物紹介まで記載してくれていたので、最後にそれを読むことにしました。これでKの素性も多少はわかるはず私「上　先生と私」「中　両親と私」の語り手。田舎に両親を持つ学生。兄と妹がいる。酒は飲める。喫煙者。父が腎臓の大病を患っている。将棋をする。カナメモチの葉で芝笛を作り吹き鳴らす。
先生仕事に就かず、東京に妻とひっそり暮らしている。故郷は新潟。「下　先生と遺書」で「私」として自分の生き様を語っている。酒は飲める。夫婦連れで音楽会や観劇などに行き、箱根や日光へも旅行する。語りの時点で、故人であることは上第四章で明かされる。喫煙者。 K 「下」に登場。先生とは同郷で、同じ大学に通っているが専攻は別。浄土真宗の僧侶の次男。医者の家に養子に出される。養家は医者にするつもりで東京へ送り出したが、 Kは医者になる気がなく、実家や養子先を激怒させ仕送りを止められ、困窮する。先生の他に親しい友人はいない。先生の提案で彼の下宿で一緒に生活することになる。 Wikipedia「こゝろ」より抜粋

先生まさかの無職 >仕事に就かず、

要らんわぁこの叙述トリック >「下　先生と遺書」で「私」として自分の生き様を語っている

僧侶からのK ハイカラやん >浄土真宗の僧侶の次男

無職＆無職負の無限スパイラル >先生の提案で彼の下宿で一緒に生活することになる

41 ということで、Wikipediaではよく分からなかったので   高校の授業でもWikipediaでもこゝろのことがよく分からなかったので、これはもう原典にあたるしかないのでしょう。。。幸い、こゝろは青空文庫から無料で手に入るようなので早速読み始めてみることにしたのですが、読み始めてすぐにあることに気づきましたうん、長いわぁ星新一しか小説を読んでこんかったワシにはこれは無理じゃあ
https://www.aozora.gr.jp/cards/000148/files/773_14560.html

42 こゝろを３行で説明してほしい  まぁ、頑張って最後までこゝろを読み進めようと思ったのですが、もっと楽する方法はないかとGCPのサービスを漁ってみることに。。。

43 文章（自然言語）関連で使えそうなGCPサービス   Cloud Natural Language API 様々な言語での感情分析や構文分析が可能 Cloud
Natural Language APIには構文解析や感情分析の機能はあっても、直接文章を要約するような機能はなさそううーむ、なんでも出来るわけではないのね。。。ここは少し方向性を変えて、最終章における先生の気持ちを AIに読み取らせてみよう

44 [ミニアウトプット]こゝろの最終章のうち感情の動きの大きい文章を抜粋   最もポジティブな文章最もネガティブな文章 Score Magnitude 最もニュートラルな文章ささっと試せるデモAPIで最終章の文章を解析 Scoreがプラスならポジティブ、マイナスならネガティブ

基準がわからん！！先生、情緒不安定すぎです

46 GCPのAI系サービスだけで文章の要約を行うのはハードルは高そう   Cloud Natural Language APIによって構文解析やミニアウトプットのような感情分析は簡単にできることはわかりましたが（先生の気持ちを正確に汲み取れていたかは読んでいないので私にもわかりません）、本来目的としていた文章の要約といった部分は別のアルゴリズムを導入する必要がありそうです。パッと調べた限り
IMAKITA A3RT あたりが文章要約をやってくれるらしい。今度試してみよう。

47   AutoML Tablesあったら  いらない子になっちゃう？  Task.4

48 症状:AIに仕事を奪われる恐怖からくる不眠症   • Kagglerのようにいろんなアルゴリズムを試したり組み合わせたりして日々研鑽している自覚はない • ハイパーパラメータのチューニングやモデルの選択、FeatureEnbeddingなども
熱心にやっているとは言えない自覚症状困っていること • GCP19で発表されたAutoMLTablesが凄そうだったので、職にあぶれないか心配で夜も眠れない

49 AutoML Tablesとは  [検証記事] • AutoML Tablesを使ってみた • KaggleのHousePredictionを題材にしてAutoML Tablesがどんなもんか見てみる
• AutoML Tablesと他の機械学習モデルとのパフォーマンス比較をしてみた（追記あり）   [設定画面イメージ] 表形式のデータマートが用意されていれば、 Targetと評価関数・特徴量の型を定義するだけで機械学習の知識がなくても高精度なモデルが作れてしまうサービス（なんとえげつない） [評価画面イメージ]

50 KaggleにあるHousePricePredictionで検証してみたら   GCPNextで発表を聞いた後、「これはいよいよ、やばいかもしれん」と思い自分でも AutoML Tablesがどの程度の精度が出るのか検証してみました。複雑な特徴量加工が必要なケースだと検証に利用するにはしんどいので、すぐに手に入れることができるHousePriceのDataを利用することに。。。 (他にも同じデータでやってる人いたことに後から気
づきました) モデル以外の部分はイーブンな評価になるようにしたいので、特徴量加工を済ませた完全に同じデータマートを用いて ①パラメータ調整済みの複数の学習器をスタッキングしたモデル ②AutoML Tablesにお任せしたモデルの2つの出力をサブミットしてどんな結果になるかを確認します。

Score:0.11544 順位:424 / 4589 スタッキングモデル＊LeaderBoardをキャプチャ

Score:0.15273 順位:3110 / 4589 AutoML Tables ＊LeaderBoardをキャプチャ

ふぅーーー他の検証結果と同様、ちゃんとチューニングしたらまだ勝てそう＊モデルの複雑さの割にサンプルが少ないので AutoMLは過学習している可能性あり

54 AutoML Tablesはデータサイエンティスト絶対殺すマンなのか   色々検証いただいている方々のお話をまとめると • 十分なデータボリュームが確保されているデータセットであれば、過学習を起こさずにある程度精度の高いモデルが作れるらしい •
問題設定さえはっきりしておけば、いわゆるデータサイエンティストでなくても機械学習モデルを作成・デプロイすることが容易にできるということになるかと思います。じゃあ、これでデータサイエンティストはお払い箱なのかというと、特徴量の作成自体は分析者自身で実施しなければならず、どれだけ AutoML Tablesの精度がよくても分析の設計部分に関わるところにはデータサイエンティストが今後も必要とされると思われます。むしろ、私のようにモデルのチューニングの部分にあまり興味のないデータサイエンティストにとっては天の恵みのようなサービスデプロイや運用にかかる改修コストを考えると自分でモデルを管理しなくていいので、その点も個人的には非常に魅力的

55   まとめ 

56 データサイエンティストの仕事はかなりGCPで代替できそう   今回はGCPが提供するサービスの一部を紹介しましたが、改めて調べてみると我々データサイエンティストの仕事だと思われていたかなりの領域がいつの間にか GCPのサービスを使えば非データサイエンティストによる代替が可能になっていることに気づかされました。まぁ、実際のビジネスにおいてはそれぞれのサービスの APIの仕様をちゃんと理解している必要があったり、GCPのサービスでは現状解決できない課題（今回の例でいえば、文章要約や精度改善のための
Featureの作成・探索など）も含めて解決していかなければならないため、データサイエンティストは今とは違う形で忙しくなるかもしれません。必要に応じて、クラウドサービスを利用するか自らモデルの開発を実施するかをジャッジしながら仕事を進めていくことがこれからのデータサイエンティストには求められてくるのかもしれません。（そんな人材がいるかどうかは知りませんが。。。）

57 雑記  今回、全くと言っていいほど触れませんでしたが、 GCPNext に参加して強烈に印象に残ったことは、モデリングの手法やアーキテクチャのコモディティ化がこれだけ早いのであれば、企業が競争優位を保つ源泉になるのは「どんなデータを保有しているか」にかかっているのでは？ということでした。 AutoML
Visionを使って風力発電装置の故障を画像から検知するPJや衛星画像から災害を予測する PJなどいろんな PJがGCPNextのセッションで紹介されましたが、これらは結局ドローンで発電装置を撮影することができて（衛星で地上の様子を撮影することができて）初めて成立する話です。１、2年前はIoTと聞くと胡散臭く感じている自分もいましたが、今はIoTに対する投資って本当に重要なんじゃ。。。と思い始めています。つまらない話をしました。以上です。

データサイエンティストよ、ふるえて眠れ

データサイエンティストよ、ふるえて眠れ

Other Decks in Technology

Featured

Transcript