Slide 1

Slide 1 text

日本初の競技機械学習大会 “Cpaw AI Competition”の運営 Kaggle Tokyo Meetup #5 LT 2018.12.1 しゅんけー (@shunk031) 1

Slide 2

Slide 2 text

自己紹介 ● 北田 俊輔 (Shunsuke KITADA) @shunk031 shunk031 ○ 法政大学 理工学研究科 M1 彌冨研 所属 ■ 文字形状に着目したCJK自然言語処理 ■ 皮膚障害画像を用いた自動診断システムの構築 ■ 広告自動生成に向けた基礎研究 ○ opt (現SIGNATE) ユニクロコン 学生賞受賞 ○ Kaggleは初心者です 2

Slide 3

Slide 3 text

3 日本初の競技機械学習大会 “Cpaw AI Competition”の運営

Slide 4

Slide 4 text

4 日本初の競技機械学習大会 “Cpaw AI Competition”の運営 リアルタイム

Slide 5

Slide 5 text

Cpaw (シーパウ) とは ● 工学院大学・法政大学の学生で立ち上げたIT団体 ○ 月1回でLT大会を開催 ■ CpawLT / CpawLT Night ○ セキュリティコンテストの運営 ■ CpawCTF https://ctf.cpaw.site/ ○ オープンソースカンファレンスへの出展 ■ 走る!自動販売機 IoTロボットアーム ○ CpawでHackU最優秀賞を授与 ■ Cash Box - 顔認証・音声認識搭載 スマートボックス 5

Slide 6

Slide 6 text

Cpaw AI Competition (CpawAIC) とは ● 日本初の ”リアルタイム” 競技機械学習大会 ○ Cpaw主催・全脳アーキテクチャ若手の会*共催 ○ 限られた時間内で様々なデータセットの識別器を構築 ○ 構築した識別器をもとに精度 (accuracy) を競う ○ 競技終了後に上位者表彰 (景品贈呈) & 作問者から問題の解説 6 *全脳アーキテクチャ若手の会 https://wbawakate.jp/

Slide 7

Slide 7 text

CpawAICの競技概要 ● 競技の流れ 1. 複数種類のトレーニングセットとテストセットが与えられる 2. 与えられたトレーニングセットを用いて識別器を構築 3. テストデータに対して予測を行い、スコアサーバーに提出 ● 競技環境 ○ スポンサーのさくらインターネット様からご提供いただいた 12Core・96GB RAMのハイスペックマシン ● 競技時間 ○ 5時間程度 7

Slide 8

Slide 8 text

CpawAICの問題概要 8 ● 第1回大会 ● 古代文字の分類 画像 ● ファッションアイテムの分類 画像 ● 芸能人ブログ記事の分類 自然言語 ● マルウェアの分類 JSON形式 ● 悪意のあるURLの分類 文字列

Slide 9

Slide 9 text

CpawAICの問題概要 9 ● 第2回大会 ● One-shot Omniglot 画像 ● じゃんけんの手分類 画像 ● ラベルシャッフルCIFAR100 画像 ● プログラミング言語判定 文字列

Slide 10

Slide 10 text

CpawAICの問題概要 10 ● 第3回大会 ● 立っている指の本数を分類 画像 ● 航空写真のスペクトル分類 画像 ● 観光地情報を用いた分類 テーブル

Slide 11

Slide 11 text

CpawAICの問題概要 11 ● 第3回大会 ● 立っている指の本数を分類 画像 ● 航空写真のスペクトル分類 画像 ● 観光地情報を用いた分類 テーブル 正直エグい量の問題を出してると反省しています 

Slide 12

Slide 12 text

CpawAICの運営 ● 運営メンバーと大会開催までの道のり ● 競技用データセットの作成 ● スコアサーバーの開発 ● CpawAICのスポンサー様 12

Slide 13

Slide 13 text

CpawAICの運営 ● 運営メンバーと大会開催までの道のり ○ 学生 4人程度・社会人 2人程度 ■ 運営メンバー全員が機械学習のバックグラウンドあり ○ プロジェクトマネージャーを立てて運営計画を実行 ■ 半年ごとに開催をベースに計画を立てる ● 競技用データセットの提案と作成 ● スコアサーバーの開発 ● プレコンペの実施とその振り返り ● 開催場所の調整と準備 13

Slide 14

Slide 14 text

CpawAIC競技用データセットの作成 ● データセットはCIで チェック & 動作確認 を自動化 ○ 元データ取得スクリプト ○ データセット生成スクリプト ○ トレーニングセットのファイル名 ○ ディレクトリ構成のチェック ○ 正解データのフォーマット 14 競技用データセットの整合性を保つ 人手を必要としないデータセットの整備

Slide 15

Slide 15 text

CpawAICスコアサーバーの作成・運用 ● Golang Revel & Vue.js 構成のスコアサーバー ○ 管理画面 ○ ユーザー認証 ○ 問題一覧 ○ リーダーボード ○ 解答ファイル管理 15

Slide 16

Slide 16 text

CpawAICのスポンサー様 ● 複数の企業様がスポンサーとして協力 (順不同) ○ さくらインターネット株式会社 様 ○ 株式会社インターネットイニシアティブ 様 ○ 株式会社いい生活 様 ○ 株式会社サイバーエージェント 様 ● スポンサーになるメリット ○ 優秀な機械学習人材の発見 ■ 参加学生がスポンサー企業にインターンに行く事例も有 ○ スポンサーセッションでの会社紹介 16

Slide 17

Slide 17 text

CpawAICのスポンサー様 ● 様々な種類のスポンサーを募集しております ○ 1日会場レンタル費用 (50人以上収容可能) ○ 参加者分の計算機 (サーバー) レンタル費用 ○ 大会後の懇親会費用 ● スポンサー特典 ○ イベントでのノベルティ配布 ○ スポンサーセッションでの会社紹介プレゼン枠 等 17 詳しくは以下のリンクを御覧ください https://www.cpaw.site/cpaw-sponser/

Slide 18

Slide 18 text

CpawAICの改善点 ● 競技データセットの作成改善 ○ 競技データセット作成が高コスト ■ 既存データセットをアレンジして出題したい ○ 配布用データと正解データの不整合 ■ 整合性をCIでチェックする機構を追加したい ■ データセットのデプロイまでをCIでやらせたい ● さらなるスコアサーバーの開発 ○ Private LB機能がまだないです ○ スコアサーバー開発の人材不足が深刻です 18

Slide 19

Slide 19 text

CpawAICの今後 ● 分類問題以外の問題の作成 (回帰・ランキング予想) ● オフラインで大会の過去問を解けるように公開 ● 企業のデータセットを使った大会の開催 ○ セキュリティのノウハウもあるので「セキュリティ x AI」等 ● ご協力いただける運営メンバー・スポンサーを増やしたい ● 機械学習の習熟度別で大会を開催 ● Kaggler-ja と協力したイベントの開催 19