日本初の競技機械学習大会 Cpaw AI Competition の運営 / About Cpaw AI Competition in Kaggle Meetup Tokyo
by
Shunsuke KITADA
Link
Embed
Share
Beginning
This slide
Copy link URL
Copy link URL
Copy iframe embed code
Copy iframe embed code
Copy javascript embed code
Copy javascript embed code
Share
Tweet
Share
Tweet
Slide 1
Slide 1 text
日本初の競技機械学習大会 “Cpaw AI Competition”の運営 Kaggle Tokyo Meetup #5 LT 2018.12.1 しゅんけー (@shunk031) 1
Slide 2
Slide 2 text
自己紹介 ● 北田 俊輔 (Shunsuke KITADA) @shunk031 shunk031 ○ 法政大学 理工学研究科 M1 彌冨研 所属 ■ 文字形状に着目したCJK自然言語処理 ■ 皮膚障害画像を用いた自動診断システムの構築 ■ 広告自動生成に向けた基礎研究 ○ opt (現SIGNATE) ユニクロコン 学生賞受賞 ○ Kaggleは初心者です 2
Slide 3
Slide 3 text
3 日本初の競技機械学習大会 “Cpaw AI Competition”の運営
Slide 4
Slide 4 text
4 日本初の競技機械学習大会 “Cpaw AI Competition”の運営 リアルタイム
Slide 5
Slide 5 text
Cpaw (シーパウ) とは ● 工学院大学・法政大学の学生で立ち上げたIT団体 ○ 月1回でLT大会を開催 ■ CpawLT / CpawLT Night ○ セキュリティコンテストの運営 ■ CpawCTF https://ctf.cpaw.site/ ○ オープンソースカンファレンスへの出展 ■ 走る!自動販売機 IoTロボットアーム ○ CpawでHackU最優秀賞を授与 ■ Cash Box - 顔認証・音声認識搭載 スマートボックス 5
Slide 6
Slide 6 text
Cpaw AI Competition (CpawAIC) とは ● 日本初の ”リアルタイム” 競技機械学習大会 ○ Cpaw主催・全脳アーキテクチャ若手の会*共催 ○ 限られた時間内で様々なデータセットの識別器を構築 ○ 構築した識別器をもとに精度 (accuracy) を競う ○ 競技終了後に上位者表彰 (景品贈呈) & 作問者から問題の解説 6 *全脳アーキテクチャ若手の会 https://wbawakate.jp/
Slide 7
Slide 7 text
CpawAICの競技概要 ● 競技の流れ 1. 複数種類のトレーニングセットとテストセットが与えられる 2. 与えられたトレーニングセットを用いて識別器を構築 3. テストデータに対して予測を行い、スコアサーバーに提出 ● 競技環境 ○ スポンサーのさくらインターネット様からご提供いただいた 12Core・96GB RAMのハイスペックマシン ● 競技時間 ○ 5時間程度 7
Slide 8
Slide 8 text
CpawAICの問題概要 8 ● 第1回大会 ● 古代文字の分類 画像 ● ファッションアイテムの分類 画像 ● 芸能人ブログ記事の分類 自然言語 ● マルウェアの分類 JSON形式 ● 悪意のあるURLの分類 文字列
Slide 9
Slide 9 text
CpawAICの問題概要 9 ● 第2回大会 ● One-shot Omniglot 画像 ● じゃんけんの手分類 画像 ● ラベルシャッフルCIFAR100 画像 ● プログラミング言語判定 文字列
Slide 10
Slide 10 text
CpawAICの問題概要 10 ● 第3回大会 ● 立っている指の本数を分類 画像 ● 航空写真のスペクトル分類 画像 ● 観光地情報を用いた分類 テーブル
Slide 11
Slide 11 text
CpawAICの問題概要 11 ● 第3回大会 ● 立っている指の本数を分類 画像 ● 航空写真のスペクトル分類 画像 ● 観光地情報を用いた分類 テーブル 正直エグい量の問題を出してると反省しています
Slide 12
Slide 12 text
CpawAICの運営 ● 運営メンバーと大会開催までの道のり ● 競技用データセットの作成 ● スコアサーバーの開発 ● CpawAICのスポンサー様 12
Slide 13
Slide 13 text
CpawAICの運営 ● 運営メンバーと大会開催までの道のり ○ 学生 4人程度・社会人 2人程度 ■ 運営メンバー全員が機械学習のバックグラウンドあり ○ プロジェクトマネージャーを立てて運営計画を実行 ■ 半年ごとに開催をベースに計画を立てる ● 競技用データセットの提案と作成 ● スコアサーバーの開発 ● プレコンペの実施とその振り返り ● 開催場所の調整と準備 13
Slide 14
Slide 14 text
CpawAIC競技用データセットの作成 ● データセットはCIで チェック & 動作確認 を自動化 ○ 元データ取得スクリプト ○ データセット生成スクリプト ○ トレーニングセットのファイル名 ○ ディレクトリ構成のチェック ○ 正解データのフォーマット 14 競技用データセットの整合性を保つ 人手を必要としないデータセットの整備
Slide 15
Slide 15 text
CpawAICスコアサーバーの作成・運用 ● Golang Revel & Vue.js 構成のスコアサーバー ○ 管理画面 ○ ユーザー認証 ○ 問題一覧 ○ リーダーボード ○ 解答ファイル管理 15
Slide 16
Slide 16 text
CpawAICのスポンサー様 ● 複数の企業様がスポンサーとして協力 (順不同) ○ さくらインターネット株式会社 様 ○ 株式会社インターネットイニシアティブ 様 ○ 株式会社いい生活 様 ○ 株式会社サイバーエージェント 様 ● スポンサーになるメリット ○ 優秀な機械学習人材の発見 ■ 参加学生がスポンサー企業にインターンに行く事例も有 ○ スポンサーセッションでの会社紹介 16
Slide 17
Slide 17 text
CpawAICのスポンサー様 ● 様々な種類のスポンサーを募集しております ○ 1日会場レンタル費用 (50人以上収容可能) ○ 参加者分の計算機 (サーバー) レンタル費用 ○ 大会後の懇親会費用 ● スポンサー特典 ○ イベントでのノベルティ配布 ○ スポンサーセッションでの会社紹介プレゼン枠 等 17 詳しくは以下のリンクを御覧ください https://www.cpaw.site/cpaw-sponser/
Slide 18
Slide 18 text
CpawAICの改善点 ● 競技データセットの作成改善 ○ 競技データセット作成が高コスト ■ 既存データセットをアレンジして出題したい ○ 配布用データと正解データの不整合 ■ 整合性をCIでチェックする機構を追加したい ■ データセットのデプロイまでをCIでやらせたい ● さらなるスコアサーバーの開発 ○ Private LB機能がまだないです ○ スコアサーバー開発の人材不足が深刻です 18
Slide 19
Slide 19 text
CpawAICの今後 ● 分類問題以外の問題の作成 (回帰・ランキング予想) ● オフラインで大会の過去問を解けるように公開 ● 企業のデータセットを使った大会の開催 ○ セキュリティのノウハウもあるので「セキュリティ x AI」等 ● ご協力いただける運営メンバー・スポンサーを増やしたい ● 機械学習の習熟度別で大会を開催 ● Kaggler-ja と協力したイベントの開催 19