2018/12/1に行われたKaggle Meetup Tokyo LTの資料です。
日本初の競技機械学習大会“Cpaw AI Competition”の運営Kaggle Tokyo Meetup #5 LT 2018.12.1しゅんけー (@shunk031)1
View Slide
自己紹介● 北田 俊輔 (Shunsuke KITADA)@shunk031 shunk031○ 法政大学 理工学研究科 M1 彌冨研 所属■ 文字形状に着目したCJK自然言語処理■ 皮膚障害画像を用いた自動診断システムの構築■ 広告自動生成に向けた基礎研究○ opt (現SIGNATE) ユニクロコン 学生賞受賞○ Kaggleは初心者です2
3日本初の競技機械学習大会“Cpaw AI Competition”の運営
4日本初の競技機械学習大会“Cpaw AI Competition”の運営リアルタイム
Cpaw (シーパウ)とは● 工学院大学・法政大学の学生で立ち上げたIT団体○ 月1回でLT大会を開催■ CpawLT / CpawLT Night○ セキュリティコンテストの運営■ CpawCTF https://ctf.cpaw.site/○ オープンソースカンファレンスへの出展■ 走る!自動販売機 IoTロボットアーム○ CpawでHackU最優秀賞を授与■ Cash Box - 顔認証・音声認識搭載 スマートボックス5
Cpaw AI Competition (CpawAIC) とは● 日本初の ”リアルタイム” 競技機械学習大会○ Cpaw主催・全脳アーキテクチャ若手の会*共催○ 限られた時間内で様々なデータセットの識別器を構築○ 構築した識別器をもとに精度 (accuracy) を競う○ 競技終了後に上位者表彰 (景品贈呈) & 作問者から問題の解説6 *全脳アーキテクチャ若手の会 https://wbawakate.jp/
CpawAICの競技概要● 競技の流れ1. 複数種類のトレーニングセットとテストセットが与えられる2. 与えられたトレーニングセットを用いて識別器を構築3. テストデータに対して予測を行い、スコアサーバーに提出● 競技環境○ スポンサーのさくらインターネット様からご提供いただいた12Core・96GB RAMのハイスペックマシン● 競技時間○ 5時間程度7
CpawAICの問題概要8● 第1回大会● 古代文字の分類 画像● ファッションアイテムの分類 画像● 芸能人ブログ記事の分類 自然言語● マルウェアの分類 JSON形式● 悪意のあるURLの分類 文字列
CpawAICの問題概要9● 第2回大会● One-shot Omniglot 画像● じゃんけんの手分類 画像● ラベルシャッフルCIFAR100 画像● プログラミング言語判定 文字列
CpawAICの問題概要10● 第3回大会● 立っている指の本数を分類 画像● 航空写真のスペクトル分類 画像● 観光地情報を用いた分類 テーブル
CpawAICの問題概要11● 第3回大会● 立っている指の本数を分類 画像● 航空写真のスペクトル分類 画像● 観光地情報を用いた分類 テーブル正直エグい量の問題を出してると反省しています
CpawAICの運営● 運営メンバーと大会開催までの道のり● 競技用データセットの作成● スコアサーバーの開発● CpawAICのスポンサー様12
CpawAICの運営● 運営メンバーと大会開催までの道のり○ 学生 4人程度・社会人 2人程度■ 運営メンバー全員が機械学習のバックグラウンドあり○ プロジェクトマネージャーを立てて運営計画を実行■ 半年ごとに開催をベースに計画を立てる● 競技用データセットの提案と作成● スコアサーバーの開発● プレコンペの実施とその振り返り● 開催場所の調整と準備13
CpawAIC競技用データセットの作成● データセットはCIで チェック & 動作確認 を自動化○ 元データ取得スクリプト○ データセット生成スクリプト○ トレーニングセットのファイル名○ ディレクトリ構成のチェック○ 正解データのフォーマット14競技用データセットの整合性を保つ人手を必要としないデータセットの整備
CpawAICスコアサーバーの作成・運用● Golang Revel & Vue.js 構成のスコアサーバー○ 管理画面○ ユーザー認証○ 問題一覧○ リーダーボード○ 解答ファイル管理15
CpawAICのスポンサー様● 複数の企業様がスポンサーとして協力 (順不同)○ さくらインターネット株式会社 様○ 株式会社インターネットイニシアティブ 様○ 株式会社いい生活 様○ 株式会社サイバーエージェント 様● スポンサーになるメリット○ 優秀な機械学習人材の発見■ 参加学生がスポンサー企業にインターンに行く事例も有○ スポンサーセッションでの会社紹介16
CpawAICのスポンサー様● 様々な種類のスポンサーを募集しております○ 1日会場レンタル費用 (50人以上収容可能)○ 参加者分の計算機 (サーバー) レンタル費用○ 大会後の懇親会費用● スポンサー特典○ イベントでのノベルティ配布○ スポンサーセッションでの会社紹介プレゼン枠 等17詳しくは以下のリンクを御覧くださいhttps://www.cpaw.site/cpaw-sponser/
CpawAICの改善点● 競技データセットの作成改善○ 競技データセット作成が高コスト■ 既存データセットをアレンジして出題したい○ 配布用データと正解データの不整合■ 整合性をCIでチェックする機構を追加したい■ データセットのデプロイまでをCIでやらせたい● さらなるスコアサーバーの開発○ Private LB機能がまだないです○ スコアサーバー開発の人材不足が深刻です18
CpawAICの今後● 分類問題以外の問題の作成 (回帰・ランキング予想)● オフラインで大会の過去問を解けるように公開● 企業のデータセットを使った大会の開催○ セキュリティのノウハウもあるので「セキュリティ x AI」等● ご協力いただける運営メンバー・スポンサーを増やしたい● 機械学習の習熟度別で大会を開催● Kaggler-ja と協力したイベントの開催19