$30 off During Our Annual Pro Sale. View Details »

日本初の競技機械学習大会 Cpaw AI Competition の運営 / About Cpaw AI Competition in Kaggle Meetup Tokyo

日本初の競技機械学習大会 Cpaw AI Competition の運営 / About Cpaw AI Competition in Kaggle Meetup Tokyo

2018/12/1に行われたKaggle Meetup Tokyo LTの資料です。

Shunsuke KITADA

December 01, 2018
Tweet

More Decks by Shunsuke KITADA

Other Decks in Technology

Transcript

  1. 日本初の競技機械学習大会
    “Cpaw AI Competition”の運営
    Kaggle Tokyo Meetup #5 LT 2018.12.1
    しゅんけー (@shunk031)
    1

    View Slide

  2. 自己紹介
    ● 北田 俊輔 (Shunsuke KITADA)
    @shunk031 shunk031
    ○ 法政大学 理工学研究科 M1 彌冨研 所属
    ■ 文字形状に着目したCJK自然言語処理
    ■ 皮膚障害画像を用いた自動診断システムの構築
    ■ 広告自動生成に向けた基礎研究
    ○ opt (現SIGNATE) ユニクロコン 学生賞受賞
    ○ Kaggleは初心者です
    2

    View Slide

  3. 3
    日本初の競技機械学習大会
    “Cpaw AI Competition”の運営

    View Slide

  4. 4
    日本初の競技機械学習大会
    “Cpaw AI Competition”の運営
    リアルタイム

    View Slide

  5. Cpaw (シーパウ)
    とは
    ● 工学院大学・法政大学の学生で立ち上げたIT団体
    ○ 月1回でLT大会を開催
    ■ CpawLT / CpawLT Night
    ○ セキュリティコンテストの運営
    ■ CpawCTF https://ctf.cpaw.site/
    ○ オープンソースカンファレンスへの出展
    ■ 走る!自動販売機 IoTロボットアーム
    ○ CpawでHackU最優秀賞を授与
    ■ Cash Box - 顔認証・音声認識搭載 スマートボックス
    5

    View Slide

  6. Cpaw AI Competition (CpawAIC) とは
    ● 日本初の ”リアルタイム” 競技機械学習大会
    ○ Cpaw主催・全脳アーキテクチャ若手の会*共催
    ○ 限られた時間内で様々なデータセットの識別器を構築
    ○ 構築した識別器をもとに精度 (accuracy) を競う
    ○ 競技終了後に上位者表彰 (景品贈呈) & 作問者から問題の解説
    6 *全脳アーキテクチャ若手の会 https://wbawakate.jp/

    View Slide

  7. CpawAICの競技概要
    ● 競技の流れ
    1. 複数種類のトレーニングセットとテストセットが与えられる
    2. 与えられたトレーニングセットを用いて識別器を構築
    3. テストデータに対して予測を行い、スコアサーバーに提出
    ● 競技環境
    ○ スポンサーのさくらインターネット様からご提供いただいた
    12Core・96GB RAMのハイスペックマシン
    ● 競技時間
    ○ 5時間程度
    7

    View Slide

  8. CpawAICの問題概要
    8
    ● 第1回大会
    ● 古代文字の分類 画像
    ● ファッションアイテムの分類 画像
    ● 芸能人ブログ記事の分類 自然言語
    ● マルウェアの分類 JSON形式
    ● 悪意のあるURLの分類 文字列

    View Slide

  9. CpawAICの問題概要
    9
    ● 第2回大会
    ● One-shot Omniglot 画像
    ● じゃんけんの手分類 画像
    ● ラベルシャッフルCIFAR100 画像
    ● プログラミング言語判定 文字列

    View Slide

  10. CpawAICの問題概要
    10
    ● 第3回大会
    ● 立っている指の本数を分類 画像
    ● 航空写真のスペクトル分類 画像
    ● 観光地情報を用いた分類 テーブル

    View Slide

  11. CpawAICの問題概要
    11
    ● 第3回大会
    ● 立っている指の本数を分類 画像
    ● 航空写真のスペクトル分類 画像
    ● 観光地情報を用いた分類 テーブル
    正直エグい量の問題を出してると反省しています 

    View Slide

  12. CpawAICの運営
    ● 運営メンバーと大会開催までの道のり
    ● 競技用データセットの作成
    ● スコアサーバーの開発
    ● CpawAICのスポンサー様
    12

    View Slide

  13. CpawAICの運営
    ● 運営メンバーと大会開催までの道のり
    ○ 学生 4人程度・社会人 2人程度
    ■ 運営メンバー全員が機械学習のバックグラウンドあり
    ○ プロジェクトマネージャーを立てて運営計画を実行
    ■ 半年ごとに開催をベースに計画を立てる
    ● 競技用データセットの提案と作成
    ● スコアサーバーの開発
    ● プレコンペの実施とその振り返り
    ● 開催場所の調整と準備
    13

    View Slide

  14. CpawAIC競技用データセットの作成
    ● データセットはCIで チェック & 動作確認 を自動化
    ○ 元データ取得スクリプト
    ○ データセット生成スクリプト
    ○ トレーニングセットのファイル名
    ○ ディレクトリ構成のチェック
    ○ 正解データのフォーマット
    14
    競技用データセットの整合性を保つ
    人手を必要としないデータセットの整備

    View Slide

  15. CpawAICスコアサーバーの作成・運用
    ● Golang Revel & Vue.js 構成のスコアサーバー
    ○ 管理画面
    ○ ユーザー認証
    ○ 問題一覧
    ○ リーダーボード
    ○ 解答ファイル管理
    15

    View Slide

  16. CpawAICのスポンサー様
    ● 複数の企業様がスポンサーとして協力 (順不同)
    ○ さくらインターネット株式会社 様
    ○ 株式会社インターネットイニシアティブ 様
    ○ 株式会社いい生活 様
    ○ 株式会社サイバーエージェント 様
    ● スポンサーになるメリット
    ○ 優秀な機械学習人材の発見
    ■ 参加学生がスポンサー企業にインターンに行く事例も有
    ○ スポンサーセッションでの会社紹介
    16

    View Slide

  17. CpawAICのスポンサー様
    ● 様々な種類のスポンサーを募集しております
    ○ 1日会場レンタル費用 (50人以上収容可能)
    ○ 参加者分の計算機 (サーバー) レンタル費用
    ○ 大会後の懇親会費用
    ● スポンサー特典
    ○ イベントでのノベルティ配布
    ○ スポンサーセッションでの会社紹介プレゼン枠 等
    17
    詳しくは以下のリンクを御覧ください
    https://www.cpaw.site/cpaw-sponser/

    View Slide

  18. CpawAICの改善点
    ● 競技データセットの作成改善
    ○ 競技データセット作成が高コスト
    ■ 既存データセットをアレンジして出題したい
    ○ 配布用データと正解データの不整合
    ■ 整合性をCIでチェックする機構を追加したい
    ■ データセットのデプロイまでをCIでやらせたい
    ● さらなるスコアサーバーの開発
    ○ Private LB機能がまだないです
    ○ スコアサーバー開発の人材不足が深刻です
    18

    View Slide

  19. CpawAICの今後
    ● 分類問題以外の問題の作成 (回帰・ランキング予想)
    ● オフラインで大会の過去問を解けるように公開
    ● 企業のデータセットを使った大会の開催
    ○ セキュリティのノウハウもあるので「セキュリティ x AI」等
    ● ご協力いただける運営メンバー・スポンサーを増やしたい
    ● 機械学習の習熟度別で大会を開催
    ● Kaggler-ja と協力したイベントの開催
    19

    View Slide