Upgrade to Pro — share decks privately, control downloads, hide ads and more …

Sansanデータ分析コンテスト第2位入賞 kanosuke様

sansan_rd
October 31, 2016

Sansanデータ分析コンテスト第2位入賞 kanosuke様

『人工知能は名刺をどこまで解読できるのか』
2016年8月8日~9月30日まで行われた、データ分析コンテスト第2位を獲得されたkanosuke様の手法です。

http://jp.corp-sansan.com/lp/data-sientist-c.html

sansan_rd

October 31, 2016
Tweet

More Decks by sansan_rd

Other Decks in Programming

Transcript

  1. データ探索 1. レンジ変数(left, top ・・・) a. trainデータでは良く効く / test(リーダーボード)では効かない b.

    train vs test の識別モデルを構築、レンジ変数だけでROCが0.9を大幅に超える c. 効果× むしろ入れるとスコアが下がる 2. OCR+テキストマイニング a. 単語抽出、マルチバイト文字抽出 b. 効果◎ 3. カットオフ
  2. 特徴量作成 1. 重要単語フラグ a. OCR ⇒ 分かち書き ⇒ DTM ⇒

    xgboost ⇒ importance確認 2. マルチバイト文字フラグ a. OCR ⇒ マルチバイト文字抽出 3. HOG特徴量 a. チュートリアルで提供されているHOG特徴量
  3. モデル構築:xgboost 特徴量別にモデル構築(特徴量別に作成しているのはマシンスペックの問題による) 1. y ~ 重要単語フラグ 2. y ~ マルチバイト文字フラグ

    3. y ~ HOG特徴量 y : company, name, ・・・ ラベル別に9パターン 各特徴量(3種類)×ラベル数(9ラベル)の27モデルを構築