Sansanデータ分析コンテスト第2位入賞 kanosuke様

kanosuke_model OCR+textmining+xgb+dl # 0.00045 kanosuke

@kanosuke 会社員ネイチャーインサイト株式会社 SASを使用したシステム開発得意言語 R kaggle competitions expert silver
1 bronze 1

コンペ参加における自分なりのテーマ分析マシンが限界か？検証４年前に３万円で構築したスペックの低いPC python, 自然言語処理の技術向上画像認識・deep learningの経験なし、試してみたい巷で話題のxgb+deep learningを試してみたい賞金がほしい

使用ツール 1. OCR: tesseract-ocr 2. mecab 3. R 4. python

データ探索 1. レンジ変数（left, top ・・・） a. trainデータでは良く効く / test(リーダーボード)では効かない b.
train vs test の識別モデルを構築、レンジ変数だけでROCが0.9を大幅に超える c. 効果× むしろ入れるとスコアが下がる 2. OCR＋テキストマイニング a. 単語抽出、マルチバイト文字抽出 b. 効果◎ 3. カットオフ

特徴量作成 1. 重要単語フラグ a. OCR ⇒ 分かち書き ⇒ DTM ⇒
xgboost ⇒ importance確認 2. マルチバイト文字フラグ a. OCR ⇒ マルチバイト文字抽出 3. HOG特徴量 a. チュートリアルで提供されているHOG特徴量

モデル構築：xgboost 特徴量別にモデル構築（特徴量別に作成しているのはマシンスペックの問題による） 1. y ~ 重要単語フラグ 2. y ~ マルチバイト文字フラグ
3. y ~ HOG特徴量 y : company, name, ・・・ラベル別に９パターン各特徴量（３種類）×ラベル数（９ラベル）の２７モデルを構築

モデル構築：deep learning これは、サイトで紹介していただいたものをほぼそのまま後述するモデルブレンド時にオーバーフィッティングしない様に改造した程度

モデル構築：ブレンド（スタッキング） xgboost : 単語 xgboost : 文字 xgboost : HOG
Deep Learning xgboost : ブレンド

カットオフ、名詞単位ルール、サブミットデータ 1. ブレンドモデルの予測値 2. カットオフ値による０１変換（９種類のラベル別にカットオフ値を設定） 3. 名詞単位ルールによりフラグ立て or フラグ削除
4. サブミットデータ完成

楽しいコンペで勉強にもなってとても有意義でした。ありがとうございました。

Sansanデータ分析コンテスト第2位入賞 kanosuke様

Sansanデータ分析コンテスト第2位入賞 kanosuke様

sansan_rd

More Decks by sansan_rd

Other Decks in Programming

Featured

Transcript

kanosuke_model OCR+textmining+xgb+dl # 0.00045 kanosuke

@kanosuke 会社員ネイチャーインサイト株式会社 SASを使用したシステム開発得意言語 R kaggle competitions expert silver

使用ツール 1. OCR: tesseract-ocr 2. mecab 3. R 4. python

データ探索 1. レンジ変数（left, top ・・・） a. trainデータでは良く効く / test(リーダーボード)では効かない b.

特徴量作成 1. 重要単語フラグ a. OCR ⇒ 分かち書き ⇒ DTM ⇒

モデル構築：xgboost 特徴量別にモデル構築（特徴量別に作成しているのはマシンスペックの問題による） 1. y ~ 重要単語フラグ 2. y ~ マルチバイト文字フラグ

モデル構築：deep learning これは、サイトで紹介していただいたものをほぼそのまま後述するモデルブレンド時にオーバーフィッティングしない様に改造した程度

モデル構築：ブレンド（スタッキング） xgboost : 単語 xgboost : 文字 xgboost : HOG

カットオフ、名詞単位ルール、サブミットデータ 1. ブレンドモデルの予測値 2. カットオフ値による０１変換（９種類のラベル別にカットオフ値を設定） 3. 名詞単位ルールによりフラグ立て or フラグ削除

楽しいコンペで勉強にもなってとても有意義でした。ありがとうございました。