Slide 8
Slide 8 text
自己紹介
特徴量作成 + 学習
8
基本的な特徴量と集約特徴量だけだとあまり精度が伸びない...(CV: 0.7817 LB: 0.6884)
→ 近傍の矩形情報を⼊れる必要がありそう
→ データをみると名刺ごとに矩形が左座標でソートされていた
→ そのままラグ特徴量(shiftとdiff)を使えば精度あがりそう?
→ かなり向上した(CV: 0.8385)!この⽅向性がよさそう!
基本的な特徴量
・矩形の端点座標と名刺の横幅,縦幅
・矩形の横幅,縦幅,⾯積,アスペクト⽐
・名刺の⾯積,アスペクト⽐
・矩形と名刺の差分(⾯積,アスペクト⽐)
集約特徴量とその差分
・基本的な特徴量を名刺単位で集約
(min, max, mean, stdの4つの統計量)
・min, max, meanはもとの特徴量と差分
名刺id left top right bottom
hoge 30 80 870 200
hoge 40 40 640 180
hoge 55 1200 125 1300