Slide 7
Slide 7 text
7
深層学習に対する工夫
▶ Samplerによる正例、負例のコントロール
- 学習初期は負例が少なすぎて学習が進まないため5:5からスタート
- 徐々に元のデータの比率に戻していく
▷ Random minority oversampling
▷ Random majority undersampling
▶ 機械学習向けカテゴリの再編とサンプリング
- ヤフオクの末端カテゴリ数3万3千 + シンボリックリンク
- 事業目的で枝分かれ (例:ファッション -> ブランド別 -> ... -> Tシャツ ### ファッション -> Tシャツ ->...)
- 目視で全部見て、機械学習観点(テキスト、画像)でそれぞれ分類できる粒度にマッピング
- マッピングした辞書の情報を参考に学習データを収集していく
▶ Categoricalやそれらになり得る情報をEmbeddingレイヤーで表現
- 商品カテゴリなどをEmbeddingする事でカテゴリの位置関係を考慮できる
- 数値でも出品時価格などで有効
● 偽物かの判定における「数値的な大きさ」の相関小さい特徴量
● [-1, 1, 100, 1000, 5000, 10000, 20000, ….]とrangeを設定しそのindexを取る (目視ノウハウが生きる)
● サービスの特性として1円出品や負の値が発生するのもカバーしやすい
▷ Entity Embeddings of Categorical Variables
[1604.06737] Entity Embeddings of Categorical Variables