Slide 13
Slide 13 text
ユーザー・アイテム行列
● ユーザーxアイテム行列を使うときはview or notのバイナリに落とした方がよかった
○ 2回読むとかは一応情報にはなるはずだが、今回はすぐに過学習につながった
○ ユーザーの全記事数で割った割合にする方法もあるがバイナリが一番性能よかった
● 3%のユーザーが見るが、10%は見ない、くらいの記事を対象とするのがよかった
○ エムスリーの記事は訪問率がかなり高く、足切りを高い水準にした方が良い
● 行列分解した後の値より生の値を使った方がよかった
○ これはまぁ行列分解に使ったkにも依存しているとは思う
○ 上記の足切りで十分だったとも言える
特徴語の選択
● 出現頻度の多い語を上から順番に使う、よりは、ユーザーの嗜好を表す語をちゃんと見つけた
い
● とはいえ、これは分析ツールを作ってるわけではないので、特徴量はそのアンケートに特化し
ない、ある程度汎用的なものでいきたい
● “先述のアイテム間グラフのエッジを予測するのに有効な語”を探すという問題に落とせる
○ 次ページの図参照
TIPS: 特徴量エンジニアリング