Upgrade to Pro — share decks privately, control downloads, hide ads and more …

機械学習を活用したSEO対策

 機械学習を活用したSEO対策

2019/6/29 第37回 Machine Learning 15minutes!での松嵜の講演資料になります

Recruit Technologies

June 29, 2019
Tweet

More Decks by Recruit Technologies

Other Decks in Technology

Transcript

  1. 1 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    機械学習を活用したSEO対策 株式会社リクルートテクノロジーズ データテクノロジーラボ部 松嵜 祐樹 2019/06/29
  2. 2 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    Agenda  自己紹介  所属会社/部署紹介  SEOって?  SEO対策のタスク  NLP活用によるSEO対策  おわりに
  3. 3 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    自己紹介  松嵜 祐樹(まつざき ゆうき)  出身:山形県  趣味:釣り、旅行  最近ハマっていること:ゴルフ、BBQ  経歴 - 早稲田大学大学院 創造理工学研究科 経営システム工学専攻 修士修了 - 2017年 新卒でリクルートホールディングス入社 - リクルートテクノロジーズのデータ活用組織に配属 - ビッグデータ分析/データ活用案件の推進を担当
  4. 4 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    会社紹介 ✔ リクルートの事業ドメイン ライフイベント領域 進学 就職 結婚 転職 住宅購入 車購入 出産/育児 旅行 ビジネス支援 生活/地域情報 グルメ・美容 ライフスタイル領域 選択・意思決定を支援する情報サービスを提供し、 「まだ、ここにない、出会い。」を実現する。
  5. 5 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    所属会社紹介 ✔ リクルートテクノロジーズの位置づけ リクルート ホールディングス リクルートキャリア リクルート住まいカンパニー リクルートライフスタイル リクルートジョブズ リクルートマーケティングパートナーズ リクルートテクノロジーズ リクルートスタッフィング スタッフサービス・ホールディングス リクルートコミュニケーションズ (株)リクルート 人材派遣事業 Recruit Global Staffing B.V. HRテクノロジ― 事業 RGF OHR USA, Inc. その他海外派遣グループ会社 Indeed,Inc. リクルートグループのIT・ネットマーケティング領域の テクノロジー開発を担う会社 価 値 を 提 供
  6. 6 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    DTL部とは 〜 リクルートにおけるデータ活用 2008~2009 2010~2011 2012~2013 2014~2015 2016~2017 2018~ 組織なし ・ネットマーケの組織でロ グ分析や、売上の分析な ど ・HadoopのR&Dが開始 ・紙からネットへの移行、 ネット系の新卒/中途採用 が強まる 半組織化 ・アドホックな分析、個別 支援⇒アドテク、メール施 策、レコメンド施策 ・データ基盤の整備が勃 興しはじめる 組織化が進む ・レコメンド、メール施策 ・プッシュ施策 ・予測分析 ・リクルートが分社化、 ホールディング体制に ・グローバル視点が強ま り始める 各社でも組織化 ・各社で活用が開始 ・同時にID統合やデータ 集約が進む BD部がDTLとDIに分割 ・組織の拡大、データ活 用範囲の拡大に伴い組 織が分割 データ解析という言葉がバズる前から取り組み、現在の各事業会社にデータ活用の 重要性を浸透させてきた、データ解析におけるリクルートのルーツとなる組織
  7. 7 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    DTL部とは 〜 組織としての機能 マッチング カスタマー クライアント 潜 在 層 検 討 層 成 約 層 探 客 層 検 討 層 潜 在 層 リクルート (例) 結婚を考えている人、美容室を 探している人、求職者、アルバイ ト探しをしている人、etc (例) 結婚式場、美容室、企業、アル バイトを募集している店舗、 etc (例) web画面、スマホアプリ、営業、 事業企画者、キャリアアドバイ ザー、ジョブコーディネーター、 コールセンター、etc リクルートのビジネスに関わるあらゆるステークホルダに対して、 様々な切り口で、ビッグデータを活用したソリューションを提供する MP 営業
  8. 8 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO 弊社紹介もそこそこにして SEOの話!
  9. 9 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOって? ✔ Search Engine Optimization = 検索エンジン最適化 順位を上げて 流入を増やす
  10. 10 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOって? ✔ 日本では97%の検索シェアを占めるため、 Googleにサイトを適切に評価させることが重要 ※Yahoo Japanの検索アルゴリズムはGoogleのものを流用 Google Baidu Yahoo Bing Others Google Yahoo Bing Others Global Japan Google 69% Google 50% Yahoo 47%
  11. 11 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO対策のタスク ✔ SEOの評価構造のなかで、コンテンツ部分に取り組む サイト 内部要因 SEO評価 サイト 外部要因 コンテンツ (中身) ストラクチャ (箱) 質 量 物理構造 論理構造 被リンク 質 量 カスタマ要因 検索行動 ブランド認知
  12. 12 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO対策のタスク ✔ SEOの評価構造のなかで、コンテンツ部分に取り組む サイト 内部要因 SEO評価 サイト 外部要因 コンテンツ (中身) ストラクチャ (箱) 質 量 物理構造 論理構造 被リンク 質 量 カスタマ要因 検索行動 ブランド認知
  13. 13 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO対策のタスク ✔ 検索エンジンは3つの要素から成り立つ クローラー サーチャー インデクサー Googlebotと呼ばれるプロ グラムが世界中のwebサイ トをクロールし、webページ を収集 ユーザの検索地や検索履歴 を踏まえ、検索KWDに応じ た最適なwebページを瞬時 に表示 クローラーが収集した膨大 な量のwebページ情報(や 画像、動画)を整形、蓄積、 一次評価 crawler Indexer Searcher html
  14. 14 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO対策のタスク ✔ コンテンツを改善し、流入数を増やす インデクスURL数を増やす ①面を増やす ②順位を上げる コンテンツ改善によりSEO流入を増やす 直帰率を下げる インデクス数増加に寄与するページ作る
  15. 15 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEO対策のタスク ✔ ページを作る = キーワードを選ぶ キーワード キーワード キーワード 画像 テキスト 流入数が稼げるキーワードを見つける!
  16. 16 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOって? ✔ ページを作る = キーワードを選ぶ キーワード キーワード キーワード 画像 テキスト 流入数が稼げるキーワードを見つける! ようやく本題へ!
  17. 17 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ どうやって流入を稼ぐキーワードを抽出するのか キーワード キーワード キーワード 画像 テキスト
  18. 18 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ どうやって流入を稼ぐキーワードを抽出するのか キーワード キーワード キーワード 画像 テキスト 既存ページの流入数を学習データする!
  19. 19 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ 既存の流入数から学習し、高予測値なキーワードを抽出 学 習 キーワード 実流入数 ゴルフ 練習場 4342 ドライバー callaway 2197 シャフト ダイナミックゴールド 776 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185 学習データ 予測ロジック キーワード 予測流入数 ゴルフ 冬 2369 ゴルフウェア callaway 1207 ドライバー シャフト 736 hoge fuga 421 予測結果 予 測 ※ あくまで単語はイメージです。
  20. 20 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ どうやって学習させるか 学習データ 商品名とか独自の 単語があるなあ 表記ゆれ 結構あるなあ キーワード 実流入数 ゴルフ 練習場 2175 ドライバー スライス 776 アプローチ 練習 4342 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185
  21. 21 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ どうやって学習させるか 学習データ 商品名とか独自の 単語があるなあ 表記ゆれ 結構あるなあ 文字レベルで学習してみよう! キーワード 実流入数 ゴルフ 練習場 2175 ドライバー スライス 776 アプローチ 練習 4342 ゴルフウェア 冬 2036 hoge hoge 697 fuga fuga 178 foo foo 185
  22. 22 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ character-level CNN での処理フロー 1. テキストを文字に分解 2. それぞれの文字をUNICODEに変換 3. 固定長の配列に変換 (長い場合: 打ち切り、短い場合: 0埋め) 4. keras.layers.embeddings.Embedding UNICODEをベクトル化 5. ベクトルをCNNのインプットとする 6. 回帰の結果を返す
  23. 23 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    a1 b1 c1 d1 e1 f1 g1 a2 b2 c2 d2 e2 f2 g2 a3 b3 c3 d3 e3 f3 g3 a4 b4 c4 d4 e4 f4 g4 a5 b5 c5 d5 e5 f5 g5 a6 b6 c6 d6 e6 f6 g6 a7 b7 c7 d7 e7 f7 g7 a8 b8 c8 d8 e8 f8 g8 a9 b9 c9 d9 e9 f9 g9 a10 b10 c10 d10 e10 f10 g10 SEOにおけるNLP活用 ✔ character-level CNN での学習イメージ ※ 超概要です ゴ ル フ 練 習 場
  24. 24 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    a1 b1 c1 d1 e1 f1 g1 a2 b2 c2 d2 e2 f2 g2 a3 b3 c3 d3 e3 f3 g3 a4 b4 c4 d4 e4 f4 g4 a5 b5 c5 d5 e5 f5 g5 a6 b6 c6 d6 e6 f6 g6 a7 b7 c7 d7 e7 f7 g7 a8 b8 c8 d8 e8 f8 g8 a9 b9 c9 d9 e9 f9 g9 a10 b10 c10 d10 e10 f10 g10 SEOにおけるNLP活用 ✔ character-level CNN での学習イメージ ※ 超概要です ゴ こう畳み込む ル フ 練 習 場 畳み込みによって単語が考慮されることに期待
  25. 25 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ いざ実験! • 実験条件 データ数: 10,396件 train : val : test = 8 : 1 : 1 • モデル Character-level CNN による回帰 説明変数: キーワード 目的変数: 流入数実績 • 評価指標 MAE, RMSE, 上位n件PICK
  26. 26 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ 実運用シーンも考慮した上位n件PICK 流入実績ありURL (テストデータ) 実測値 ソート 実測上位n件 予測ソートの合計 / 実測ソートの合計を算出 → 100%に近いほどよい 予測値 ソート 予測上位n件
  27. 27 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ 思ったより良い結果に! MAE: 53.7 RMSE: 395.7 上位500件PICKすると80%超 → 大まかな流入数の大小は捉えられている印象
  28. 28 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    SEOにおけるNLP活用 ✔ 考察 • 部分的に単語を考慮できている 学習データで高流入だった単語を含む組み合わせの 予測値が高くなっている • 単語どうしの組み合わせが考慮できていない 強い単語が1つでも含まれると予測値が高くなる 類語が並んでしまう ※具体例出せないため、わかりにくいです…
  29. 29 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    まとめ • やったこと • 既存LPのキーワードと流入数実績を学習データに 新規キーワードの流入数をc_CNNで予測 • 結果/考察 • テストデータを用いた検証を行い、ある程度 上位キーワードが抽出できていることを確認 • 今後の展開 • 予測モデルの磨き込みを実施 • 新規組み合わせキーワードの流入数を予測し、 LP生成してオンライン検証
  30. 30 Copyright © Recruit Technologies Co., Ltd. All Rights Reserved.

    最後に 我々は新しいアイディアを日々考えています。 ご興味あれば協業などできればと思いますので、 ぜひお声がけください!