の順に解析を試行(最も頑健な html5lib を優先 / 失敗時は次へ) 2 属性の削除 body配下のすべてのタグから属性を除去。例外として td/th の rowspan/colspan のみ残す(テーブル構造の保持) 3 タグのアンラップ(中身は残してタグだけ削除) 対象: div, body, header, footer, form, main, nav, section ── レイアウト用の構造タグを除去し、コンテンツのみを残す 4 タグの完全削除(中身ごと) 対象: script, link, img, input, noscript, style ── JS/CSS/メディアなど本文外の要素を除去 5 コメント除去 HTMLコメント(<!-- -->)を抽出して取り除く ※ ユースケースにより、どのタグを消し / 残すかは要検討 Deep Researchをプロダクトに組み込むためのノウハウ 14 / 21 | ©DENTSU SOKEN INC 04. Web検索のノウハウ