Slide 11
Slide 11 text
20.2.1 クローラのアーキテクチャ
1. URL frontierで、URL1つを取り出す
2. 取り出しで、URLにアクセスしてWeb Siteの情報を
取得する
3. ⾔言語解析で、テキストとURL情報を分離して取得す
る。テキストはインデクサーに渡す。
4. すでに観察?で、取得済みのWebページと同じ内容
か確認する。
5. URLフィルターで、条件に従ってURLを除外する。
(特定のドメイン排除、”.com”だけ残す、 etc)
6. URL重複排除で、URL Frontierに格納済のURLかど
うか確認する
7. URL frontierにURLを渡す。
引⽤用元「情報検索の基礎」