通用爬虫:搜索引擎用的爬虫系统
目标:尽可能的互联网上所有的网页下载下来,放到本地形成备份,再对这些网页进行相关处理(提取关键字,去除广告),最后提供一个用户可用的接口。
抓取流程:
1.首先取一部分已有的URL,把这些URL放到待爬取队列。
2.从队列里取出这些URL,然后通过DNS得到主机IP,然后去这个IP服务器里下载HTML信息,然后把这些信息放到本地服务器,之后把这个爬过的URL放入已爬取队列中。
3.分析这些网页内容,找出网页中其它URL连接,继续执行第二步,直到没有
目标:尽可能的互联网上所有的网页下载下来,放到本地形成备份,再对这些网页进行相关处理(提取关键字,去除广告),最后提供一个用户可用的接口。
抓取流程:
1.首先取一部分已有的URL,把这些URL放到待爬取队列。
2.从队列里取出这些URL,然后通过DNS得到主机IP,然后去这个IP服务器里下载HTML信息,然后把这些信息放到本地服务器,之后把这个爬过的URL放入已爬取队列中。
3.分析这些网页内容,找出网页中其它URL连接,继续执行第二步,直到没有