爬虫都有哪些种类？【西安网星软件吧】_百度贴吧

02月05日漏签0天

西安网星软件吧关注：7贴子：266

5回复贴，共1页

<返回西安网星软件吧

爬虫都有哪些种类？

只看楼主收藏回复

通用爬虫：搜索引擎用的爬虫系统
目标：尽可能的互联网上所有的网页下载下来，放到本地形成备份，再对这些网页进行相关处理(提取关键字，去除广告)，最后提供一个用户可用的接口。
抓取流程：
1.首先取一部分已有的URL，把这些URL放到待爬取队列。
2.从队列里取出这些URL,然后通过DNS得到主机IP,然后去这个IP服务器里下载HTML信息，然后把这些信息放到本地服务器,之后把这个爬过的URL放入已爬取队列中。
3.分析这些网页内容,找出网页中其它URL连接,继续执行第二步,直到没有

送TA礼物

1楼2018-01-26 14:54回复

其它URL连接
搜索引擎是如何获取一个新网站的URL的:
1.主动向搜索引擎提交网址
2.在其它网站设置网站的外链
3.搜索引擎会和DNS服务商进行合作,可以快速收录新的网址
通用爬虫并不是万物皆可爬的,它也需要遵守规则：一般只有大型的搜索引擎才会遵守产。

2楼2018-01-26 14:55

通用爬虫工作流程：
抓取网页--存储数据--内容处理--提供检索--排名服务

3楼2018-01-26 14:55

搜索排名：
1.PageRank值：根据网站流量,网站流量越高,排名越靠前。
2.竞价排名：给钱多的排名靠前。

4楼2018-01-26 14:55

通用爬虫的缺点:
只能提供和文本相关的内容，不提供多媒体文件爬取。

5楼2018-01-26 14:55

IP属地:四川

6楼2018-01-26 15:41

扫二维码下载贴吧客户端

下载贴吧APP
看高清直播、视频！

贴吧热议榜

5回复贴，共1页

<返回西安网星软件吧

发表回复

发贴请遵守贴吧协议及“七条底线”贴吧投诉

内容:

使用签名档查看全部

发表

保存至快速回贴