教育行业A股IPO第一股(股票代码 003032)

全国咨询/投诉热线:400-618-4000

什么是通用网络爬虫?什么是聚焦网络爬虫?

更新时间:2023年05月11日09时38分 来源:传智教育 浏览次数:

好口碑IT培训

通用网络爬虫

  通用网络爬虫(General Purpose Web Crawler)又称全网爬虫(Scalable Web Crawler),是指访问全互联网资源的网络爬虫。通用网络爬虫是“互联网时代”早期出现的传统网络爬虫,它是搜索引擎(如百度、谷歌、雅虎等)抓取系统的重要组成部分,主要用于将互联网中的网页下载到本地,形成一个互联网网页的镜像备份。进用网络爬虫的目标是全互联网资源,数量巨大且范围广泛。

  这类网络爬虫对爬行速度和存储空间的要求是非常高的,但是对抓取网页的顺序的要求相对较低。

聚焦网络爬虫

  聚焦网络爬虫(Focused Web Crawler)又称主题网络爬虫(Topical Web Crawler),是指有选择性地访问那些与预定主题相关的网页的网络爬虫。它根据预先定义好的目标,有选择性地访问与目标主题相关的网页,获取所需要的数据。

  与通用网络爬虫相比,聚焦网络爬虫只需要访问与预定主题相关的网页,这不仅减少了访问和保存的页面数量口而且提高了网页的更新速度。可见,聚焦网络爬虫在一定程度上节省了网络资源,能满足一些特定人群采集特定领域数据的需求。

0 分享到:
和我们在线交谈!