001.爬虫是什么

爬虫是什么?

爬虫在网络中全称为网络爬虫，它可以是一个或一组程序/脚本， 爬虫运行后，可以从网络中的非结构化数据页面中提取并转化为结构化数据。获取到的结构化数据将用于后续的有价值的分析处理。

在江湖中，它的独门绝技可以称之为“北冥神功”，吸取一切为我所用。只要内力深厚，天下一切皆为我吸收所用。

下图是一个蜘蛛(spider)，我们的爬虫就像它一样沿着蜘蛛的网按照一定规则爬来爬去。

这个爬来爬去的规则就是爬虫规则。

而爬来爬去获取到的小蚊子就是爬虫目标数据。

按照使用场景可分类为：通用爬虫 和 专用爬虫

通用爬虫

我们常用的搜索引擎是一种通用爬虫，侧重通用性的全网页面爬取，而不是针对不同类型页面的数据进行详细的提取处理。

因而我们常常是通过搜索关键词作为入口来搜索到关键词相关联的链接地址，具体这里的数据是什么格式通常通用爬虫是不会关心的。

针对特定页面或网站而开发的的爬虫，会对页面的数据进行有效筛选、处理分析等操作，并且持久化到数据库或者磁盘文件中。

我们今后要了解的爬虫主要是此类专用爬虫。

原文作者: 根叔

发表时间: 2024-05-31 12:51:22 +0800 CST