什么是网络爬虫？

如题所述

举报该问题

推荐答案 2020-07-31

什么是网络爬虫呢?网络爬虫又叫网络蜘蛛(Web Spider)，这是一个很形象的名字，把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。严格上讲网络爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

众所周知，传统意义上网络爬虫是搜索引擎上游的一个重要功能模块，是负责搜索引擎内容索引核心功能的第一关。

然而，随着大数据时代的来临，信息爆炸了，互联网的数据呈现倍增的趋势，如何高效地获取互联网中感兴趣的内容并为所用是目前数据挖掘领域增值的一个重要方向。网络爬虫正是出于这个目的，迎来了新一波的振兴浪潮，成为近几年迅速发展的热门技术。

目前网络爬虫大概分为四个发展阶段：

第一个阶段是早期爬虫，那时互联网基本都是完全开放的，人类流量是主流。

第二个阶段是分布式爬虫，互联网数据量越来越大，爬虫出现了调度问题。

第三阶段是暗网爬虫，这时的互联网出现了新的业务，这些业务的数据之间的链接很少，例如淘宝的评价。

第四阶段是智能爬虫，主要是社交网络数据的抓取，解决账号，网络封闭，反爬手段、封杀手法千差万别等问题。

目前，网络爬虫目前主要的应用领域如：搜索引擎，数据分析，信息聚合，金融投资分析等等。

巧妇难为无米之炊，在这些应用领域中，如果没有网络爬虫为他们抓取数据，再好的算法和模型也得不到结果。而且没有数据进行机器学习建模，也形成不了能解决实际问题的模型。因此在目前炙手可热的人工智能领域，网络爬虫越来越起到数据生产者的关键作用，没有网络爬虫，数据挖掘、人工智能就成了无源之水和无本之木。

具体而言，现在爬虫的热门应用领域的案例是比价网站的应用。目前各大电商平台为了吸引用户，都开展各种优惠折扣活动。同样的一个商品可能在不同网购平台上价格不一样，这就催生了比价网站或App，例如返利网，折多多等。这些比价网站一个网络爬虫来实时监控各大电商的价格浮动。就是采集商品的价格，型号，配置等，再做处理，分析，反馈。这样可以在秒级的时间内获得一件商品在某电商网站上是否有优惠的信息。

关于网络爬虫的问题可以看下这个页面的视频教程，Python爬虫+语音库，看完后会对网络爬虫有个清晰的了解。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/BBjeOvXBzjXvvWWzzv.html

其他回答

第1个回答 2020-08-28

第2个回答 2020-04-23

网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

第3个回答 2022-12-16

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"target="_blank"title="点击查看大图"class="ikqb_img_alink">/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"/>
蚂蚁(ant)，自动检索工具(automaticindexer)，或者(在FOAF软件概念中)网络疾走(WEB
scutter)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理(分检整理下载的页面)，而使得用户能更快的检索到他们需要的信息。
网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张"待访列表"，即所谓"爬行疆域"(crawl
frontier)。
此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以被查看。阅读和浏览他们的网站上实时更新的信息，并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页，所以要优先考虑其下载。
高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。

官方服务

官方网站官方网站

第4个回答 2021-07-28

简单来讲，爬虫就是一个探测机器，它的基本操作就是模拟人的行为去各个网站溜达，点点按钮，查查数据，或者把看到的信息背回来。就像一只虫子在一幢楼里不知疲倦地爬来爬去。

1 2 下一页

相似回答

网络爬虫是什么?答：网络爬虫就是一种从互联网抓取数据信息的自动化程序，如果我们将互联网比作一张大的蜘蛛网，数据就是存放在蜘蛛网的一个节点，爬虫就是一个小蜘蛛，沿着网络抓取数据。爬虫可以在抓取的过程中进行各种异常处理、错误重试等操作，确保抓取持续高效运行。爬虫分为通用爬虫以及专用爬虫，通用爬虫是搜索引擎抓取...

网络爬虫的概念?答：网络爬虫（web crawler），以前经常称之为网络蜘蛛（spider），是按照一定的规则自动浏览万维网并获取信息的机器人程序（或脚本），曾经被广泛的应用于互联网搜索引擎。使用过互联网和浏览器的人都知道，网页中除了供用户阅读的文字信息之外，还包含一些超链接。网络爬虫系统正是通过网页中的超链接信息不断...

请问什么是网络爬虫啊?是干什么的呢?答：爬虫就是能够自动访问互联网并将网站内容下载下来的的程序或脚本，类似一个机器人，能把别人网站的信息弄到自己的电脑上，再做一些过滤，筛选，归纳，整理，排序等等。网络爬虫能做什么：数据采集。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一...

python的爬虫是什么意思答：网络爬虫（英语：web crawler），也叫网络蜘蛛（spider），是一种用来自动浏览万维网的网络机器人。其目的一般为编纂网络索引。网络搜索引擎等站点通过爬虫软件更新自身的网站内容或其对其他网站的索引。网络爬虫可以将自己所访问的页面保存下来，以便搜索引擎事后生成索引供用户搜索。爬虫访问网站的过程会消耗...

爬虫是什么意思答：爬虫通常是指网络爬虫，是一种按照一定的规则和策略，自动地抓取万维网信息的程序或者脚本。爬虫通常是指网络爬虫（Web Crawler），是一种按照一定的规则和策略，自动地抓取万维网信息的程序或者脚本。它们在网络中爬行，根据预设的条件和规则，从各种资源（网页、数据库等）中提取出所需的数据，然后进行...

爬虫是什么答：爬虫，即网络爬虫，也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到自己的猎物（所需要的资源），那么它就会将其抓取下来。爬虫获取各种食物的热量、各种美食的...

请问什么是网络爬虫啊?是干什么的呢?答：网络爬虫（Web crawler）也叫网络蜘蛛（Web spider）、蚂蚁（ant）、自动检索工具（automatic indexer），或者（在FOAF软件概念中）网络疾走（WEB scutter），是一种“自动化浏览网络”的程序，或者说是一种网络机器人。用途:它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索...

网络爬虫是什么?答：网络爬虫又称网络蜘蛛、网络蚂蚁、网络机器人等，可以自动化浏览网络中的信息，当然浏览信息的时候需要按照我们制定的规则进行，这些规则我们称之为网络爬虫算法。使用Python可以很方便地编写出爬虫程序，进行互联网信息的自动化检索。

什么是网络爬虫答：爬虫，脊椎动物。或称爬行类、爬虫类，属于四足总纲的羊膜动物，是对蜥形纲及合弓纲除鸟类及哺乳类以外所有物种的通称，包括龟、蛇、蜥蜴、鳄及已绝灭的恐龙与似哺乳爬行动物等等。骨骼系统爬行动物的骨骼系统大多数由硬骨组成，骨骼的骨化程度高，很少保留软骨部分。大部分的爬行动物缺乏次生颚，所以当...

大家正在搜

阐述什么是网络爬虫网络爬虫实验报告总结 python怎么爬取网站数据网络爬虫是干嘛的爬虫的正式工作很少 python爬虫怎么挣钱网络爬虫什么意思免费爬虫软件手机版爬虫坐牢的有多少