什么是爬虫？

如题所述

举报该问题

推荐答案 2022-10-20

网络爬虫(又被称为网页蜘蛛，网络机器人)就是模拟浏览器发送网络请求，接收请求响应，一种按照一定的规则，自动地抓取互联网信息的程序。

原则上,只要是浏览器(客户端)能做的事情，爬虫都能够做。

为什么我们要使用爬虫？

互联网大数据时代，给予我们的是生活的便利以及海量数据爆炸式地出现在网络中。

过去，我们通过书籍、报纸、电视、广播或许信息，这些信息数量有限，且是经过一定的筛选，信息相对而言比较有效，但是缺点则是信息面太过于狭窄了。不对称的信息传导，以至于我们视野受限，无法了解到更多的信息和知识。

互联网大数据时代，我们突然间，信息获取自由了，我们得到了海量的信息，但是大多数都是无效的垃圾信息。

例如新浪微博，一天产生数亿条的状态更新，而在百度搜索引擎中，随意搜一条——减肥100.000.000条信息。

通过某项技术将相关的内容收集起来，在分析删选才能得到我们真正需要的信息。

这个信息收集分析整合的工作，可应用的范畴非常的广泛，无论是生活服务、出行旅行、金融投资、各类制造业的产品市场需求等等……都能够借助这个技术获取更精准有效的信息加以利用。

网络爬虫技术，虽说有个诡异的名字，让能第一反应是那种软软的蠕动的生物，但它却是一个可以在虚拟世界里，无往不前的利器。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/7ztjBOWtjjWBv7eOte.html

其他回答

第1个回答 2021-07-29

爬虫通俗来说就是抓取网页数据，比如说大家都喜欢的图片呀、小视频呀，还有电子书、文字评论、商品详情等等。

只要网页上有的，都可以通过爬虫爬取下来。

一般而言，python爬虫需要以下几步：

找到需要爬取内容的网页URL

打开该网页的检查页面（即查看HTML代码，按F12快捷键即可进入）

在HTML代码中找到你要提取的数据

写python代码进行网页请求、解析

存储数据

当然会python是前提，对于小白来说自学也不是件容易的事，需要花相当的时间去适应python的语法逻辑，而且要坚持亲手敲代码，不断练习。

如果对自己没有自信，也可以考虑看编程课程，跟着老师的节奏去学习，能比较快地掌握python语法体系，也能得到充分的案例练习。

本回答被网友采纳

第2个回答 2022-12-16

网络爬虫(又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者)，是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"target="_blank"title="点击查看大图"class="ikqb_img_alink">/iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974?x-bce-process=image%2Fresize%2Cm_lfit%2Cw_600%2Ch_800%2Climit_1%2Fquality%2Cq_85%2Fformat%2Cf_auto"esrc="https://iknow-pic.cdn.bcebos.com/d788d43f8794a4c2851e1fb402f41bd5ad6e3974"/>
蚂蚁(ant)，自动检索工具(automaticindexer)，或者(在FOAF软件概念中)网络疾走(WEB
scutter)，是一种“自动化浏览网络”的程序，或者说是一种网络机器人。它们被广泛用于互联网搜索引擎或其他类似网站，以获取或更新这些网站的内容和检索方式。
它们可以自动采集所有其能够访问到的页面内容，以供搜索引擎做进一步处理(分检整理下载的页面)，而使得用户能更快的检索到他们需要的信息。
网络爬虫始于一张被称作种子的统一资源地址(URLs)列表。当网络爬虫访问这些统一资源定位器时，它们会甄别出页面上所有的超链接，并将它们写入一张"待访列表"，即所谓"爬行疆域"(crawl
frontier)。
此疆域上的统一资源地址将被按照一套策略循环访问。如果爬虫在他执行的过程中复制归档和保存网站上的信息，这些档案通常储存，使他们可以被查看。阅读和浏览他们的网站上实时更新的信息，并保存为网站的“快照”。大容量的体积意味着网络爬虫只能在给定时间内下载有限数量的网页，所以要优先考虑其下载。
高变化率意味着网页可能已经被更新或者删除。一些被服务器端软件生成的URLs(统一资源定位符)也使得网络爬虫很难避免检索到重复内容。

官方服务

官方网站官方网站

第3个回答 2021-04-06

python是一种计算机的编程语言，是这么多计算机编程语言中比较容易学的一种，而且应用也广，这python爬虫是什么意思呢？和IPIDEA全球http去了解一下python爬虫的一些基础知识。

一、python爬虫是什么意思

爬虫：是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

即：打开一个网页，有个工具，可以把网页上的内容获取下来，存到你想要的地方，这个工具就是爬虫。

Python爬虫架构组成：

1.网页解析器，将一个网页字符串进行解析，可以按照我们的要求来提取出我们有用的信息，也可以根据DOM树的解析方式来解析。

2.URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。

3.网页下载器：通过传入一个URL地址来下载网页，将网页转换成一个字符串，网页下载器有urllib2（Python官方基础模块）包括需要登录、代理、和cookie，requests(第三方包)

4.调度器：相当于一台电脑的CPU，主要负责调度URL管理器、下载器、解析器之间的协调工作。

5.应用程序：就是从网页中提取的有用数据组成的一个应用。

二、爬虫怎么抓取数据

1.抓取网页

抓取网页有时候需要模拟浏览器的行为，很多网站对于生硬的爬虫抓取都是封杀的。这是我们需要模拟user agent的行为构造合适的请求，比如模拟用户登陆、模拟session/cookie的存储和设置。

2.抓取后处理

抓取的网页通常需要处理，比如过滤html标签，提取文本等。python的beautifulsoap提供了简洁的文档处理功能，能用极短的代码完成大部分文档的处理。

其实以上功能很多语言和工具都能做，但是用python能够干得最快，最干净。上文介绍了python爬虫的一些基础知识，相信大家对于“python爬虫是什么意思”与“爬虫怎么抓取数据”有一定的的认识了。现在大数据时代，很多学python的时候都是以爬虫入手，学习网络爬虫的人越来越多。通常使用爬虫抓取数据都会遇到IP限制问题，使用高匿代理，可以突破IP限制，帮助爬虫突破网站限制次数。本回答被网友采纳

第4个回答 2019-12-25

不是长着腿，就是爬行的那种虫就叫爬虫。爬虫应该是可分为会飞的，还有不会飞的，反正种类极多，就是爬行的，真的有很多从数都数不尽。如果是没有会爬的那种虫，他们应该就不叫爬虫。

1 2 3 下一页

相似回答

什么是“爬虫”呢?答：爬虫指网络爬虫。网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索...

爬虫是什么答：爬虫，即网络爬虫，也叫做网络机器人，可以代替人们自动地在互联网中进行数据信息的采集与整理。大家可以理解为在网络上爬行的一只蜘蛛，互联网就比作一张大网，而爬虫便是在这张网上爬来爬去的蜘蛛，如果它遇到自己的猎物（所需要的资源），那么它就会将其抓取下来。爬虫获取各种食物的热量、各种美食的...

爬虫是什么东西答：爬虫，脊椎动物。或称爬行类、爬虫类，属于四足总纲的羊膜动物，是对蜥形纲及合弓纲除鸟类及哺乳类以外所有物种的通称，包括龟、蛇、蜥蜴、鳄及已绝灭的恐龙与似哺乳爬行动物等等。现存的爬行动物包含四个目：鳄目（Crocodilia）：包含鳄鱼、长吻鳄、短吻鳄、以及凯门鳄等23个种。喙头蜥目（Sphenodontia...

爬虫是什么意思通俗易懂答：爬虫是一种自动化程序，它通过模拟浏览器行为来访问网站并抓取相关信息。通过分析页面代码、解析数据、筛选信息等方式，爬虫能够快速获取大量数据。爬虫可以用于有益的目的，如研究分析、商业调查、信息采集等，也可以被用于不良用途如恶意攻击及隐私侵犯等。爬虫的工作原理是模拟浏览器，尝试以最大程度自动化...

什么是爬虫和爬虫的基本流程答：爬虫即网络爬虫，英文是Web Spider。翻译过来就是网络上爬行的蜘蛛，如果把互联网看作一张大网，那么爬虫就是在大网上爬来爬去的蜘蛛，碰到想要的食物，就把他抓取出来。我们在浏览器中输入一个网址，敲击回车，看到网站的页面信息。这就是浏览器请求了网站的服务器，获取到网络资源。那么，爬虫也相当于...

都在说爬虫,究竟什么是爬虫技术啊,爬虫技术能够达到什么效果?答：爬虫：Web爬虫是一种自动访问网页的脚本或机器人，其作用是从网页抓取原始数据 - 最终用户在屏幕上看到的各种元素（字符、图片）。其工作就像是在网页上进行ctrl + a（全选内容），ctrl + c（复制内容），ctrl + v（粘贴内容）按钮的机器人（当然实质上不是那么简单）。通常情况下，爬虫不会停留在...

什么是爬虫以及爬虫的发展史SEO技术交流答：什么是爬虫？搜索引擎原理中是这样说的：爬虫也称为“Wanderers”(漫步者)或者“Robots”(机器人)，我们常说的百度爬虫经常用后者代替。它首先是一组运行在计算机的程序，在搜索引擎中负责抓取时新的且公共可访问的web网页、图片和文档等资源。这种抓取的过程为通过下载一个网页，分析其中的链接，继而漫游...

爬虫是什么?答：搜索引擎爬虫（又被称为网页蜘蛛，网络机器人），是一种按照一定的规则，自动的抓取万维网信息的程序或者脚本。1、首先从互联网页面中精心选择一部分网页，以这些网页的链接地址作为种子URL，将这些种子URL放入待抓取URL队列中，爬虫从待抓取URL队列依次读取，并将URL通过DNS解析，把链接地址转换为网站服务...

python的爬虫是什么意思答：你可以用爬虫爬图片，爬取视频等等你想要爬取的数据，只要你能通过浏览器访问的数据都可以通过爬虫获取。爬虫的本质是什么？模拟浏览器打开网页，获取网页中我们想要的那部分数据浏览器打开网页的过程：当你在浏览器中输入地址后，经过 DNS 服务器找到服务器主机，向服务器发送一个请求，服务器经过解析后...

大家正在搜

网络爬虫是什么网络爬虫什么意思爬虫软件是什么意思爬虫是干嘛 python什么叫爬虫网络爬虫属于什么类型爬虫百科电脑爬虫是什么意思爬虫解释