百度的搜索是怎么抓取网站的

如提

推荐答案 2006-12-28

什么是baiduspider？
baiduspider是百度搜索引擎的一个自动程序。它的作用是访问互联网上的html网页，建立索引数据库，使用户能在百度搜索引擎中搜索到您网站的网页。

baiduspider对一个网站服务器造成的访问压力如何？
baiduspider会自动根据服务器的负载能力调节访问密度。在连续访问一段时间后，baiduspider会暂停一会，以防止增大服务器的访问压力。所以在一般情况下，baiduspider对您网站的服务器不会造成过大压力。

为什么baiduspider不停的抓取我的网站？
对于您网站上新产生的或者持续更新的页面，baiduspider会持续抓取。此外，您也可以检查网站访问日志中baiduspider的访问是否正常，以防止有人恶意冒充baiduspider来频繁抓取您的网站。如果您发现baiduspider非正常抓取您的网站，请反馈至[email protected]，并请尽量给出baiduspider对贵站的访问日志，以便于我们跟踪处理。

我不想我的网站被baiduspider访问，我该怎么做？
baiduspider遵守互联网robots协议。您可以利用robots.txt文件完全禁止baiduspider访问您的网站，或者禁止baiduspider访问您网站上的部分文件。注意：禁止baiduspider访问您的网站，将使您的网站上的网页，在百度搜索引擎以及所有百度提供搜索引擎服务的搜索引擎中无法被搜索到。
关于robots.txt的写作方法，请参看我们的介绍：robots.txt写作方法

为什么我的网站已经加了robots.txt，还能在百度搜索出来？
因为搜索引擎索引数据库的更新需要时间。虽然baiduspider已经停止访问您网站上的网页，但百度搜索引擎数据库中已经建立的网页索引信息，可能需要二至四周才会清除。另外也请检查您的robots配置是否正确。

百度蜘蛛在robots.txt中的名字是什么？
“Baiduspider” 首字母B大写，其余为小写。

baiduspider多长时间之后会重新抓取我的网页？
百度搜索引擎每周更新，网页视重要性有不同的更新率，频率在几天至一月之间，baiduspider会重新访问和更新一个网页。

baiduspider抓取造成的带宽堵塞？
baiduspider的正常抓取并不会造成您网站的带宽堵塞，造成此现象可能是由于有人冒充baidu的spider恶意抓取。如果您发现有名为Baiduspider的agent抓取并且造成带宽堵塞，请尽快和我们联系。您可以将信息反馈至[email protected]，如果能够提供您网站该时段的访问日志将更加有利于我们的分析。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WXevOB7B.html

其他回答

第1个回答 2006-12-28

搜索引擎并不真正搜索互联网，它搜索的实际上是预先整理好的网页索引数据库。

真正意义上的搜索引擎，通常指的是收集了因特网上几千万到几十亿个网页并对网页中的每一个词（即关键词）进行索引，建立索引数据库的全文搜索引擎。当用户查找某个关键词的时候，所有在页面内容中包含了该关键词的网页都将作为搜索结果被搜出来。在经过复杂的算法进行排序后，这些结果将按照与搜索关键词的相关度高低，依次排列。

现在的搜索引擎已普遍使用超链分析技术，除了分析索引网页本身的内容，还分析索引所有指向该网页的链接的URL、AnchorText、甚至链接周围的文字。所以，有时候，即使某个网页A中并没有某个词比如“恶魔撒旦”，但如果有别的网页B用链接“恶魔撒旦”指向这个网页A，那么用户搜索“恶魔撒旦”时也能找到网页A。而且，如果有越多网页（C、D、E、F……）用名为“恶魔撒旦”的链接指向这个网页A，或者给出这个链接的源网页（B、C、D、E、F……）越优秀，那么网页A在用户搜索“恶魔撒旦”时也会被认为更相关，排序也会越靠前。

搜索引擎的原理，可以看做三步：从互联网上抓取网页→建立索引数据库→在索引数据库中搜索排序。

从互联网上抓取网页
利用能够从互联网上自动收集网页的Spider系统程序，自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，重复这过程，并把爬过的所有网页收集回来。

建立索引数据库
由分析索引系统程序对收集回来的网页进行分析，提取相关网页信息（包括网页所在URL、编码类型、页面内容包含的关键词、关键词位置、生成时间、大小、与其它网页的链接关系等），根据一定的相关度算法进行大量复杂计算，得到每一个网页针对页面内容中及超链中每一个关键词的相关度（或重要性），然后用这些相关信息建立网页索引数据库。

在索引数据库中搜索排序
当用户输入关键词搜索后，由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已算好，所以只需按照现成的相关度数值排序，相关度越高，排名越靠前。
最后，由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。
搜索引擎的Spider一般要定期重新访问所有网页（各搜索引擎的周期不同，可能是几天、几周或几月，也可能对不同重要性的网页有不同的更新频率），更新网页索引数据库，以反映出网页内容的更新情况，增加新的网页信息，去除死链接，并根据网页内容和链接关系的变化重新排序。这样，网页的具体内容和变化情况就会反映到用户查询的结果中。

互联网虽然只有一个，但各搜索引擎的能力和偏好不同，所以抓取的网页各不相同，排序算法也各不相同。大型搜索引擎的数据库储存了互联网上几亿至几十亿的网页索引，数据量达到几千G甚至几万G。但即使最大的搜索引擎建立超过二十亿网页的索引数据库，也只能占到互联网上普通网页的不到30%，不同搜索引擎之间的网页数据重叠率一般在70%以下。我们使用不同搜索引擎的重要原因，就是因为它们能分别搜索到不同的内容。而互联网上有更大量的内容，是搜索引擎无法抓取索引的，也是我们无法用搜索引擎搜索到的。

你心里应该有这个概念：搜索引擎只能搜到它网页索引数据库里储存的内容。你也应该有这个概念：如果搜索引擎的网页索引数据库里应该有而你没有搜出来，那是你的能力问题，学习搜索技巧可以大幅度提高你的搜索能力。

第2个回答推荐于2016-06-10

网站是由很多页面组成的。
百度会不断派出自己的机器人进行页面的抓去（机器人俗称百度蜘蛛，因为互联网像一张网一般，机器人在这张网上不断爬行）
如果你的页面让蜘蛛感觉是它不了解，没有见过的，它就会把这个页面信息抓取到自己的服务器空间里储存，等待后期的分类、筛选、排名，最后将快照（蜘蛛抓去的网站页面）放出。

相似回答

百度的搜索是怎么抓取网站的答：对于您网站上新产生的或者持续更新的页面，baiduspider会持续抓取。此外，您也可以检查网站访问日志中baiduspider的访问是否正常，以防止有人恶意冒充baiduspider来频繁抓取您的网站。如果您发现baiduspider非正常抓取您的网站，请反馈至[email protected]，并请尽量给出baiduspider对贵站的访问日志，以便于我们跟...

搜索引擎是如何抓取网页?答：一、爬虫搜索引擎爬取网页内容的工具就是爬虫。爬虫通过网络请求获取网页数据，并进行解析处理，以便后续存储和检索。二、URL管理在爬虫开始工作前，需要先确定要抓取的URL地址。URL管理会根据一定规则生成一系列URL地址，并将其放入待抓取队列中，供爬虫依次进行抓取。三、页面下载当一个网页被加入待抓...

搜索引擎如何抓取网页?答：搜索引擎为想要抓取互联网站的页面，不可能手动去完成，那么百度，google的工程师就编写了一个程序，他们给这个自动抓取的程序起了一个名字，蜘蛛（也可以叫做“机器人”或者“网络爬虫”）。互联网上的信息存储在无数个服务器上，任何搜索引擎要想回答用户的搜索，首先要把网页存在自己本地的服务器上，这...

百度蜘蛛抓取原理答：广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转入下一个起始页...

百度蜘蛛怎么抓取页面百度蜘蛛怎么抓取页面内容答：搜索引擎内部有一个URL索引库，所以搜索引擎蜘蛛从搜索引擎的服务器上沿着搜索引擎已有的URL抓取一个网页，把网页内容抢回来。页面被收录后，搜索引擎会对其进行分析，将内容从链接中分离出来，暂时将内容放在一边。搜索引擎在对链接进行分析后，并不会马上派蜘蛛去抓取，而是将链接和锚文本记录到URL索引数据...

百度上搜索到的资料是从什么地方来的?答：百度是一个搜索引擎，所有的搜索引擎在后台都有一个抓取程序，叫做蜘蛛，也有的叫爬虫，百度的就叫百度爬虫，这种程序的作用就是在网络中大量抓取网页做成快照，然后把它们分类储存在百度的数据库里，我们用百度来搜索，得到的数据其实就来自于百度的数据库。但如果你点击搜索结果，百度又会把你引向原始网页...

搜索引擎蜘蛛是如何抓取网页内容的?答：1.抓取读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来，被抓取的网页被称之为网页快照。2.数据库处理搜索引擎抓...

如何百度到自己的网站?答：百度Spider对网页的抓取,是通过网页与网页之间的链接实现的。网页之间的链接类型,除了站点内部的页面链接之外,还有不同网站之间的互相链接。因此,某些网页即便通过您的网站内部链接无法访问到,但是,如果别人的网站上有指向这些页面的链接,那么这些页面还是会被搜索引擎所收录。百度Spider的访问权限,和普通用户是一样的...

搜索引擎收录网站基本都是靠什么来抓取答：①搜索引擎安排蜘蛛到互联网上的网站去抓取网页数据，然后将抓取的数据带回搜索引擎的原始页面数据库中。蜘蛛抓取页面数据的过程是无限循环的，只有这样我们搜索出来的结果才是不断更新的。②原始页面数据库中的数据并不是最终的结果，只是相当于过了面试的“初试”，搜索引擎会将这些数据进行“二次处理”...

大家正在搜

如何抓取网站里面的数据百度抓取的规则怎样抓取网页网站抓取手机网站在线抓取网站链接抓取抓取整个网站抓取网站源代码抓取网站指定数据