怎么可以防止网页被抓取 - 技术问答

现在搜索引擎在互联网上肆意的抓取网页，如果我的网站的网页不想被他们抓取，我可以采取什么办法？

举报该问题

第1个回答 2019-03-31

看你的需求了，可以搞得很复杂，也可以搞得很low。之前是做采集的，算不上大神级别。不过可以说80%以上的H5、网页、app可以搞定。单击和分布式爬虫都弄过。日采集上千万数据的不少。覆盖也比较广，视频、电商、新闻、舆论分析类等等。总结起来，每个网站的难度都不一样，99%数据是可以抓取到的。百度就是国内最大的爬虫，所以想要完全禁止的，除非服务器关了，数据删了。否则要采集的手段太多了，无外乎就是出于成本上的考虑。
反爬虫也是需要付出成本的，包括了体验差导致用户流失，内部用的走内网。给用户用的只能做到减少，如果你的数据很有价值，建议是请一个有实力的技术做一些防护。百度上能回答的基本是有解的。
总结一下：反爬只能防君子，防不了小人，可以加大难度，方法也有很多。不过也只是加大采集成本

第2个回答推荐于2017-11-26

防采集首先你要精通采集, 我玩了很多年了, 说下我的经验1. 防搜索引擎, 设置robots.txt, 不过对付一些流氓蜘蛛, 这方法不管用, 请看方法22. 要耗点服务器资源, 不管是蜘蛛还是人还是机器浏览器头可以伪造, IP可以伪造, COOKIE可以伪造, 所以用数据库存储每次用户的访问, 只存$_SERVER[\'REMOTE_ADDR\'], 然后为IP计数用CRON定时清理数据, 比如,5分钟清空一次这个表清空之前, 如果访问数大于100的, 统统加入deny, 用apache禁止它访问,这100显然不是正常用户的访问量, 当然数值根据你的网站情况设置为了提高性能,GOOGLE和百度的IP还是可以找到的, 这些列入白名单, 其他的统统要审我当年就是这样防采集的, 没人采得了我几十万的数据当然, 还是有办法的, 办法就是, 他得用高匿代理, 而且每个代理只能采集我设置的数量,就像前面设置的那个100, 呵呵查看原帖>>本回答被提问者采纳

相似回答

大家正在搜