怎么可以防止网页被抓取 - 技术问答

现在搜索引擎在互联网上肆意的抓取网页,如果我的网站的网页不想被他们抓取,我可以采取什么办法?

第1个回答  2019-03-31
看你的需求了,可以搞得很复杂,也可以搞得很low。之前是做采集的,算不上大神级别。不过可以说80%以上的H5、网页、app可以搞定。单击和分布式爬虫都弄过。日采集上千万数据的不少。覆盖也比较广,视频、电商、新闻、舆论分析类等等。总结起来,每个网站的难度都不一样,99%数据是可以抓取到的。百度就是国内最大的爬虫,所以想要完全禁止的,除非服务器关了,数据删了。否则要采集的手段太多了,无外乎就是出于成本上的考虑。
反爬虫也是需要付出成本的,包括了体验差导致用户流失,内部用的走内网。给用户用的只能做到减少,如果你的数据很有价值,建议是请一个有实力的技术做一些防护。百度上能回答的基本是有解的。
总结一下:反爬只能防君子,防不了小人,可以加大难度,方法也有很多。不过也只是加大采集成本
第2个回答  推荐于2017-11-26
防采集首先你要精通采集, 我玩了很多年了, 说下我的经验1. 防搜索引擎, 设置robots.txt, 不过对付一些流氓蜘蛛, 这方法不管用, 请看方法22. 要耗点服务器资源, 不管是蜘蛛还是人还是机器浏览器头可以伪造, IP可以伪造, COOKIE可以伪造, 所以用数据库存储每次用户的访问, 只存$_SERVER[\'REMOTE_ADDR\'], 然后为IP计数用CRON定时清理数据, 比如,5分钟清空一次这个表清空之前, 如果访问数大于100的, 统统加入deny, 用apache禁止它访问,这100显然不是正常用户的访问量, 当然数值根据你的网站情况设置为了提高性能,GOOGLE和百度的IP还是可以找到的, 这些列入白名单, 其他的统统要审我当年就是这样防采集的, 没人采得了我几十万的数据当然, 还是有办法的, 办法就是, 他得用高匿代理, 而且每个代理只能采集我设置的数量,就像前面设置的那个100, 呵呵 查看原帖>>本回答被提问者采纳
相似回答