99问答网
所有问题
Python爬虫如何设置异常处理
爬取一个网站多个页面时,有时候因为网络原因,有些页面加载不了爬不下来。如何设置异常处理 在发生异常时重爬这一页 或者记录下来,等到循环结束重新爬取 异常的那一页
举报该问题
推荐答案 2018-02-03
发生异常时记录下来
urls = [
#...
]
errors = []
for url in urls:
try:
# 请求URL 保存内容
except:
# 发生异常时, 记录 跳出
errors.append(url)
continue
温馨提示:答案为网友推荐,仅供参考
当前网址:
http://99.wendadaohang.com/zd/W7eezv77XWWvzjBOWOt.html
相似回答
python爬虫 如何
解决http error 503问题
答:
其实只要把爬取的速度放慢一点就好了
。比如读取一条记录或几条记录后适当添加上time.sleep(10),这样就基本上不会出现503错误了。我本人在使用中一般是在每一次读取后都运行time.sleep(1)或time.sleep(3),具体的数值根据不同的网站确定。
如何用python
解决网络
爬虫
问题?
答:
使用
Python
编写网络
爬虫
程序的一般步骤如下:1. 导入所需的库:使用import语句导入所需的库,如BeautifulSoup、Scrapy和Requests等。2. 发送HTTP请求:使用Requests库发送HTTP请求,获取网页的HTML源代码。3. 解析HTML源代码:使用BeautifulSoup库解析HTML源代码,提取所需的数据。4. 数据
处理
和存储:对提取的...
Python爬虫
爬取图片这个报错
怎么处理
?
答:
可将代码中第一个for循环中download_links.append修改为:for pic_tag in soup.find_all('img'): pic_link = pic_tag.get('src') download_links.append('http:' + pic_link)
python 爬虫
网络不稳定
怎么
办
答:
在使用Python爬虫时,如果遇到网络不稳定的情况,
可以尝试以下方法解决:1. 设置超时时间:在爬取网页的代码中
,可以设置一个合理的超时时间,当请求时间超过设定的时间时,就会抛出异常,可以通过捕获异常进行处理。2.
添加重试机制
:可以在爬取网页的代码中添加重试机制,当请求失败时,可以进行多次重试,...
如何
使用
python爬虫
时增加延时和重试.比如一旦出现500错误,就等待1分...
答:
def main():try:代码(打开网址的代码)except Exception as e:time模块延时(自己查一下,我忘了)main()
毕业生必看
Python爬虫
上手技巧
答:
在开发
爬虫
过程中经常会遇到IP被封掉的情况,这时就需要用到 代理IP; 在urllib 2包中有Proxy Handler类, 通过此类可以
设置
代理 访问网页,如下代码片段: 3、Cookies
处理
cookies是某些网站为了辨别用户身份、进行session跟踪而 储存在用户本地终端上的数据(通常经过加密) ,
python
提供了 cookie lib模块用于处理cookies,...
使用scrapy
爬虫设置
了ip代理报错是
怎么
回事
答:
2.
设置
合理的访问时间间隔:先测试目标网站允许的最大访问频率,太接近这个频率的访问容易被封IP。因此,需要
设定
一个合理的时间间隔,以确保既能完成所需速度的爬取,又不会触发IP限制。3. 使用高匿名代理IP:对于
Python
网络
爬虫
,尤其是在业务量较大时,分布式爬虫是提高效率的有效方式。分布式爬虫需要...
python 中
的 IndexError: list index out of range
答:
”IndexError: list index out of range”这种错误一般有两种情况:第一种可能情况:list[index], index超出范围,也就是常说的数组越界。第二种可能情况:list是一个空的,没有一个元素,进行list[0]就会出现该错误,在
爬虫
问题中很常见,比如有个列表爬去下来为空,统一
处理
就会报错。
python 爬虫
时,urllib2.HTTPError:HTTP Error 502:Bad Gateway是什么...
答:
可能是那个网站阻止了这类的访问,只要在请求中加上伪装成浏览器的header就可以了,比如:headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url = "http://www.qiushibai...
大家正在搜
Python异常处理try
python爬虫设置代理ip
python中的异常处理
python的异常处理机制
python异常处理关键字
常见Python异常
Python 异常
python爬虫怎么伪装
python爬虫打开网页很慢
相关问题
python爬虫怎么处理异常和超时
Python爬虫异常和超时问题怎么处理
python中异常处理的问题
python爬虫出现了错误,怎么弄
python爬虫 如何解决http error 503问题
python爬虫返回错误
如何解决python爬虫urlretrive发生异常
python爬虫运行提示错误,这个怎么解决呢