python爬虫抓下来的网页,中间的中文乱码怎么解决

如题所述

Python写程序原则是所有进来的字符串(读文件,爬网页),一进来就decode,处理完之后在要输出的地方在encode。题主读入(read)和输出(print)在一行里,要在win下面想不出错就这么写
print response.decode('utf-8').encode('gbk')
温馨提示:答案为网友推荐,仅供参考
第1个回答  2018-03-11
假如你使用的是requests的库。
response = requests.get(url,headers = headers)# url是你想抓的网站

然后使用语句response.encoding = 'utf-8'('gbk') # 这个视你的网页的源代码的charset格式决定
然后就随便使用吧,不会出现那种16进制的字节码了。
相似回答