python写的爬虫返回网页总是为乱码，求高手解决

# -*- coding: utf-8 -*-
import urllib

import urllib2
import random
import re
import bs4
import chardet

def getRequest(url,header):

request = urllib2.Request(url,headers=header)
response = urllib2.urlopen(request)
return response.read()

HEADER={

'Host': 'px.h2o-china.com',
'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.8.0.12)',
'Accept': 'text/xml,application/xml,application/xhtml+xml,text/html;q=0.9,text/plain;q=0.8,image/png,*/*;q=0.5',
'Accept-Language': 'en-us,en;q=0.5',
'Accept-Encoding': 'gzip,deflate',
'Accept-Charset': 'gbk;q=0.7,*;q=0.7',
'Referer': 'http://px.h2o-china.com/2014/view?key=YzBkZFgxdHRncEhMN0lKNlVDUmlkamloNU8xaGlJb204bnJXbXJkWWJhOVFzdGtQRnFWVnpsZDBKb3RoeWFMVzhoUmgxUlF1MElJZExualBaWEZPYUpz&from=singlemessage&isappinstalled=0',
'Cookie': 'PHPSESSID=mofsmmnds17rqueqcjih30k971'
}

html = getRequest('http://px.h2o-china.com/2014/view?key=MjgxMW1pYmhPR1oxZVFKSytEUjBnSHVkY3FEUnJiU0tWWXBWMWpUYWlxYk4zRFJycGZxVDhQKzd1a1ZBVVNaZHdMQ3NRbXR2T2Zxd1VNTVVYamdXcTcw',HEADER)

encodeofhtml= chardet.detect(html)
content = bs4.BeautifulSoup(html)
print encodeofhtml
print content

网上搜到的各种方法都试了，还是不行

举报该问题

推荐答案 2015-01-15

请求了压缩的内容, 但是没有解压. 可以去解压, 当然也可以删掉下面这一行请求压缩:

'Accept-Encoding': 'gzip,deflate',

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/WOjBeWXtzztvBzOvjOt.html

相似回答

Python爬虫遇到乱码怎么办答：这种问题解决也很简单，只要在代码中设置一下encoding即可。这里建议一种方法，r.encoding=r.apparent_encoding，这个可以自动推测目标网站的编码格式，省的你自己去一个个设置（当然极少数情况下它可能会推测错误出现乱码，到时候你再手动去查看网页编码，手动设置吧）。deffetchURL(url):headers={'accept':...

我在写一个python的网络爬虫,写入记事本的内容都是乱码如何使写入的数...答：程序开头：!/usr/bin/env python# -*- coding:utf8 -*-import urllibimport urllib2import stringimport reimport systype0 = sys.getfilesystemencoding() #解决中文乱码问题后面做抓取程序的时候全部加上decode和encode。pos1 = text.find(term.decode("utf-8").encode(type0))在输入到txt的...

Python+requests 爬取网站遇到中文乱码怎么办答：对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器...

在使用Python爬虫时遇到403 Forbidden错误解决办法汇总答：在使用Python爬虫时遇到403 Forbidden错误的解决办法如下：模拟登录：适用场景：对于那些对未登录用户实施限制的网站，模拟登录可以有效绕过这一限制。操作方式：通过获取登录状态，使爬虫能够以已登录用户的身份进行访问和爬取数据。调整请求头：适用场景：某些网站会通过检查请求头中的信息来判断是否为爬虫请求...

python爬虫,遇到403 forbidden,求助答：1. 设置User-Agent，这可以帮助网站识别你的请求是来自一个浏览器而非爬虫。2. 添加requests的headers，例如refer和content-length等，这可以进一步伪装你的请求，使其看起来更像来自一个正常的浏览器。3. 使用cookie，这可以让你的请求看起来更像来自一个已经登录的用户。4. 避免过于频繁的请求，每爬...

在使用Python爬虫时遇到403 Forbidden错误解决办法汇总答：在使用Python爬虫时，遇到403 Forbidden错误是常见的问题，这通常意味着网站对爬虫行为进行了限制。为解决这一问题，本文将提供详细的解决策略，以助您顺利获取所需数据。理解403 Forbidden错误至关重要。这是一种由服务器返回的错误码，表示拒绝了您的请求。网站通常用此方式阻止爬虫程序的访问，以防非正常...

Python爬虫404错误:解决方案总结答：解决方案首先，核查请求的URL是否准确无误。404错误可能是由于URL输入错误或请求页面已被移除，因此需仔细校验URL。其次，确认请求头设置是否符合要求。网站可能通过请求头验证，不符合标准则返回404错误。模拟正常浏览器行为，通过设置User-Agent等信息，降低404错误概率。确保Scrapy版本适配，可通过安装最新...

python爬虫今日头条,搭建环境拿到signature后,为什么会出现返回的数据为...答：在使用Python进行爬取今日头条数据时，有时会出现返回的数据为空的情况。这可能是由于以下原因导致的：1. **signature参数错误**：在搭建爬虫环境时，需要先获取signature参数，如果获取的参数有误或者过期，就会出现返回数据为空的情况。解决方案是重新获取signature参数。2. **请求头信息错误**：在发送...

python 爬虫时,urllib2.HTTPError:HTTP Error 502:Bad Gateway是什么...答：可能是那个网站阻止了这类的访问，只要在请求中加上伪装成浏览器的header就可以了，比如：headers = { 'User-Agent':'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url = "http://www.qiushibai...

大家正在搜

python为什么叫爬虫爬虫python代码网络爬虫python python爬虫接单网 python爬虫有什么用爬虫python能做什么爬虫python入门 python爬虫教程爬虫技术python

python爬虫抓下来的网页，中间的中文乱码怎么解决

python爬虫抓取到的数据用网页打开时是乱码，怎么解决

python爬虫抓下来的网页，中间的中文乱码怎么解决

python爬虫抓下来的网页，中间的中文乱码怎么解决

为什么Python写的爬虫有时候抓取的数据是乱码

python爬虫抓下来的网页，中间的中文乱码怎么解决

python爬虫抓取到的数据用网页打开时是乱码，怎么解决

python爬虫抓下来的网页，中间的中文乱码怎么解决