Python+requests 爬取网站遇到中文乱码怎么办

如题所述

举报该问题

推荐答案 2023-08-04

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器，可以帮助您快速采集网站数据。对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器提供了智能识别功能，可以自动识别网页的结构，并进行相应的采集操作。3. 自定义解码规则：如果智能识别功能无法解决中文乱码问题，可以手动设置解码规则。在采集任务设置中，可以通过设置解码规则，指定网页的编码方式，以确保正确解码中文内容。八爪鱼采集器为用户准备了一系列简洁易懂的教程，帮助大家快速掌握采集技巧，轻松应对各类网站数据采集，请前往官网教程与帮助了解更多详情。

温馨提示：答案为网友推荐，仅供参考

当前网址：http://99.wendadaohang.com/zd/BBOtXv7z7zjvBjj7Wv.html

其他回答

第1个回答 2017-11-04

最近刚开始使用python来做爬虫爬取相关数据，使用了python自带的urllib和第三方库requests，解析html使用了beautifulsoup以及lxml
这里说下lxml，lxml是python的一个html、xml解析库，lxml使用XPath能快速，简单的定位元素并获取信息。下面进入正题

1. 遇到的中文乱码问题
1.1 简单的开始
使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url = 'h.com/'

req = requests.get(url)

print(req.text)

tree = html.fromstring(req.text)

print(tree.xpath("//h1[@class='title']/text()"))

点击(此处)折叠或打开

url = 'hemierleague/index.shtml'

print(tree.xpath("//span[@class='sec_blk_title']/text()"))

点击(此处)折叠或打开

print(req.headers['content-type'])

print(req.encoding)

print(req.apparent_encoding)

print(requests.utils.get_encodings_from_content(page_content.text))

点击(此处)折叠或打开

if req.encoding == 'ISO-8859-1':

encodings = requests.utils.get_encodings_from_content(req.text)

if encodings:

encoding = encodings[0]

else:

encoding = req.apparent_encoding

encode_content = req.content.decode(encoding, 'replace').encode('utf-8', 'replace')

本回答被提问者采纳

相似回答

大家正在搜