我在写一个python的网络爬虫，写入记事本的内容都是乱码如何使写入的数据以utf8或者gb2312的码制写入。

def insert(key, url, src):
fname = Util.combine(Request.getFilePath(), "query.xml")
rs = Crawl.parse(fname, src["body"])
if not rs or not rs["data"]:
print(json.dumps({"errmsg": "parse error!", "url": url}, ensure_ascii=False).decode("utf-8"))
else:
doc = {"data": str(Json.dumps(rs["data"][0]))}
if rs["data"][0]["codel"] != "":
kdb.insert("query", key, doc)
f = open(r'd:/abc.txt','a')
f.write('\n' + str(Json.dumps(rs["data"][0])))
f.close()
print(json.dumps(Json.loads(doc["data"]), ensure_ascii=False).decode("utf-8"))

举报该问题

第1个回答 2016-08-29

我从自己一个utf8的爬虫程序里面摘的。

程序开头：

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib
import urllib2
import string
import re
import sys
type0 = sys.getfilesystemencoding() #解决中文乱码问题

后面做抓取程序的时候全部加上decode和encode。

pos1 = text.find(term.decode("utf-8").encode(type0))

在输入到txt的时候相应的分隔符也要decode和encode：

f.write(info+'!'.decode("utf-8").encode(type0))

希望能帮到你。

追问

还是不成报错
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xfd in position 0: invalid start byte

追答

你可能截取的片段不是utf8编码。打个比方我这里有一个utf8的string，编码是abcdefg，这个string的名字是s, 那么s确实是个utf8编码，可以被解读，但是s[0:2]程序就不能被程序理解为utf8了。

本回答被提问者和网友采纳

第2个回答 2023-08-11

八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器。如果您需要采集数据，八爪鱼采集器可以为您提供智能识别和灵活的自定义采集规则设置，帮助您快速获取所需的数据。了解更多八爪鱼采集器的功能与合作案例，请前往官网了解更多详情

相似回答

盘点3种Python网络爬虫过程中的中文乱码的处理方法答：在处理Python网络爬虫过程中的中文乱码问题时，可以采取以下三种方法：1. 使用.content代替.text 方法说明：在使用requests库获取网页内容时，默认使用.text属性会尝试根据HTTP头部中的charset参数自动解码响应内容。但有时这个自动解码过程会导致中文乱码。此时，可以使用.content属性获取原始的字节流数据，然后手...

Python爬虫遇到乱码怎么办答：就是爬取过程中没问题，但是用excel打开保存好的csv文件时出现乱码（用记事本打开没问题），这个其实就是文件的编码方式和Excel的解码方式不一致导致的。在dataframe.to_csv这句，参数里添加一个encoding='utf_8_sig'，指定文件的编码格式，应该就可以解决了。importpandasaspddefwritePage(urating):'''...

Python+requests 爬取网站遇到中文乱码怎么办答：对于Python+requests爬取网站遇到中文乱码的问题，您可以：1. 设置编码：在使用requests库发送请求时，可以通过设置`response.encoding`来指定网页的编码方式，例如`response.encoding = 'utf-8'`。这样可以确保获取到的网页内容按照指定的编码进行解码，避免中文乱码问题。2. 使用自动识别功能：八爪鱼采集器...

Python爬虫超详细讲解答：三、Python爬虫的具体实现步骤编码设置：代码开始设置编码为utf8，以避免乱码问题。库导入： requests：用于发送网络请求。 BeautifulSoup：用于解析HTML内容。 re：用于正则表达式匹配。数据抓取：定义目标网址。通过循环访问多个页面抓取数据。使用requests库模拟浏览器请求，避免被识别...

什么是Python爬虫?一篇文章带你全面了解爬虫答：以从链家租房网站抓取房源信息为例，Python爬虫可以通过发送HTTP请求获取页面内容，利用BeautifulSoup解析页面元素，提取所需信息，并通过pymysql将数据插入到MYSQL数据库中。综上所述，Python爬虫是一种强大的自动化信息收集工具，适用于搜索引擎、企业分析等多个领域。通过编写相应的代码，可以实现从互联网抓取...

Python3爬虫教程-Scapy详解答：一、安装Scapy 可以通过命令行安装：在命令行中输入pip install scapy。也可以通过PyCharm安装：选择File>Setting>Python Interpreter，在弹出的窗口中输入pip install scapy并执行。二、Scapy在爬虫工程中的应用说明创建爬虫工程：虽然Scapy不直接参与爬虫工程的创建，但在进行网络层面的数据包操作时，可以在...

如何通过网络爬虫获取网站数据信息答：这里以python为例，简单介绍一下如何通过python网络爬虫获取网站数据，主要分为静态网页数据的爬取和动态网页数据的爬取，实验环境win10+python3.6+pycharm5.0，主要内容如下：静态网页数据这里的数据都嵌套在网页源码中，所以直接requests网页源码进行解析就行，下面我简单介绍一下，这里以爬取糗事百科上...

什么是Python爬虫?一篇文章带你全面了解爬虫答：在Python写爬虫过程中，导入库文件是关键步骤，如requests、BeautifulSoup、pymysql、time和lxml。注意在PYCHARM中安装库文件的方式，可以使用光标+ctrl+alt键或者命令行（Pip install 库文件名）方法。代码中通过get_db函数连接数据库，通过get_links函数获取房源链接列表，通过FOR循环遍历链接获取信息并插入...

爬虫python什么意思答：Python爬虫的基本原理1、发起请求使用http库向目标站点发起请求，即发送一个RequestRequest包含：请求头、请求体等Request模块缺陷：不能执行JS 和CSS 代码2、获取响应内容如果服务器能正常响应，则会得到一个ResponseResponse包含：html，json，图片，视频等3、解析内容解析html数据：正则表达式（RE模块），第...

大家正在搜

为什么Python写的爬虫有时候抓取的数据是乱码

为什么python写的爬虫有时候抓取的数据是乱码

python写的爬虫返回网页总是为乱码，求高手解决

python 读取再写入就乱码

C语言，如何使写入一个文件之后用记事本打开显示为乱码，程序本...

python爬虫抓下来的网页，中间的中文乱码怎么解决

python中文显示乱码，已经在开头有了coding: ut...

java 写入txt文件的中文乱码问题