首页 1 2 3 4 5 6 7

字符编码在python中的处理_python 字符编码处理问题总结

Python中常常遇到这种字符编码问题，尤其在处理网页源代码时（特别是爬虫中）：

UnicodeDecodeError: ‘XXX' codec can't decode bytes in position 12-15: illegal multibyte...

以下以汉字'哈'来解释作演示样例解释全部的问题，汉字“哈”的各种编码例如以下：

1 UNICODE(UTF8-16): 0xC854

2 UTF-8: 0xE59388

3 GBK: 0xB9FE

除此之外还有如gb2312, big5等。比如一些含有繁体字的页面。比方www.google.com.hk首页中用的就是big5码，

不知道港台的码农同一时候处理简体字繁体字是不是更郁闷 :)

一直以来。python中的中文编码就是一个大问题，为他他并不能智能识别编码，而实际上其它语言也非常难做到。

在html的header里一般都能够找到字符编码比如：

当然这不是我们研究的重点，很多其它的时候是我们得知一个字符串是GBK编码，而要用print等正确的打印出来却不easy...

首先，在python中提到unicode。一般指的是unicode对象，比如'哈哈'的unicode对象为u'\u54c8\u54c8'

而str是一个字节数组。这个字节数组表示的是对unicode对象编码后(如utf-8、gbk、cp936、GB2312)的存储的格式，这里它

仅是一个字节流。没有其他的含义，假设你想使这个字节流显示的内容有意义，就必须用正确的编码格式，解码显示。

比如：（注意是在windows下）

s = u'哈哈'

s_utf8 = s.encode('utf-8')

pirnt s_utf8

>>> 鍝堝搱

悲剧...

s_utf8这时实际上是'\xe5\x93\x88\xe5\x93\x88'

而以下的代码才干够正常显示：

s_gdb = s.encode('gbk') # s_gdk 这时是'\xb9\xfe\xb9\xfe'

print s_gbk

>>> 哈哈 #正常了

由于print语句它的实现是将要输出的内容传送了操作系统，操作系统会依据系统的编码对输入的字节流进行编码。这就解释了

utf-8格式的字符串“哈哈”，输出的是“鍝堝搱”，由于 '\xe5\x93\x88\xe5\x93\x88'用GB2312去解释，其显示的出来就

“鍝堝搱”。

这里再强调一下，str记录的是字节数组，仅仅是某种编码的存储格式，至于输出到文件或是打印出来是什么格式。

全然取决其解码的编码将它解码成什么样子。

这里再对print进行一点补充说明：当将一个unicode对象传给print时，在内部会将该unicode对象进行一次转换，

转换成本地默认编码（这仅是个人推測）

str和unicode对象的转换，通过encode和decode实现，详细使用例如以下：再次强调windows下：

s = '哈哈'

print s.decode('gbk').encode('utf-8')

>>> 鍝堝搱

反之亦然，有兴趣能够尝试其它转换

有时当我们遇到把s(gbk字符串)直接编码成utf-8的时候。将抛出异常，可是通过调用例如以下代码：

import sys

reload(sys)

sys.setdefaultencoding('gbk')

后就能够转换成功。为什么呢？

在python中str和unicode在编码和解码过程中。假设将一个str直接编码成还有一种编码，会先把str解码成unicode，

採用默认编码，一般默认编码是anscii，所以在上面演示样例代码中第一次转换的时候会出错。

当设定当前默认编码为'gbk'后，就不会出错了。

至于reload(sys)是由于Python2.5 初始化后会删除 sys.setdefaultencoding 这种方法。我们须要又一次加载。

一般不推荐这样使用。本来reload都是应该避免使用的函数。

对于操作不同文件的编码格式的文件，也会遇到这种问题

建立一个文件test.txt，文件格式用ANSI，内容为:

abc中文

然后用python来读取

# coding=gbk

print open("Test.txt").read()

结果：abc中文

把文件格式改成UTF-8：

结果：abc涓枃，显然。这里须要解码：

# coding=gbk

import codecs

print open("Test.txt").read().decode("utf-8")

结果：abc中文

上面的test.txt我是用Editplus来编辑的。但当我用Windows自带的记事本编辑并存成UTF-8格式时，

执行时报错：

Traceback (most recent call last):

File "ChineseTest.py", line 3, in

print open("Test.txt").read().decode("utf-8")

UnicodeEncodeError: 'gbk' codec can't encode character u'\ufeff' in position 0: illegal multibyte sequence

原来，某些软件，如notepad。在保存一个以UTF-8编码的文件时，

会在文件開始的地方插入三个不可见的字符（0xEF 0xBB 0xBF，即BOM）。

因此我们在读取时须要自己去掉这些字符。python中的codecs module定义了这个常量：

# coding=gbk

import codecs

data = open("Test.txt").read()

if data[:3] == codecs.BOM_UTF8:

data = data[3:]

print data.decode("utf-8")

结果：abc中文

最后，有些时候编码搞对了，可是遇到了非法字符。比方产生字符串的来源错误发生。引入了错误值等，这时再次遇到异常

比如：全角空格往往有多种不同的实现方式。比方\xa3\xa0，或者\xa4\x57,

这些字符。看起来都是全角空格。但它们并非“合法”的全角空格

真正的全角空格是\xa1\xa1，因此在转码的过程中出现了异常。

而之前在处理新浪微博数据时。遇到了非法空格问题导致无法正确解析数据。

解决的方法：

将获取的字符串strTxt做decode时。指明ignore。会忽略非法字符,

当然对于gbk等编码，处理相同问题的方法是类似的

strTest = strTxt.decode('utf-8', 'ignore')

return strTest

默认的參数就是strict，代表遇到非法字符时抛出异常；

假设设置为ignore。则会忽略非法字符；

假设设置为replace。则会用?

号代替非法字符；

假设设置为xmlcharrefreplace，则使用XML的字符引用。

其它的以后遇到再总结.....

[BZOJ4889][洛谷P3759][TJOI2017]不勤劳的图书管理员分块+树状数组

题目描述加里敦大学有个帝国图书馆，小豆是图书馆阅览室的一个书籍管理员。他的任务是把书排成有序的，所以无序的书让他产生厌烦，两本乱序的书会让小豆产生这两本书页数的和的厌烦度。现在有n本被打乱顺序的书，在接下来m天中每天都会因为读者的阅览导致书籍顺序改变位置。因为小豆被要求在接下

Azuki推出新的NFT：Elementals！灵魂代币（SBT)空投和2 ETH的强制验资！

漫长熊市掩盖了很多曾经繁荣喧闹的项目，安静的角落里也有着顽强的生命力在探索，NFT就是那绕不开的十字路口，身后是日渐削薄的活动性和击穿再击穿的价格，很多熟悉的面孔也无奈转身离去，猴哥神勇不再，Azuki在努力联合一切可以联合的力量试图加大社区的覆盖面。据官方消息，N

若依框架 spring boot+ mybatis + 多数据库配置(mysql+oracle)

记录一下使用若依框架配置多数据库时踩到的坑，主数据库是mysql，从数据库是oracle 1，修改yml文件，将单一数据源配置修改成多数据源配置 # 数据源配置 spring: datasource: type:

真无线蓝牙耳机哪款好？国内真无线蓝牙耳机排行榜10强！

如今越来越多的手机厂商已经不再给手机配备有线耳机接口，主要原因便在于真无线蓝牙耳机的普及。尤其是苹果的AirPods系列产品已经基本成为了大部分果粉们的随身数码物件。在安卓这边真无线蓝牙耳机倒也有不少，但是品牌类型众多挑选上也难免有点“手忙脚乱”，而这其中最受欢迎的就属国产蓝牙耳机了，一方面

ubuntu 下安装Python-tk

ImportError: No module named _tkinter, please install the python-tk package 解决办法： 1. tk开发包： sudo apt-get install tk-dev 2.

Mac下安装ruby环境

1、环境要求系统：Mac OS X 2、安装依赖

Python学习之删除列表中特定间隔的元素

今天学到列表类型及操作突然想到一个问题，创建一个数列，该数列中从1到100，每3个元素删除一个，也就是A={1,2,4,5,7,8,10···} 想出一个比较麻烦的方法以下是代码部分 ls =list() for i in ra

【编织时空四：探究顺序表与链表的数据之旅】

本章重点链表

Android自定义view绘制卡顿,Android 自定义View实现动画形式加载环形图

先看效果图(图片是gif，比较卡顿)：

【Flask】在Flask中使用HTTPS

前言这一篇是详细描述在Flask框架下中使用HTTPS的教程。开发工具 Windows 10 x64