Tags：中文编码 - 运维进行时 - 互联网运维与架构

本人于2009年12月迁移至独立BLOG。
1、欢迎光临运维进行时，希望认识更多志向相同的朋友!
2、本站部分资源来源于网络，如有侵权请及时与我联系!
3、强烈建议使用Firefox、Opera、Safari及IE7以上的浏览器访问，以获得最佳浏览质量!
4、请勿发表与中华人民共和国法律、法规相抵触的言论,谢谢合作!
5、本人发布的文章与评论内容仅代表本人观点。

分页： 1/1

[ 显示模式：摘要 | 列表 ]

Linux下python中文编码的问题

root , 2008/05/22 22:01 , Python , 评论(1) , 阅读(30544) , Via 本站原创

同样的程序在WIN下跑正常，在Linux下跑读取个别文件会提示“UnicodeDecodeError: 'gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence”
这是因为遇到了非法字符——尤其是在某些用C/C++编写的程序中，全角空格往往有多种不同的实现方式，比如\xa3\xa0，或者\xa4\x57，这些字符，看起来都是全角空格，但它们并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在转码的过程中出现了异常。
按网上的方法是这样解决：
s.decode('gbk', 'ignore').encode('utf-8')
因为decode的函数原型是decode([encoding], [errors='strict'])，可以用第二个参数控制错误处理的策略，默认的参数就是strict，代表遇到非法字符时抛出异常；
如果设置为ignore，则会忽略非法字符；
如果设置为replace，则会用?取代非法字符；
如果设置为xmlcharrefreplace，则使用XML的字符引用。

我的解决方法是直接忽略非法字符：
s.decode('gbk', 'ignore')

Tags: 中文编码

分页： 1/1

[ 显示模式：摘要 | 列表 ]

< 2026 > < 3 >
日	一	二	三	四	五	六
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

运维进行时

Linux下python中文编码的问题

个人简介

分类

日历

最新日志

最新评论

链接

归档

其他