Python中用正则表达式匹配中文
我想在Python中用正则表达式匹配中文,用的是[\u4e00-\u9fa5]这段代码~~但是匹配结果有问题,这个表达式不仅能匹配中文,也能匹配英文字符~~
在别的语言中试验是好使的,但在Python中不好使~~不知道问什么~~是编码的问题么?
[解决办法]
编码问题比较复杂, 要考量数据源本身的编码格式, 不同的操作系统和设置导致的结构会有不同.
如果数据确定是gbk或gb2312的话, 你可以参考:
http://blog.csdn.net/heiyeshuwu/archive/2007/01/20/1488900.aspx