按字节截取带有中文汉字的字符串

2013-04-21

按字节截取含有中文汉字的字符串Java中1个char类型的变量可存储任意编码的1个字符，如1个ASC码和或1个中文

按字节截取含有中文汉字的字符串

Java中1个char类型的变量可存储任意编码的1个字符，如1个ASC码和或1个中文字符，例如：含有3个ASC和含有3个汉字字符的字符串长度是一样的：?
???? "1ac" .length () == 3 ;?
???? "你好a" .length () = 3 ;?
但上述两个字符串所占的byte是不一样的，前者是3，后者是5（1个汉字2byte）。
请编写函数:?
???? public?static? String?leftStr ( String?source,? int? maxByteLen )
　　从source中取最大maxByteLen个byte的子串。当最后一个byte恰好为一个汉字的前半个字节时，舍弃此byte。例如：?
????? String?str= "我LRW爱JAVA" ;
????? leftStr ( str, 1 ) == "" ;
????? leftStr ( str, 2 ) == "我" ;
????? leftStr ( str, 4 ) == "我LR" ;
????? leftStr ( str, 11 ) == "我LRW" ;
或者，当最后一个byte恰好为一个汉字的前半个字节时，补全汉字（多截取一个byte）。例如：?
????? String?str= "我LRW爱JAVA" ;
????? leftStr ( str, 1 ) == "我" ;
????? leftStr ( str, 2 ) == "我" ;
????? leftStr ( str, 4 ) == "我LR" ;
????? leftStr ( str, 11 ) == "我LRW爱" ;

　　一种做法是依次判断每一个字符是否为中文。（参考http://zangweiren.javaeye.com/blog/216005 中的四）

　　在此考虑另一种解决办法。因为汉字只涉及到最后一个字节，当最后一个字节是汉字的前半个字节时需要特殊处理，所以就围绕“怎么判断最后一个字节是汉字的前半个字节 ”进行考虑。单独来讲，是无法判定一个字节到底是不是一个汉字的前半个字节，但可以判断出是否是字串中某个汉字的前半个字节。汉字为：“/u4e00-/u9fa5 ”（未考证）

　　解决办法就是：将截取的最后一个字节与紧跟在后面的一个字节进行组合（考虑后面已经没字节的情况），判断组合出来的一个字符是否包含在原字符串中：如果包含，则说明是前半个汉字；如果不包含，则说明不是前半个汉字。（应该也无法区分汉字、韩文、日文）。

　　以“我LRW爱JAVA”为例。其getBytes()（使用默认的字符集）得到的二进制码为：CED2 4C 52 57 B0AE 4A 41 56 41 。
　　截取前1个字节时，为“CE”，那么就判断“CED2”是否是前半个汉字，用“CED2”构造一个字符出来（亦使用默认字符集），判断构造出来的字符是否包含在原字串中。发现构造出来的字符是“我”，显然包含在原字串中，所以是前半个汉字。
　　截取前2个字节时，为“CED2”（就是“我”字），那么就判断“D2”是否是前半个汉字，用“D24C”构造一个字符出来（亦使用默认字符集），发现构造出来的字符是“襆”，显然不包含在原字串中，所以不是前半个汉字。

　　判断出来了最后一个字节是否为前半个汉字后就很容易处理了，一种是舍弃最后一个字节，一种是加多一个字节，以便保证汉字的完整。

　　所有过程均采用默认字符集，绕过了不同字符集编码不同的影响。

完整源码如下：

??? /**
????? *?Java中1个char类型的变量可存储任意编码的1个字符，如1个ASC码和或1个中文字符，
????? *?例如：含有3个ASC和含有3个汉字字符的字符串长度是一样的：?"1ac".length()==3;??"你好a".length()=3;
????? *?但上述两个字符串所占的byte是不一样的，前者是3，后者是5（1个汉字2byte）。
????? *?请编写函数:
????? *?????public?static?String?leftStr(String?source,?int?maxByteLen)
????? *?从source中取最大maxByteLen个byte的子串。
????? *?当最后一个byte恰好为一个汉字的前半个字节时，舍弃此byte。例如：
????? *?????String?str="我LRW爱JAVA";
????? *?????leftStr(str,1,-1)=="";
????? *?????leftStr(str,2,-1)=="我";
????? *?????leftStr(str,4,-1)=="我LR";
????? *?????leftStr(str,11,-1)=="我LRW";
????? *?当最后一个byte恰好为一个汉字的前半个字节时，补全汉字（多取一个字节）。例如：
????? *?????String?str="我LRW爱JAVA";
????? *?????leftStr(str,1,1)=="我";
????? *?????leftStr(str,2,1)=="我";
????? *?????leftStr(str,4,1)=="我LR";
????? *?????leftStr(str,11,1)=="我LRW爱";
????? *
????? *? @param? source 原始字符串
????? *? @param? maxByteLen 截取的字节数
????? *? @param? flag?表示处理汉字的方式。1表示遇到半个汉字时补全，-1表示遇到半个汉字时舍弃
????? *? @return 截取后的字符串
????? */
???? public?static? String?leftStr ( String?source,? int? maxByteLen,? int? flag ){
???????? if ( source?==? null? ||?maxByteLen?<=? 0 ){
???????????? return? "" ;
???????? }
???????? byte []? bStr?=?source.getBytes () ;
???????? if ( maxByteLen?>=?bStr.length ) return? source;
???????? String?cStr?=? new? String ( bStr,?maxByteLen?-? 1 ,? 2 ) ;
???????? if ( cStr.length ()? ==? 1? &&?source.contains ( cStr )){
???????????? maxByteLen?+=?flag;
???????? }
???????? return?new? String ( bStr,? 0 ,?maxByteLen ) ;
???? }

热点排行

编程

按字节截取带有中文汉字的字符串