求一段判断是否为无BOM的utf-8文本的代码
根据
?0xxxxxxx ASCII < 0x80 (128)
?110xxxxx 10xxxxxx 2-byte >= 0x80
?1110xxxx 10xxxxxx 10xxxxxx 3-byte >= 0x400
?11110xxx 10xxxxxx 10xxxxxx 10xxxxxx 4-byte >= 0x10000
utf-8编码的特征,怎样编写呢?谢谢。
[解决办法]
你都已经知道规则了啊。按这个规则自上向下写代码就行了
[解决办法]
没有前提的判断是不行的。
一串字节流,你完全可以用任意的编码去解释,至于得到的结果,人可以通过阅读来判断解码正确与否。
程序是不具有阅读的智能的,除非你已经知道解码后的部分文本内容,才可以让程序用 UTF-8 解码,用固定特征进行比对。
[解决办法]
没有BOM头的utf-8编码,找不到吧!
[解决办法]