首页 诗词 字典 板报 句子 名言 友答 励志 学校 网站地图
当前位置: 首页 > 教程频道 > 开发语言 > 编程 >

Java编码原理与字符集编码变换

2012-11-16 
Java编码原理与字符集编码转换数字运算与位运算在2进制里面,一个位只可能是0,或者1。 java里面支持的位运算

Java编码原理与字符集编码转换
数字运算与位运算在2进制里面,一个位只可能是0,或者1。 java里面支持的位运算有:

~ 按位非(NOT)
& 按位与(AND)
| 按位或(OR)
^ 按位异或(XOR

位操作需要跟逻辑操作区分开(逻辑运算符AND(&&)、OR(||)以及NOT(!)能生成一个布尔值(true或false) ——以自变量的逻辑关系为基础) ,这里的区分的重点是敲代码不要敲错了。。。。数字的表示计算机数字有原码、反码、补码三种存储格式,通常都是补码(方便减运算),java也不例外的使用补码。

补码:一个数如果为正,则它的原码、反码、补码相同;一个数如果为负,则符号位为1,其余各位是对原码取反,然后整个数加1。

+7的补码为: 00000111 -7的补码为: 第一步:11111000,第二步+1=11111001

补码求具体值也概括两句话:

正数补码的值就是本身值,负数补码的值分两步:

已知一个负数的补码,将其转换为十进制数,步骤:
1、先对各位取反;
2、将其转换为十进制数;
3、加上负号,再减去1。

Java代码
11111010,最高位为1, 是负数,先对各位取反得00000101,转换为十进制数得5,加上负号得-5, 再减1得-6。具体运算解析可参考:http://www.itwis.com/html/java/j2se/20090223/3407.html
~ 按位取反操作符,对每个二进制位的内容求反,即1变成0,0变成1
测试负数:
int a = -5;//101;
System.out.println(~a);
打印:4
过程是这样的,首先表示出来这个负数
1111 1111 1111 1111 1111 1111 1111 1011(上面已经提到为什么这样表示)
各位取反得到
0000 0000 0000 0000 0000 0000 0000 0100
转为10进制得到4
测试正数:int a = 5;//101;
System.out.println(~a);
打印:-6
首先表示出来这个正数:
0000 0000 0000 0000 0000 0000 0000 0101
各位取反得到:
1111 1111 1111 1111 1111 1111 1111 1010
这个代表的就是-6了,至于为什么看最上面
& 位与操作符,对应的二进制位进行与操作,两个都为1才为1,其他情况均为0测试:
System.out.println(5&6);
打 印:4
过程:
5表示成:0000 0000 0000 0000 0000 0000 0000 0101
6表示成:0000 0000 0000 0000 0000 0000 0000 0110
进行 & :0000 0000 0000 0000 0000 0000 0000 0100
得到:4
| 位或操作符,对应的二进制位进行或操作,两个都为0才为0,其他情况均为1测试:
System.out.println(5|6);
打 印:7
过程:
5表示成:0000 0000 0000 0000 0000 0000 0000 0101
6表示成:0000 0000 0000 0000 0000 0000 0000 0110
进行 | :0000 0000 0000 0000 0000 0000 0000 0111
得到:7
^ 异或操作符 当对应二进制位值相同,该位为0 否则为1测试:
System.out.println(5^6);
打 印:3
过程:
5表示成:0000 0000 0000 0000 0000 0000 0000 0101
6表示成:0000 0000 0000 0000 0000 0000 0000 0110
进行 ^ :0000 0000 0000 0000 0000 0000 0000 0011
得到:3

在Java中是左移、有符号右移和无符号右移运算 符。位移运算符只对int值进行操作,如果不是int,编译器会报错。在Java中,一个int的长度始终是 32bit,也就是4个字节。
<< 逻辑左移,右边补0
左移后低位空出来的不论符号全部补0,最高位由于挪动可能导致0/1更替使得数字颠倒了正负。
>>带符号右移运算:把操作数向右移动,移动的位个数同样由操作数指定。如果原值是正数, 则高位补上0;如果原值是负数,高位补1。由于高位补0还是1跟正负有关,所以叫带符号右移
>>>无符号的右移运算类似>>,区别在于:无论是正号还是负号,都在 高位补0。



字节码与16进制间的转换

//字节码转换成16进制字符串  public static String byte2hex(byte bytes[]){    StringBuffer retString = new StringBuffer();    for (int i = 0; i < bytes.length; ++i)    {      retString.append(Integer.toHexString(0x0100 + (bytes[i] & 0x00FF)).substring(1).toUpperCase());    }    return retString.toString();  }    //将16进制字符串转换成字节码  public static byte[] hex2byte(String hex) {    byte[] bts = new byte[hex.length() / 2];    for (int i = 0; i < bts.length; i++) {       bts[i] = (byte) Integer.parseInt(hex.substring(2*i, 2*i+2), 16);    }    return bts;   }        * Convert byte[] to hex string.这里我们可以将byte转换成int,然后利用Integer.toHexString(int)来转换成16进制字符串。     * @param src byte[] data     * @return hex string     */       public static String bytesToHexString(byte[] src){        StringBuilder stringBuilder = new StringBuilder("");        if (src == null || src.length <= 0) {            return null;        }        for (int i = 0; i < src.length; i++) {            int v = src[i] & 0xFF;            String hv = Integer.toHexString(v);            if (hv.length() < 2) {                stringBuilder.append(0);            }            stringBuilder.append(hv);        }        return stringBuilder.toString();    }    /**     * Convert hex string to byte[]     * @param hexString the hex string     * @return byte[]     */    public static byte[] hexStringToBytes(String hexString) {        if (hexString == null || hexString.equals("")) {            return null;        }        hexString = hexString.toUpperCase();        int length = hexString.length() / 2;        char[] hexChars = hexString.toCharArray();        byte[] d = new byte[length];        for (int i = 0; i < length; i++) {            int pos = i * 2;            d[i] = (byte) (charToByte(hexChars[pos]) << 4 | charToByte(hexChars[pos + 1]));        }        return d;    }    /**     * Convert char to byte     * @param c char     * @return byte     */     private byte charToByte(char c) {        return (byte) "0123456789ABCDEF".indexOf(c);    }

JAVA UNICODE 与 字节字符串 互相转换
public static String unicodeEncode(String strText) {        char c;        String strRet = "";        int intAsc;        String strHex;        for (int i = 0; i < strText.length(); i++) {            c = strText.charAt(i);            intAsc = c;            if (intAsc > 128) {                strHex = Integer.toHexString(intAsc);                strRet += "\\u" + strHex;            } else {                strRet = strRet + c;            }        }        return strRet;    }        public static String unicodeDecode(String strText) {        StringBuilder sb = new StringBuilder();        int i = 0;        char c;        while (i < strText.length()) {            c = strText.charAt(i);            if (c == '\\' && (i + 1) != strText.length() && strText.charAt(i + 1) == 'u') {                sb.append((char) Integer.parseInt(strText.substring(i + 2, i + 6), 16));                i += 6;            } else {                sb.append(c);                i++;            }        }        return sb.toString();    }

下面是我作得测试代码
package com.zhengtian.test;import java.io.UnsupportedEncodingException;/** * 由于JDK是国际版的,在编译的时候,如果我们没有用-encoding参数指定我们的JAVA源程序的编码格式,则javac.exe首先获得我们操作系统默认采用的编码格式,也即在编译java程序时,若我们不指定源程序文件的编码格式,JDK首先获得操作系统的file.encoding参数( * 它保存的就是操作系统默认的编码格式 * ,如WIN2k,它的值为GBK),然后JDK就把我们的java源程序从file.encoding编码格式转化为JAVA内部默认的UNICODE格式放入内存中。然后,javac把转换后的unicode格式的文件进行编译成.class类文件,此时.class文件是UNICODE编码的 * ,它暂放在内存中,紧接着,JDK将此以UNICODE编码的编译后的class文件保存到我们的操作系统中形成我们见到的.class文件。对我们来说,我们最终获得的.class文件是内容以UNICODE编码格式保存的类文件,它内部包含我们源程序中的中文字符串,只不过此时它己经由file. * encoding格式转化为UNICODE格式了。当我们不加设置就编译时,相当于使用了参数:javac -encoding gbk XX.java,当然就会出现不兼容的情况。 *  * 解决办法是:应该使用-encoding参数指明编码方式:javac -encoding UTF-8 XX.java *  * 获取系统默认编码: System.getProperty("file.encoding"); *  * @author zhengtian *  * @date 2011-6-16 下午09:18:23 */@SuppressWarnings("all")public class test {public static void main(String[] args) {try {/** * 测试一个汉字采用不同的编码格式占用几个字节 */String s = "我";System.out.println("一个汉字用gbk编码后的所占的字节数:" + s.getBytes("GBK").length);System.out.println("一个汉字用utf-8编码后的所占的字节数:" + s.getBytes("UTF-8").length);System.out.println("一个汉字用ISO-8859-1编码后的所占的字节数:" + s.getBytes("ISO-8859-1").length);/** * 操作系统默认的编码格式与操作系统的区域语言有关系,下面为中文不同地区的操作系统默认的编码格式 * 标准和格式 JVM默认字符集  * 中文(中国) GBK  * 中文(新加坡) GBK  * 中文(香港特别行政区) MS950  * 中文(澳门特别行政区) MS950  * 中文(台湾) MS950 * JVM是从系统变量file.encoding中读取操作系统的默认编码的字符集,来设置JVM的字符集编码。 * 注意:如果在eclipse中认为设定过编码格式后,获取的值会根据当前文件设置的编码的变化而变化 *  */System.out.println(System.getProperty("file.encoding"));/** * 输出字符的长度,也就是输出char[]数组的长度 */System.out.println(s.length());System.out.println(s.toCharArray().length);System.out.println(s.getBytes("ISO-8859-1").length);for (byte b : s.getBytes()) {/** * 将字符串转换为字节数组后,存储在内存中,此时的编码格式为unicode */System.out.println(b);}} catch (UnsupportedEncodingException e) {e.printStackTrace();}}}

需要注意的是:
每种基本类型都有对应的包装类,且包装类有自己的编码格式,如下所示:

热点排行