理清Java中字符与字节的编码关系

在 GB 2312 编码或 GBK 编码中,一个英文字母字符存储需要1个字节,一个汉字字符存储需要2个字节。 在UTF-8编码中,一个英文字母字符存储需要1个字节,一个汉字字符储存需要3到4个字节。在UTF-16编码中,一个英文字母字符存储需要2个字节,一个汉字字符储存需要3到4个字节(Unicode扩展区的一些汉字存储需要4个字节)。在UTF-32编码中,世界上任何字符的存储都需要4个字节。

1、我的系统的默认编码方式为GBK,因此对于字符串 “你好hello”,

如果调用length()方法返回其长度,得到的结果将为:7。该方法返回的是字符串的字符数,无论是中文字符还是英文字符,都被看做是一个字符。

如果将其转换为byte数组,而后返回byte数组的长度,得到的结果将为:9。因为在GBK编码中,中文占2个字节,而英文字符占1个字节。

执行如下代码,将得到如下图所示的输出:

 

[java][/java] view plaincopy

  1. public class Hel {
  2.     public static void main(String[] args){
  3.         String str = “你好hello”;
  4.             int byte_len = str.getBytes().length;
  5.             int len = str.length();
  6.             System.out.println(“字节长度为:” + byte_len);
  7.         System.out.println(“字符长度为:” + len);
  8.         System.out.println(“系统默认编码方式:” + System.getProperty(“file.encoding”));
  9.        }
  10. }

输出结果如下图:

 

 

2、将编码方式为改为utf-8,即执行如下代码:

 

[java][/java] view plaincopy

  1. public class Hel {
  2.     public static void main(String[] args)throws Exception{
  3.         String str = “你好hello”;
  4.             int byte_len = str.getBytes(“utf-8”).length;
  5.             int len = str.length();
  6.             System.out.println(“字节长度为:” + byte_len);
  7.         System.out.println(“字符长度为:” + len);
  8.         System.out.println(“系统默认编码方式:” + System.getProperty(“file.encoding”));
  9.        }
  10. }

 

对于字符串 “你好hello”,得到的输出结果如下:

此时得到的的byte数组的长度为:11。因为在utf-8编码中,该中文字符占了3个字节,英文字符占1个字节。

3、如果将编码方式改为:utf-16,输出结果如下:

此时得到的的byte数组的长度为:16。因为在utf-16编码中,该中文字符占了3个字节,英文字符占2个字节。

 

3、如果将编码方式改为:utf-32,输出结果如下:

     此时得到的的byte数组的长度为:28。因为在utf-16编码中,所有的字符均占4个字节。

标签