1. 汉字字符串与unicode之间的转换

1.1 stringToUnicode

  /**       
       * 获取字符串的unicode编码       
       * 汉字“木”的Unicode 码点为Ox6728       
       *       
       * @param s 木       
       * @return \ufeff\u6728  \ufeff控制字符 用来表示「字节次序标记（Byte Order Mark）」不占用宽度       
       * 在java中一个char是采用unicode存储的 占用2个字节 比如 汉字木 就是 Ox6728 4bit+4bit+4bit+4bit=2字节       
       */       
       public static String stringToUnicode(String s) {       
       try {       
       StringBuffer out = new StringBuffer("");       
       //直接获取字符串的unicode二进制       
       byte[] bytes = s.getBytes("unicode");       
       //然后将其byte转换成对应的16进制表示即可       
       for (int i = 0; i < bytes.length - 1; i += 2) {       
       out.append("\\u");       
       String str = Integer.toHexString(bytes[i + 1] & 0xff);       
       for (int j = str.length(); j < 2; j++) {       
       out.append("0");       
       }       
       String str1 = Integer.toHexString(bytes[i] & 0xff);       
       out.append(str1);       
       out.append(str);       
       }       
       return out.toString();       
       } catch (UnsupportedEncodingException e) {       
       e.printStackTrace();       
       return null;       
       }       
       }

测试

  @Test       
       public void testGetUnicode() throws Exception {       
       String str = "木";       
       String s = EncodeUtil.stringToUnicode(str);       
       System.out.println(s);  //Ox6728       
       }

1.2 unicodeToString

  /**       
       * Unicode转 汉字字符串       
       *       
       * @param str \u6728       
       * @return '木' 26408       
       */       
       public static String unicodeToString(String str) {       
           Pattern pattern = Pattern.compile("(\\\\u(\\p{XDigit}{4}))");       
       Matcher matcher = pattern.matcher(str);       
       char ch;       
       while (matcher.find()) {       
       //group 6728       
       String group = matcher.group(2);       
       //ch:'木' 26408       
       ch = (char) Integer.parseInt(group, 16);       
       //group1 \u6728       
       String group1 = matcher.group(1);       
       str = str.replace(group1, ch + "");       
       }       
       return str;       
       }

  @Test       
       public void testUnicodeToString() throws Exception {       
       String str = "\\u6728";       
       String s = EncodeUtil.unicodeToString(str);       
       System.out.println(s);  //木       
       }

2. 汉字字符串与UTF-8之间的转换

2.1 ConvertStringToUTF8

  /**       
       * 汉字 转换为对应的 UTF-8编码       
       * @param s 木       
       * @return E69CA8       
       */       
       public static String convertStringToUTF8(String s) {       
       if (s == null || s.equals("")) {       
       return null;       
       }       
       StringBuffer sb = new StringBuffer();       
       try {       
       char c;       
       for (int i = 0; i < s.length(); i++) {       
       c = s.charAt(i);       
       if (c >= 0 && c <= 255) {       
       sb.append(c);       
       } else {       
       byte[] b;       
       b = Character.toString(c).getBytes("utf-8");       
       for (int j = 0; j < b.length; j++) {       
       int k = b[j];       
       //转换为unsigned integer  无符号integer       
       /*if (k < 0)       
       k += 256;*/       
       k = k < 0? k+256:k;       
       //返回整数参数的字符串表示形式 作为十六进制（base16）中的无符号整数       
       //该值以十六进制（base16）转换为ASCII数字的字符串       
       sb.append(Integer.toHexString(k).toUpperCase());       
           // url转置形式       
       // sb.append("%" +Integer.toHexString(k).toUpperCase());       
       }       
       }       
       }       
       } catch (Exception e) {       
       e.printStackTrace();       
       }       
       return sb.toString();       
       }

  @Test       
       public void testConvertStringToUTF8() {       
       String str = "木";       
       String s = EncodeUtil.convertStringToUTF8(str);       
       System.out.println(s);  //E69CA8       
       }

2.2 ConvertUTF-8ToString

  /**       
       * UTF-8编码 转换为对应的 汉字       
       *       
       * @param s E69CA8       
       * @return 木       
       */       
       public static String convertUTF8ToString(String s) {       
       if (s == null || s.equals("")) {       
       return null;       
       }       
       try {       
       s = s.toUpperCase();       
       int total = s.length() / 2;       
       //标识字节长度       
       int pos = 0;       
       byte[] buffer = new byte[total];       
       for (int i = 0; i < total; i++) {       
       int start = i * 2;       
       //将字符串参数解析为第二个参数指定的基数中的有符号整数。       
       buffer[i] = (byte) Integer.parseInt(s.substring(start, start + 2), 16);       
       pos++;       
       }       
       //通过使用指定的字符集解码指定的字节子阵列来构造一个新的字符串。       
       //新字符串的长度是字符集的函数，因此可能不等于子数组的长度。       
       return new String(buffer, 0, pos, "UTF-8");       
       } catch (UnsupportedEncodingException e) {       
       e.printStackTrace();       
       }       
       return s;       
       }

  @Test       
       public void testConvertUTF8ToString() {       
       String str = "E69CA8";       
       String s = EncodeUtil.convertUTF8ToString(str);       
       System.out.print(s);  //木       
       }

3. unicode与utf-8之间的转换

3.1 unicode转为utf8

  //将unicode转换为utf-8       
       @Test       
       public void testUnicodeToUtf8() {       
       String str = "\\u6728";       
       //unicode转换为String String再转换为utf-8       
       String s = EncodeUtil.convertStringToUTF8(EncodeUtil.unicodeToString(str));       
       System.out.println(s);       
       }

3.2 utf8转为unicode

  //将utf-8转换为unicode       
       @Test       
       public void testUTF8ToUnicode() {       
       String str = "E69CA8";       
       //utf-8先转String String再转unicode       
       String s = EncodeUtil.stringToUnicode(EncodeUtil.convertUTF8ToString(str));       
       System.out.println(s);       
       }

总结来说：

1. java中的一个char是两个字节，以unicode方式存储在内存中。

2. 一个典型的错误是

String s = new String(”木”.getBytes(“utf-8”),”gbk”);

为什么会报错呢？原因是 utf-8编码的字节数组怎能使用gbk来解析呢？一个汉字在utf-8下占用3个字节，而在gbk下占用2个字节，是无法解析的。

3. java中提供了将汉字编码为utf8的方法 UrlEncoder.encode()以及解码的方法UrlDecoder.decode()

参考：

Java unicode中文编码转换和反转

java 汉字与UTF-8十六进制编码间相互转换方法

java中char与汉字占用字节个数问题

java中unicode utf-8以及汉字之间的转换工具类

1. 汉字字符串与unicode之间的转换

1.1 stringToUnicode

1.2 unicodeToString

2. 汉字字符串与UTF-8之间的转换

2.1 ConvertStringToUTF8

2.2 ConvertUTF-8ToString

3. unicode与utf-8之间的转换

3.1 unicode转为utf8

3.2 utf8转为unicode

继续阅读

windows 关闭端口被占用脚本

MySql实现分页查询的SQL，mysql实现分页查询的sql语句（转）

springboot 配置文件中属性变量引用方式@@解析

使用MySQL Workbench进行数据库设计——MySQL Workbench用法总结

href=

jdbcUrl is required with driverClassName错误解决

spring boot 2.0 报错：“jdbcUrl is required with driverClassName.” 解决办法！

springboot 2 Hikari 多数据源配置问题（dataSourceClassName or jdbcUrl is required）

关于java 获取 html select标签下拉框 option 文本内容隐藏域

Mysql 日期型，索引查询的问题

mysql 中 DATE_ADD(date,INTERVAL expr type)

Spring boot获取yml字段内容为null的各种情况

区别@ControllerAdvice 和@RestControllerAdvice

mysql查询包含逗号的数据，并逗号拆分为多行展现

nginx proxy_buffer_size 解决后端服务传输数据过多，其实是header过大的问题

通过一次SpringBoot打成war包部署到tomcat启动总结一般jar包冲突的解决方法