一、数据库中文乱码

二、数据库中文正常展示

三、gbk和utf8

GBK和UTF-8文字编码的特点：

GBK和UTF-8文字编码的区别：

编码方案：

一、数据库中文乱码

一般来说，我们的数据库都是utf-8编码，所以我们在存储Blob类型的时候，会将二进制流使用utf-8编码（blob.getBytes("UTF-8")），但是存到数据库中，却展示的乱码，想要知道其中含义，就要查询数据库，然后new String(logUTF.getRequMes(), "UTF-8") 转成字符串，来查看存储的中文。

二、数据库中文正常展示

Blob类型数据，只要二进制流使用 blob.getBytes("GBK")）编码，存到数据库就是展示的中文。

看到这里会不会有一个疑问呢? 数据库设置的是utf-8编码，即使提前转成GBK，存到数据库难道不会GBK->UTF-8么？看测试代码！！！

        // 插入日志
        LogInfoWithBLOBs logIso = new LogInfoWithBLOBs();
        logIso.setId(1112);
        String httpUrl = "白存";
        // byte[] gbks = httpUrl.getBytes("GBK");  //-80，-41，-76，-26
        byte[] gbkUTF = httpUrl.getBytes("UTF-8"); //-25，-103，-67，-27，-83，-104
        logIso.setRequMes(gbkUTF);
        logInfoMapper.insert(logIso);
        //  查询日志
        LogInfoWithBLOBs logIsos = logInfoService.queryLogInfo(1112);
        try {
            byte[] requMes = logIsos.getRequMes();
            String a = new String(requMes, "GBK");
            logger.info("GBK-查询二进制结果日志："+ a);
        } catch (UnsupportedEncodingException e) {
            e.printStackTrace();
        }

通过简单的测试类，这才明白。数据库存的是二进制字节，无论GBK还是UTF-8都是将字符编码成二进制，所以，二进制的数据会直接存到数据库，而不会出现开始想象的GBK->UTF-8。而且Unicode是统一编码，故而数据库中展示的就是中文。

三、gbk和utf8

GBK和UTF-8文字编码的特点：

GBK的文字编码是双字节来表示的，即不论中、英文字符均使用双字节来表示，对于存储英文字符比较多的情况，资源空间占比大。

至于UTF－8编码则是用以解决国际上字符的一种多字节编码，它对英文使用8位（即一个字节），中文使用24位（三个字节）来编码。

对于英文字符较多的论坛则用UTF－8节省空间。

GBK和UTF-8文字编码的区别：

　　GBK包含全部中文字符；

　　UTF-8则包含全世界所有国家需要用到的字符。

　　GBK是在国家标准GB2312基础上扩容后兼容GB2312的标准；（好像还不是国家标准）

　　UTF-8编码的文字可以在各国各种支持UTF8字符集的浏览器上显示。

　　比如，如果是UTF8编码，则在外国人的英文IE上也能显示中文，而无需他们下载IE的中文语言支持包。

　　所以，对于英文比较多的论坛，使用GBK则每个字符占用2个字节，而使用UTF－8英文却只占一个字节。

编码方案：

　　GBK就是在保存你的帖子的时候，一个汉字占用两个字节。外国人看会出现乱码，此为我中华为自己汉字编码而形成之解决方案。

　　UTF8就是在保存你的帖子的时候，一个汉字占用3个字节。但是外国人看的话不会乱码，此为西人为了解决多字节字符而形成之解决方案。

　　ASCII（ISO-8859-1）是鼻祖，最简单的方式，字节高位为0。

　　GB2312、GBK、GB18030，这几个是中文编码方式，并向下兼容。GB2312包含7000多个汉字和字符，GBK包含21000多个，GB18030更厉害，到了27000多个。他们都是用2个字节来表示一个汉字。跟ascii是怎么区分的呢？如果高字节的高位为1（也就是高字节大于127），就表示是汉字，低字节并无明显特征。

　　Unicode是统一编码，它建立了一个全世界统一的码表。世界上的所有文字，在这张码表中都是唯一的。

　　UTF－8是Unicode的一种存储、传输方式。它将整个Unicode码表分为3部分。

　　0000 - 007F 这部分是最初的ascii部分，按原始的存储方式，即0xxxxxxx。

　　0080 - 07FF 这部分存储为110xxxxx 10xxxxxx。

　　0800 - FFFF 这部分存储为1110xxxx 10xxxxxx 10xxxxxx。

　　因此，一个汉字究竟被存储为什么，就需要：先查unicode码表，然后根据在码表的位置进行计算。例如：“电”字，在码表中是3575，计算成utf8就是E794B5，而在GB2312的码表中为B5E7。

　　UTF－8的好处：兼容ASCII，存储英文文件都是单字节，文件小。当然，当以存中文为主时就变成了3字节编码了，比GB系列还大！如何标明一个文件是utf8格式呢？这个标记是可选的：EF BB BF。比如，用windows自带的记事本创建一个utf8格式的文件，就会加上这个标记。但是，如果用ultraedit创建utf8文件，并不会加上这个标记。这个标记有个术语，叫做BOM（Byte Order Mark）。不带BOM的utf8文件和GB2312文件怎么区分呢？我也不知道。唯一能想到的办法就是：先用一种试，如果出现乱码，就用另一种再试。

　　简言而知，GBK编码方式的编码是以中国国情而创造的，在国际上的兼容性不好，这也是为什么大多数的网页是使用UTF-8编码而不是GBK。

Blob类型存储中文一、数据库中文乱码二、数据库中文正常展示三、gbk和utf8

一、数据库中文乱码

二、数据库中文正常展示

三、gbk和utf8

GBK和UTF-8文字编码的特点：

GBK和UTF-8文字编码的区别：

编码方案：

继续阅读

java编程思想_006短路现象

九、设计模式以及查找、排序算法

这是我见过最简单理解NIO的文章了

Map集合中get不存在的key值，返回值问题

每日一学（14）——（面向对象）抽象类作为方法参数与返回值

effective java-tagged class to hierarchy class

单点登录-CAS

Docker 容器中文乱码解决方案

集合练习题1

java 编程思想第四版学习随记

java之单用户登录

Java反射是什么，为什么要用反射

Double类parseDouble和valueOf方法的区别

java调用Windows命令行

java打印任意边长的菱形

java 8 Lamda 求 List 中 Bigdecimal类型的各种值求最大值求最小值求和求平均值

Blob类型存储中文 一、数据库中文乱码二、数据库中文正常展示 三、gbk和utf8

一、数据库中文乱码

二、数据库中文正常展示

三、gbk和utf8

GBK和UTF-8文字编码的特点：

GBK和UTF-8文字编码的区别：

编码方案：

继续阅读

Blob类型存储中文一、数据库中文乱码二、数据库中文正常展示三、gbk和utf8