天天看点

解决mysql存储特殊文字(表情符号)utf8mb4一、背景解决办法

一、背景

爬取数据过程中,会遇到一些特殊的字符入库出错的问题,比如二进制数据、比如特殊文字(类似QQ表情)等。

Siberian Husky fighting
           

这样的标题,后面就带有一个表情。

在mysql存储的时候,报错信息如下:

[Failure instance: Traceback: <class 'pymysql.err.InternalError'>: (1366, "Incorrect string value: '\\xF0\\x9F\\x90\\xB6' for column 'title' at row 1")
           

大致意思是指title这个字段无法存储这种字符。

解决办法

经过网上搜索mysql 1366,多方查看后,终于找到了原因和解决的办法。

是因为\xF0\x9F\x90\xB6 它通常是4个字符存储,而mysql的utf8默认是3个字符存储。

1、 更改代码中数据库连接的字符编码charset为utf8mb4

MYSQL_CHARSET = 'utf8mb4'
           

2、将数据库字符集编码页改成utf8mb4。

3、检查数据表的字符编码,保持同步。

4、最后确认数据表中的字段,存储这种特殊文字的字段字符编码也是utf8mb4

输入图片说明

这样就解决了这个问题。

如果你没有小心处理好,可以尝试新建一个数据库,然后将默认的字符编码设置为utf8mb4.