Elasticsearch 设置默认值的三种方式

2、Elasticsearch Mapping 层面默认值

认知前提：严格讲 Elasticsearch 是不支持 Mapping 层面设置数据类型的时候，设置字段的默认值的。

有人会说，null value 设置算不算？不算。

大家看一下：

PUT my-index-000001

{

"mappings": {

"properties": {

"status_code": {

"type": "keyword",

"null_value": "NULL"

}

null_value 的本质是将“NULL” 替换 null 值，以使得空值可被索引或者检索。

我们期望设置 Mapping 的时候，可以对各种数据类型添加一个任意指定的缺省值。但是 Elasticsearch Mapping 层面不支持，咋办？

只能去寻找其他的方案。

3、曲线救国实现 Elasticsearch 设置默认值

直接给出答案，共三种设置默认值的。

3.1 方案一：pipeline 设置默认值

# 创建 append 管道

PUT _ingest/pipeline/add_default_pipeline

"processors": [

{

"set": {

"field": "sale_count",

"value": 1

]

# 创建索引

PUT customer

"mappings":{

"properties":{

"sale_count":{

"type":"integer"

"major":{

"type":"keyword",

"null_value": "NULL"

"settings": {

"index":{

"default_pipeline":"add_default_pipeline"

插入数据，验证一把：

POST customer/_doc/1

"major":null

返回结果：

"max_score" : 1.0,

"hits" : [

{

"_index" : "customer",

"_type" : "_doc",

"_id" : "1",

"_score" : 1.0,

"_source" : {

"major" : null,

"sale_count" : 1

}

]

以上的方式，实现了sale_count 的默认值为1 的设置。

是借助索引设计层面在 setting 中关联 default_pipeline 实现的。

实现方式相对简单，能保证用户在设置索引的前提下，用户只关注写入数据，其他后台预处理管道帮助实现细节。

引申一下，针对开篇提到的第二个问题：

create_time 借助 pipeline 管道预处理 set processor 实现即可。

PUT _ingest/pipeline/create_time_pipeline

"description": "Adds create_time timestamp to documents",

"field": "_source.create_time",

"value": "{{_ingest.timestamp}}"

DELETE my_index_0003

PUT my_index_0003

"settings": {

"index.default_pipeline": "create_time_pipeline"

}

POST my_index_0003/_doc/1

{}

GET my_index_0003/_search

update_time 自己维护更新，业务更新的时刻通过代码或者脚本加上时间戳就可以。

3.2 方案二：update_by_query 通过更新添加默认值

POST customer/_doc/2

# 批量更新脚本

POST customer/_update_by_query

"script": {

"lang": "painless",

"source": "if (ctx._source.major == null) {ctx._source.major = 'student'}"

POST customer/_search

结果是：

所有 major 为 null 的，都实现了更新，设置成了：“student"。

该方式属于先写入数据，然后实现数据层面的更新，算作设置默认值甚至都有点勉强。

3.3 方案三：借助 pipeline script 更新

PUT _ingest/pipeline/update_pipeline

"script": {

"lang": "painless",

"source": """

if (ctx['major'] == null) {ctx['major'] = 'student'}

"""

POST customer/_doc/4

POST customer/_update_by_query?pipeline=update_pipeline

"query": {

"match_all": {}

结果是：同方案二，也实现了更新。

该方案是第二种方案的内卷版本，本质实现基本一致。

强调细节不同点，ctx 取值的时候，细节语法不一样：

脚本script 操作，访问方式：ctx._source.major。

pipeline 预处理脚本操作：访问方式：ctx['major'] 。

4、小结

本文讲解了 Elasticsearch 实现类关系型数据库默认值的三种方案，只有第一种属于前置设置默认值。

后两种都是先写入后设置默认值的脚本更新实现方案。实战方案选型，推荐方案一

Elasticsearch 设置默认值的三种方式

继续阅读

2022秋招面试总结（cpp+java+测开）百度测开一面字节后端一面虾皮后端一面虾皮后端二面

数据库之DDL操作数据库DDL操作数据库DDL操作数据表

数据库之DQL操作数据库

mysql优化（sql优化）

数据迁移方法数据迁移原则数据迁移之双写方案数据迁移之级联同步方案

redis集群数据一致性_RedisRaft为Redis集群带来强大的数据一致性

宝塔面板mysql恢复2018.1.8更新

Centos7 MySQL 5.7 安装MySQL 5.7 安装

查找入职员工时间排名倒数第三的员工所有信息

Hibernate使用Hibernate的“3个准备，7个步骤”Hibernate API简介操作实体对象对象识别

云计算面试题——mysql/存储引擎/备份

SQL语言基础：常用的数据查询语句

Ubuntu16.04安装Apache+MySQL+PHP1. 安装Apache2. 安装MySQL3. 安装PHP4. 安装phpMyAdmin

MySQL的4种隔离级别？出现问题

neo4j之cypher使用文档

mysql使用source命令导入.sql文件