使用Elasticsearch 7.9.1实现对word，pdf，txt文件的全文内容检索

简单介绍一下需求

能支持文件的上传，下载
要能根据关键字，搜索出文件，要求要能搜索到文件里的文字，文件类型要支持word，pdf，txt

文件上传，下载比较简单，要能检索到文件里的文字，并且要尽量精确，这种情况下很多东西就需要考虑进去了。这种情况下，我决定使用

Elasticsearch

来实现。

因为准备找工作刷牛客的原因，发现很多面试官都问到了 Elasticsearch ，再加上那时候我连 Elasticsearch 是什么东西都不知道，所以就决定尝试一下新东西。不得不说 Elasticsearch 版本更新的是真的快，前几天才使用了 7.9.1 ，结果25号就出来了 7.9.2 版本。

Elasticsearch简介

Elasticsearch

是一个开源的搜索文献的引擎，大概含义就是你通过

Rest

请求告诉它关键字，他给你返回对应的内容，就这么简单。

Elasticsearch

封装了

Lucene

，

Lucene

是

apache

软件基金会一个开放源代码的全文检索引擎工具包。

Lucene

的调用比较复杂，所以

Elasticsearch

就再次封装了一层，并且提供了分布式存储等一些比较高级的功能。

基于

Elasticsearch

有很多的插件，我这次用到的主要有两个，一个是

kibana

，一个是

Elasticsearch-head

。

kibana 主要用来构建请求，它提供了很多自动补全的功能。
Elasticsearch-head 主要用来可视化 Elasticsearch 。

开发环境

首先安装

Elasticsearch

，

Elasticsearch-head

，

kibana

，三个东西都是开箱即用，双击运行。需要注意的是

kibana

的版本要和

Elasticsearch

的版本对应。

Elasticsearch-head

是

Elasticsearch

的可视化界面，

Elasticsearch

是基于

Rest

风格的

API

来操作的，有了可视化界面，就不用每次都使用

Get

操作来查询了，能提升开发效率。

Elasticsearch-head

是使用

node.js

开发的，在安装过程中可能会遇到跨域的问题：

Elasticsearch

的默认端口是

，而

Elasticsearch-head

的默认端口是

，需要改一下配置文件，具体怎么改就不详细说啦，毕竟有万能的搜索引擎。

Elasticsearch

安装完成之后，访问端口，就会出现以下界面。

使用Elasticsearch 7.9.1实现对word，pdf，txt文件的全文内容检索

核心问题

有两个需要解决的核心问题，文件上传和输入关键词查询。

文件上传

首先对于

txt

这种纯文本的形式来说，比较简单，直接将里面的内容传入即可。但是对于

pdf，word

这两种特殊格式，文件中除了文字之外有很多无关的信息，比如图片，pdf中的标签等这些信息。这就要求对文件进行预处理。

Elasticsearch5.x以后提供了名为

ingest node

的功能，

ingest node

可以对输入的文档进行预处理。如图，PUT请求进入后会先判断有没有

pipline

，如果有的话会进入

Ingest Node

进行处理，之后才会正式被处理。

Ingest Attachment Processor Plugin

是一个文本抽取插件，本质上是利用了

Elasticsearch

的

ingest node

功能，提供了关键的预处理器

attachment

。在安装目录下运行以下命令即可安装。

./bin/elasticsearch-plugin install ingest-attachment

定义文本抽取管道

PUT /_ingest/pipeline/attachment
{
    "description": "Extract attachment information",
    "processors": [
        {
            "attachment": {
                "field": "content",
                "ignore_missing": true
            }
        },
        {
            "remove": {
                "field": "content"
            }
        }
    ]
}

在

attachment

中指定要过滤的字段为

content

，所以写入

Elasticsearch

时需要将文档内容放在

content

字段。

运行结果如图：

建立文档结构映射

文本文件通过预处理器上传后以何种形式存储，我们需要建立文档结构映射来定义。PUT定义文档结构映射的时候就会自动创建索引，所以我们先创建一个

docwrite

的索引，用于测试。

PUT /docwrite
{
  "mappings": {
    "properties": {
      "id":{
        "type": "keyword"
      },
      "name":{
        "type": "text",
        "analyzer": "ik_max_word"
      },
      "type":{
        "type": "keyword"
      },
      "attachment": {
        "properties": {
          "content":{
            "type": "text",
            "analyzer": "ik_smart"
          }
        }
      }
    }
  }
}

在

ElasticSearch

中增加了

attachment

字段，这个字段是

attachment

命名

pipeline

抽取文档附件中文本后自动附加的字段。这是一个嵌套字段，其包含多个子字段，包括抽取文本 content 和一些文档信息元数据。

同是对文件的名字name指定分析器

analyzer

为

ik_max_word

，以让

ElasticSearch

在建立全文索引时对它们进行中文分词。

测试

经过上面两步，我们进行简单的测试。因为

ElasticSearch

是基于

 JSON

格式的文档数据库，所以附件文档在插入

ElasticSearch

之前必须进行

Base64

编码。先通过下面的网站将一个pdf文件转化为

base64

的文本。PDF to Base64

测试文档如图：

然后通过以下请求上传上去，我找了一个很大的pdf文件。需要指定的是我们刚创建的

pipeline

，结果如图所示。

原来的索引有个 type 类型，新版本后面会被弃用，默认的版本都是 _doc

然后我们通过

GET

操作看看我们的文档是否上传成功。可以看到已经被解析成功。

如果不指定

pipline

的话，就会出现无法解析的情况。

根据结果我们看到，我们的PDF文件已经通过我们自行定义的

pipline

，然后才正式进入索引数据库

docwrite

。

关键字查询

关键字查询即对输入的文字，能进行一定的分词处理。比如说对于“数据库计算机网络我的电脑”这一串词来说，要能将其分为“数据库”，“计算机网络”，“我的电脑”三个关键词，然后分别根据关键字查询。

Elasticsearch

自带了分词器，支持所有的

Unicode

字符，但是它只会做最大的划分，比如对于

进口红酒

这四个字，会被分为

“进”，“口”，“红”，“酒”

这四个字，这样查询出来的结果就会包括

“进口”，“口红”，“红酒”

。

这并不是我们想要的结果。我们想要的结果是，只分为

“进口”，“红酒”

这两段，然后查询相应的结果。这就需要使用支持中文的分词器了。

ik分词器

ik分词器

是开源社区比较流行的中文分词插件，我们首先安装ik分词器，注意以下代码不能直接使用。

./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/...这里找你的版本

ik分词器

包括两种模式。

ik_max_word 会把中文尽可能的拆分。
ik_smart 会根据常用的习惯进行划分，比如 "进口红酒” 会被划分为 “进口”，“红酒” 。

我们使用在查询时，指定

ik分词器

进行查询文档，比如对于插入的测试文档，我们使用

ik_smart

模式搜索，结果如图。

GET /docwrite/_search
{
  "query": {
    "match": {
      "attachment.content": {
        "query": "实验一",
        "analyzer": "ik_smart"
      }
    }
  }
}

我们可以指定

Elasticsearch

中的高亮，来为筛选到的文字添加标签。这样的话文字前后都会被添加上标签。如图。

编码

编码使用

Idea+maven

的开发环境，首先导入依赖，依赖一定要与

Elasticsearch

的版本相对应。

导入依赖

Elstacisearch

对于

Java

来说有两个

API

，我们使用的封装的比较完善的高级

API

。

<dependency>
    <groupId>org.elasticsearch.client</groupId>
    <artifactId>elasticsearch-rest-high-level-client</artifactId>
    <version>7.9.1</version>
</dependency>

文件上传

先建立一个与上文对应的

fileObj

对象

public class FileObj {
    String id; //用于存储文件id
    String name; //文件名
    String type; //文件的type，pdf，word，or txt
    String content; //文件转化成base64编码后所有的内容。
}

首先根据上文所诉，我们要先将文件以字节数组的形式读入，然后转化成

Base64

编码。

public FileObj readFile(String path) throws IOException {
    //读文件
    File file = new File(path);
    
    FileObj fileObj = new FileObj();
    fileObj.setName(file.getName());
    fileObj.setType(file.getName().substring(file.getName().lastIndexOf(".") + 1));
    
    byte[] bytes = getContent(file);
    
    //将文件内容转化为base64编码
    String base64 = Base64.getEncoder().encodeToString(bytes);
    fileObj.setContent(base64);
    
    return fileObj;
}

java.util.Base64

已经提供了现成的函数

Base64.getEncoder().encodeToString

供我们使用。

接下来就可以使用

Elasticsearch

的API将文件上传了。

上传需要使用

IndexRequest

对象，使用

FastJson

将

fileObj

转化为

Json

后，上传。需要使用

indexRequest.setPipeline

函数指定我们上文中定义的

pipline

。这样文件就会通过

pipline

进行预处理，然后进入

fileindex

索引中。

public void upload(FileObj file) throws IOException {
    IndexRequest indexRequest = new IndexRequest("fileindex");
    
    //上传同时，使用attachment pipline进行提取文件
    indexRequest.source(JSON.toJSONString(file), XContentType.JSON);
    indexRequest.setPipeline("attatchment");
    
    IndexResponse indexResponse = client.index(indexRequest, RequestOptions.DEFAULT);
    System.out.println(indexResponse);
}

文件查询

文件查询需要使用

SearchRequest

对象，首先我要指定对我们的关键字使用

ik分词器

的

ik_smart

模式分词

SearchSourceBuilder srb = new SearchSourceBuilder();
srb.query(QueryBuilders.matchQuery("attachment.content", keyword).analyzer("ik_smart"));
searchRequest.source(srb);

之后我们就可以通过返回的

Response

对象获取每一个

hits

，之后获取返回的内容。

Iterator<SearchHit> iterator = hits.iterator();
int count = 0;
while (iterator.hasNext()) {
    SearchHit hit = iterator.next();
}

Elasticsearh

一个非常强大的功能是文件的高亮（highlight）功能，所以我们可以设置一个

highlighter

，对查询到的文本进行高亮操作。

HighlightBuilder highlightBuilder = new HighlightBuilder();
HighlightBuilder.Field highlightContent = new HighlightBuilder.Field("attachment.content");
highlightContent.highlighterType();
highlightBuilder.field(highlightContent);
highlightBuilder.preTags("<em>");
highlightBuilder.postTags("</em>");
srb.highlighter(highlightBuilder);

我设置了前置

<em></em>

标签对对查询的结果进行包裹。这样查询到的结果中就会包含对应的结果。

多文件测试

简单的demo写好了，但是效果怎么样还需要使用多个文件进行测试。这是我的一个测试文件夹，里面下面放了各种类型的文件。

将这个文件夹里面的全部文件上传之后，使用

elestacisearch-head

可视化界面查看导入的文件。

搜索代码：

/**
     * 这部分会根据输入的关键字去查询数据库中的信息，然后返回对应的结果
     * @throws IOException
     */
    @Test
    public void fileSearchTest() throws IOException {
        ElasticOperation elo = eloFactory.generate();

        elo.search("数据库国务院计算机网络");
    }

运行我们的demo，查询的结果如图所示。

demo的代码全部在：github链接

还存在的一些问题

1. 文件长度问题

通过测试发现，对于文本内容超过10万字的文件，

elasticsearch

只保留10w字，后面的就被截断了，这就需要进一步了解

Elasticsearch

对10w字以上的文本的支持。

2. 编码上的一些问题

我的代码中，是将文件全部读入内存之后，在进行一系列的处理，毫无疑问，必定会带来问题，比如假如是一个超出内存的超大文件，或者是若干个大文件，在实际生产环境中，文件上传就会占用服务器的相当一大部分内存和带宽，这就要根据具体的需求，做进一步的优化。

参考的内容

[1] ElasticSearch 全文检索实战

[2] 如何在 Elasticsearch 中使用 pipeline API 来对事件进行处理

[3] b站狂神说教学

[4] Elasticsearch中ik分词器的使用