免费的Lucene 原理与代码分析完整版下载

lucene是一个基于java的高效的全文检索库。

那么什么是全文检索，为什么需要全文检索？

目前人们生活中出现的数据总的来说分为两类：结构化数据和非结构化数据。很容易理解，结构化数据是有固定格式和结构的或者有限长度的数据，比如数据库，元数据等。非结构化数据则是不定长或者没有固定格式的数据，如图片，邮件，文档等。还有一种较少的分类为半结构化数据，如xml，html等，在一定程度上我们可以将其按照结构化数据来处理，也可以抽取纯文本按照非结构化数据来处理。

非结构化数据又称为全文数据。，对其搜索主要有两种方式:

顺序扫描法（serialscanning）：顾名思义，要找内容包含某一个字符串的文档，就挨着文档一个个找，对照每一个文档从头到尾，一直扫描，指导扫描完所有的文档。类似于windows中搜索文件的功能。

第二种则为索引。就是从非结构化数据中提取出信息重新组织，使其变得有一定的组织，从而提高检索效率。比如我们的电话簿，从电话簿中查找联系人，我们根据首字母拼音可以索引定位到某一个联系人。

先建立索引在对索引进行搜索的过程就叫做全文检索（full-text search）。下图为全文检索的一般过程，也是lucene检索的过程。

lucene总的来说是：

一个高效的，可扩展的，全文检索库。

全部用java实现，无须配置。

仅支持纯文本文件的索引(indexing)和搜索(search)。

不负责由其他格式的文件抽取纯文本文件，或从网络中抓取文件的过程。

在lucene in action中，lucene 的构架和过程如下图，

说明lucene是有索引和搜索的两个过程，包含索引创建，索引，搜索三个要点。

让我们更细一些看lucene的各组件：

被索引的文档用document对象表示。

indexwriter通过函数adddocument将文档添加到索引中，实现创建索引的过程。

lucene的索引是应用反向索引。

当用户有请求时，query代表用户的查询语句。

indexsearcher通过函数search搜索lucene index。

indexsearcher计算term weight和score并且将结果返回给用户。

返回给用户的文档集合用topdocscollector表示。

那么如何应用这些组件呢？

让我们再详细到对lucene api 的调用实现索引和搜索过程。

索引过程如下：

创建一个indexwriter用来写索引文件，它有几个参数，index_dir就是索引文件所存放的位置，analyzer便是用来对文档进行词法分析和语言处理的。

创建一个document代表我们要索引的文档。

将不同的field加入到文档中。我们知道，一篇文档有多种信息，如题目，作者，修改时间，内容等。不同类型的信息用不同的field来表示，在本例子中，一共有两类信息进行了索引，一个是文件路径，一个是文件内容。其中filereader的src_file就表示要索引的源文件。

indexwriter调用函数adddocument将索引写到索引文件夹中。

搜索过程如下：

indexreader将磁盘上的索引信息读入到内存，index_dir就是索引文件存放的位置。

创建indexsearcher准备进行搜索。

创建analyer用来对查询语句进行词法分析和语言处理。

创建queryparser用来对查询语句进行语法分析。

queryparser调用parser进行语法分析，形成查询语法树，放到query中。

indexsearcher调用search对查询语法树query进行搜索，得到结果topscoredoccollector。

以上便是lucene api函数的简单调用。

然而当进入lucene的源代码后，发现lucene有很多包，关系错综复杂。

然而通过下图，我们不难发现，lucene的各源码模块，都是对普通索引和搜索过程的一种实现。

lucene的analysis模块主要负责词法分析及语言处理而形成term。

lucene的index模块主要负责索引的创建，里面有indexwriter。

lucene的store模块主要负责索引的读写。

lucene的queryparser主要负责语法分析。

lucene的search模块主要负责对索引的搜索。

lucene的similarity模块主要负责对相关性打分的实现。

了解了lucene的整个结构，我们便可以开始lucene的源码之旅了。

免费的Lucene 原理与代码分析完整版下载

继续阅读

27 Best Free Eclipse Plug-ins for Java Developer to be ProductiveCode Quality PluginsText Editor PluginsDependency ManagementVersion Control Integration PluginsFramework Development Continuous Integration Related PluginsOther Utility Plugins

Java String.format方法的简单使用

neo4j之cypher使用文档

GitHub连夜封杀！这份阿里 10W 字内部 Java 字面试手册到底有多强？

spark/scala关于【资源文件】加载方法概述外部文件加载方案测试资源文件打包入jar包中小结

NOSQL安全攻击

mybatis_入门程序Mybatis入门

AOP编程_Android优雅权限框架(1)概念基础，2021金三银四前言正文大纲正文

登录plsql 报错 the account is locked --用户被锁

Effective Java 8:通用程序设计

SequoiaDB巨杉数据库C++驱动概述

OOM三种类型

工厂模式-三种类型

【递归】高效率求2的n次幂

win10本地scala和spark安装安装scala安装spark

scala (3) Function 和 Method