天天看点

干货 | 2018 Elastic 中国开发者大会笔记

我的感触如下:

1、Elastic各个产品线新特性大放异彩,Elastic早已不止是检索,已经成为一体化的完整数据处理堆栈,从数据摄入到分析展示、价值获取。功能更完善、更加简单、易用用、更可视化、更安全。

2、Elastic XPack/SQL等付费功能会从大公司到小公司逐渐推广。

3、随着Elastic上市,国内的业务也开展的如火如荼,从BAT等互联网公司、华为、到三大运营商、各大银行各个行业、各个领域都在以ELK作为基础架构,根据自己的业务做定制开发、优化、APM、自动化等;

这个势头也扩展到中小企业,未来几年更会满地开花。

4、Elastic社区在Elastic国内外进程中功不可没,“三人行必有我师”,大神们的实践对我们自己的Elastic学习、实践都有很好的借鉴价值。

干货 | 2018 Elastic 中国开发者大会笔记

1、Elasticsearch 最新产品新特性

1.1 更壮大的产品线

AuditBeat
FunctionBeat
Stack Monitoring
Logstash:Pipline Viewer           
干货 | 2018 Elastic 中国开发者大会笔记

1.2 更快的索引

更小的存储
更快的性能提升
更少的空间存储
可视化           
干货 | 2018 Elastic 中国开发者大会笔记

1.3 更完备的kibana

1)kibana增强的字段检索功能

2)可扩展的跨集群检索功能

3)跨大版本检索功能

支持5.X、6.X、7.X检索

干货 | 2018 Elastic 中国开发者大会笔记

4)Sql支持ODBC

干货 | 2018 Elastic 中国开发者大会笔记

1.4 更强大的安全性

1)去掉缺省的密码:changeme

2)增强的oAuth和kerberos安全认证

干货 | 2018 Elastic 中国开发者大会笔记

3)增强的kibana Spaces

开发者

安全

销售团队

每种Space有不同的权限

干货 | 2018 Elastic 中国开发者大会笔记

1.5 更NB的功能

1)索引管理UI

2)增强版本升级提升

之前的版本升级要先升级到主版本的大版本。

3)跨集群备份

2、Beats创始人分享

2.1 Beats起源

1)我们更关注Metrics指标而非日志本身。

2)将日志+metric指标+APM集成到一个系统形成Beats。

干货 | 2018 Elastic 中国开发者大会笔记

2.2 全栈的监控

底层、中间层、前端

Beats

开箱即用的解决方案

用模型和module搜集日志

用面板观看指标和维度信息

干货 | 2018 Elastic 中国开发者大会笔记

2.3 更强的可视化

1)性能追求不间断追求;

2)增强数据摄取稳定性,更快、不丢数;

3)kibana管理ES集群、用户权限管理、统一的UI入口。

金融、传统制造业、线下设备等都会发力

3、ElasticCode/CodeSearch

云端代码的搜索方案,Elasticsearch可以搜索Code了

3.1 ElasticCode初衷:

最好的开发工具,为开发者贡献更好的开发工具。

结合Elastic的影响力,2018.07 codeSearch加入Elastic。

3.2 ElasticCode产品介绍

1、帮助开发者理解、搜索、连接生产数据+代码仓库。

2、集成在kibana中。

3.3 Elastic Code解决问题

小的代码库——可以在IDE里面做到。

如果是大的代码库、地域分布也大——Elastic Code是好的方案。

Github上不也可以搜索代码? 痛点是什么?

TF-IDF 没有办法区分源代码和非代码;

搜索类的时候,更关注类的定义而不是调用场景;

3.4 ElasticCode还在开发阶段

1)可以跳转到定义的地方。

2)告诉方法所有被应用的地方。

3)列举所有的成员函数、成员变量。

4)生成环境结合kibana,定位产品问题对应源代码所在。

4、华为云——云搜索Elasticsearch实战

云搜索服务 = Elasticsearch + kibana+华为云化增强自研

4.1 站内搜索

4.1.1 智能分词

解决问题:1、新词;2、短语搜索、3、多租户问题

解决方案:泊松分词器

问题1:新词无法被搜索

举例:李世石是人名。

解决思路:马尔科夫模型训练

问题2:英文短语搜索

解决方案:泊松分词器 一行一个词

问题3:多租户、多词库设定

解决方案:泊松分词器,对每个索引指定不同的词库。

4.1.2 智能搜索(越搜越准)

解决方案:

记录用户的点击流信息 + 数据模型 = 提升搜索质量

点击流:文档+搜索语句+时间等信息

数据模型训练:深度学习、神经网络相关

4.2 多媒体搜索

4.2.1 图像检索

干货 | 2018 Elastic 中国开发者大会笔记

适用场景:图像版权、AR呈现、商品检索、素材检索。

方案:提取图像特征、量化、支持向量检索。

向量检索是暴力检索,主要要比较,会有性能和精度问题。

支持向量的表达方式:

1)原始向量

2)Hash值

4.2.2 音频检索

适用场景:音频、音乐版权

音频指纹:每段音频找到高能量的点,形成一个指纹。

指纹搜索——转化为文档搜索。

效果:100W首歌,共230ms时间。

4.3 日志&指标

日志接入

CSV文件接入

实时流计算服务FLink

4.4 运维服务化

1、优化

TopHtis + Sumbucket的聚合

TopHits优化为LastHits

2、一键部署

3、一键节点扩容、磁盘扩容

4、监控

5、OBS手动、定时备份

5、新加坡打车 Grab技术运维分享

Grab Elastic运维实践目的:高可用、帮助开发者

Grab类似:滴滴,扩展外卖、大众点评等扩展应用。

铭毅总结:Grab先后经历:AWS -> Elastic Cloud -> Elastic Cloud 企业版本,在Elastic 云化应用走出自己的实践道路。

5.1 个集群扩展到40+集群

5.2 使用AWS云

AWS加了一层代理

离线压测

5.3 监控

1)AWS原生态CloudWatch监控不好

2)DataDog监控

3)Scalyr慢查询、延时监控

https://www.scalyr.com/pricing

5.5 机器和内存关系

6、ELK在暴雪游戏中的应用

早期的监控方案:Guardian

新的数据平台:Telemetry

数据:Event、logs、Metrics

数据流架构

干货 | 2018 Elastic 中国开发者大会笔记
干货 | 2018 Elastic 中国开发者大会笔记

新的数据平台的好处:

BEAM自研告警系统

推荐阅读:

https://elasticsearch.cn/article/511

继续阅读