天天看點

幹貨 | Elasticsearch Reindex性能提升10倍+實戰

幹貨 | Elasticsearch Reindex性能提升10倍+實戰
連結

問題2:資料量幾十個G的場景下,elasticsearch reindex速度太慢,從舊索引導資料到新索引,目前最佳方案是什麼?

2、Reindex簡介

5.X版本後新增Reindex。Reindex可以直接在Elasticsearch叢集裡面對資料進行重建,如果你的mapping因為修改而需要重建,又或者索引設定修改需要重建的時候,借助Reindex可以很友善的異步進行重建,并且支援跨叢集間的資料遷移。比如按天建立的索引可以定期重建合并到以月為機關的索引裡面去。當然索引裡面要啟用_source。

POST _reindex

{

 "source": {

   "index": "twitter"

 },

 "dest": {

   "index": "new_twitter"

 }

}

3、原因分析

reindex的核心做跨索引、跨叢集的資料遷移。

慢的原因及優化思路無非包括:

1)批量大小值可能太小。

需要結合堆記憶體、線程池調整大小;

2)reindex的底層是scroll實作,借助scroll并行優化方式,提升效率;

3)跨索引、跨叢集的核心是寫入資料,考慮寫入優化角度提升效率。

4、Reindex提升遷移效率的方案

4.1 提升批量寫入大小值

預設情況下,_reindex使用1000進行批量操作,您可以在source中調整batch_size。

   "index": "source",

   "size": 5000

   "index": "dest",

   "routing": "=cat"

批量大小設定的依據:

(1)使用批量索引請求以獲得最佳性能。

批量大小取決于資料、分析和叢集配置,但一個好的起點是每批處理5-15 MB。

注意,這是實體大小。文檔數量不是度量批量大小的好名額。例如,如果每批索引1000個文檔,:

1)每個1kb的1000個文檔是1mb。

2)每個100kb的1000個文檔是100 MB。

這些是完全不同的體積大小。

(2)逐漸遞增文檔容量大小的方式調優。

1)從大約5-15 MB的大容量開始,慢慢增加,直到你看不到性能的提升。然後開始增加批量寫入的并發性(多線程等等)。

2)使用kibana、cerebro或iostat、top和ps等工具監視節點,以檢視資源何時開始出現瓶頸。如果您開始接收EsRejectedExecutionException,您的叢集就不能再跟上了:至少有一個資源達到了容量。要麼減少并發性,或者提供更多有限的資源(例如從機械硬碟切換到ssd固态硬碟),要麼添加更多節點。

4.2 借助scroll的sliced提升寫入效率

Reindex支援Sliced Scroll以并行化重建索引過程。 這種并行化可以提高效率,并提供一種友善的方法将請求分解為更小的部分。

sliced原理(from medcl)

1)用過Scroll接口吧,很慢?如果你資料量很大,用Scroll周遊資料那确實是接受不了,現在Scroll接口可以并發來進行資料周遊了。

2)每個Scroll請求,可以分成多個Slice請求,可以了解為切片,各Slice獨立并行,利用Scroll重建或者周遊要快很多倍。

slicing使用舉例

slicing的設定分為兩種方式:手動設定分片、自動設定分片。

手動設定分片參見官網。

自動設定分片如下:

POST _reindex?slices=5&refresh

slices大小設定注意事項:

1)slices大小的設定可以手動指定,或者設定slices設定為auto,auto的含義是:針對單索引,slices大小=分片數;針對多索引,slices=分片的最小值。

2)當slices的數量等于索引中的分片數量時,查詢性能最高效。slices大小大于分片數,非但不會提升效率,反而會增加開銷。

3)如果這個slices數字很大(例如500),建議選擇一個較低的數字,因為過大的slices 會影響性能。

4.3 ES副本數設定為0

如果要進行大量批量導入,請考慮通過設定index.number_of_replicas來禁用副本:0。

主要原因在于:複制文檔時,将整個文檔發送到副本節點,并逐字重複索引過程。 這意味着每個副本都将執行分析,索引和潛在合并過程。

相反,如果您使用零副本進行索引,然後在提取完成時啟用副本,則恢複過程本質上是逐位元組的網絡傳輸。 這比複制索引過程更有效。

PUT /my_logs/_settings

   "number_of_replicas": 1

4.4 增加refresh間隔

如果你的搜尋結果不需要接近實時的準确性,考慮先不要急于索引重新整理refresh。可以将每個索引的refresh_interval到30s。

如果正在進行大量資料導入,可以通過在導入期間将此值設定為-1來禁用重新整理。完成後不要忘記重新啟用它!

設定方法:

{ "refresh_interval": -1 }

1

2

5、小結

實踐證明,比預設設定reindex速度能提升10倍+。

遇到類似問題,多從官網、原理甚至源碼的角度思考,逐漸拆解分析。

隻要思維不滑坡,辦法總比問題多!

參考:

[1] Jest Reindex參考:

http://t.cn/RDOyIc8

[2] 官網性能優化:

http://t.cn/RDOyJqr

[3] 論壇讨論:

http://t.cn/RDOya3a