天天看點

elasticsearch.yml配置說明

一、基本配置

  elasticsearch的config檔案夾裡面有兩個配置文 件:elasticsearch.yml和logging.yml,第一個是es的基本配置檔案,第二個是日志配置檔案,es也是使用log4j來記錄日 志的,是以logging.yml裡的設定按普通log4j配置檔案來設定就行了。下面主要講解下elasticsearch.yml這個檔案中可配置的東西。

cluster.name: elasticsearch
配置es的叢集名稱,預設是elasticsearch,es會自動發現在同一網段下的es,如果在同一網段下有多個叢集,就可以用這個屬性來區分不同的叢集。
node.name: "Franz Kafka"
節點名,預設随機指定一個name清單中名字,該清單在es的jar包中config檔案夾裡name.txt檔案中,其中有很多作者添加的有趣名字。
node.master: true
指定該節點是否有資格被選舉成為node,預設是true,es是預設叢集中的第一台機器為master,如果這台機挂了就會重新選舉master。
node.data: true
指定該節點是否存儲索引資料,預設為true。
index.number_of_shards: 
設定預設索引分片個數,預設為片。
index.number_of_replicas: 
設定預設索引副本個數,預設為個副本。
path.conf: /path/to/conf
設定配置檔案的存儲路徑,預設是es根目錄下的config檔案夾。
path.data: /path/to/data
設定索引資料的存儲路徑,預設是es根目錄下的data檔案夾,可以設定多個存儲路徑,用逗号隔開,例:
path.data: /path/to/data1,/path/to/data2
path.work: /path/to/work
設定臨時檔案的存儲路徑,預設是es根目錄下的work檔案夾。
path.logs: /path/to/logs
設定日志檔案的存儲路徑,預設是es根目錄下的logs檔案夾
path.plugins: /path/to/plugins
設定插件的存放路徑,預設是es根目錄下的plugins檔案夾
bootstrap.mlockall: true
設定為true來鎖住記憶體。因為當jvm開始swapping時es的效率會降低,是以要保證它不swap,可以把ES_MIN_MEM和 ES_MAX_MEM兩個環境變量設定成同一個值,并且保證機器有足夠的記憶體配置設定給es。同時也要允許elasticsearch的程序可以鎖住記憶體,linux下可以通過`ulimit -l unlimited`指令。
network.bind_host: 
設定綁定的ip位址,可以是ipv4或ipv6的,預設為。 
network.publish_host: 
設定其它節點和該節點互動的ip位址,如果不設定它會自動判斷,值必須是個真實的ip位址。
network.host: 
這個參數是用來同時設定bind_host和publish_host上面兩個參數。
transport.tcp.port: 
設定節點間互動的tcp端口,預設是。
transport.tcp.compress: true
設定是否壓縮tcp傳輸時的資料,預設為false,不壓縮。
http.port: 
設定對外服務的http端口,預設為。
http.max_content_length: mb
設定内容的最大容量,預設mb
http.enabled: false
是否使用http協定對外提供服務,預設為true,開啟。
gateway.type: local
gateway的類型,預設為local即為本地檔案系統,可以設定為本地檔案系統,分布式檔案系統,Hadoop的HDFS,和amazon的s3伺服器。
gateway.recover_after_nodes: 
設定叢集中N個節點啟動時進行資料恢複,預設為。
gateway.recover_after_time: m
設定初始化資料恢複程序的逾時時間,預設是分鐘。
gateway.expected_nodes: 
設定這個叢集中節點的數量,預設為,一旦這N個節點啟動,就會立即進行資料恢複。
cluster.routing.allocation.node_initial_primaries_recoveries: 
初始化資料恢複時,并發恢複線程的個數,預設為。
cluster.routing.allocation.node_concurrent_recoveries: 
添加删除節點或負載均衡時并發恢複線程的個數,預設為。
indices.recovery.max_size_per_sec: 
設定資料恢複時限制的帶寬,如入mb,預設為,即無限制。
indices.recovery.concurrent_streams: 
設定這個參數來限制從其它分片恢複資料時最大同時打開并發流的個數,預設為。
discovery.zen.minimum_master_nodes: 
設定這個參數來保證叢集中的節點可以知道其它N個有master資格的節點。預設為,對于大的叢集來說,可以設定大一點的值(-)
discovery.zen.ping.timeout: s
設定叢集中自動發現其它節點時ping連接配接逾時時間,預設為秒,對于比較差的網絡環境可以高點的值來防止自動發現時出錯。
discovery.zen.ping.multicast.enabled: false
設定是否打開多點傳播發現節點,預設是true。
discovery.zen.ping.unicast.hosts: ["host1", "host2:port", "host3[portX-portY]"]
設定叢集中master節點的初始清單,可以通過這些節點來自動發現新加入叢集的節點。
下面是一些查詢時的慢日志參數設定
index.search.slowlog.level: TRACE
index.search.slowlog.threshold.query.warn: s
index.search.slowlog.threshold.query.info: s
index.search.slowlog.threshold.query.debug: s
index.search.slowlog.threshold.query.trace: ms
index.search.slowlog.threshold.fetch.warn: s
index.search.slowlog.threshold.fetch.info: ms
index.search.slowlog.threshold.fetch.debug:ms
index.search.slowlog.threshold.fetch.trace: ms
           

二、進階配置(線程池)

一個Elasticsearch節點會有多個線程池,但重要的是下面四個:

索引(index):主要是索引資料和删除資料操作(預設是cached類型)

搜尋(search):主要是擷取,統計和搜尋操作(預設是cached類型)

批量操作(bulk):主要是對索引的批量操作(預設是cached類型)

更新(refresh):主要是更新操作(預設是cached類型)

可以通過給設定一個參數來改變線程池的類型(type),例如,把索引的線程池改成blocking類型:

min: 1 
size: 30 
wait_time: 30s
           

下面是三種可以設定的線程池的類型:

cache

cache線程池是一個無限大小的線程池,如果有很多請求的話都會建立很多線程,下面是個例子:

threadpool: 
index: 
type: cached
           

fixed

fixed線程池保持固定個數的線程來處理請求隊列。

size參數設定線程的個數,預設設定是cpu核心數的5倍

queue_size可以控制待處理請求隊列的大小。預設是設定為-1,意味着無限制。當一個請求到來但隊列滿了的時候,reject_policy參數可以控制它的行為。預設是abort,會使那個請求失敗。設定成caller會使該請求在io線程中執行。

threadpool: 
index: 
type: fixed 
size: 30 
queue: 1000 
reject_policy: caller
           

blocking

blocking線程池允許設定一個最小值(min,預設為1)和線程池大小(size,預設為cpu核心數的5倍)。它也有一個等待隊列,隊列的大小(queue_size )預設是1000,當這隊列滿了的時候。它會根據定好的等待時間(wait_time,預設是60秒)來調用io線程,如果逾時沒有執行就會報錯。

threadpool: 
index: 
type: blocking 
min: 1 
size: 30 
wait_time: 30s
           

筆者在實際工作中,由于程式啟動時即産生大量請求,導緻隊列大小溢出的情況,進而查詢請求報錯,可以在以下2個解決方法權衡處理:

1、增加隊列長度,但随之帶來的是CPU消耗高。

2、優化程式,适當控制程式的并發請求量。

三、作業系統配置

1、檔案句柄限制:ES在索引過程中,尤其是有很多分片和副本時,會建立若幹檔案。是以作業系統對打開檔案數量的限制不能少于32000。對于linux伺服器,通過可以在/etc/security/limits.conf中進行修改,并且可以用ulimit指令來檢視目前值。

2、節點記憶體配置:ES每個節點預設的2014M記憶體空間可能是不夠的。如果日志檔案中有out of memory error錯誤,則應将環境變量ES_HEAP_SIZE設為大于1024的值。注意該值應超過總可用實體記憶體的50%,剩餘記憶體可用作磁盤高速緩存,可大大提高搜尋性能。

繼續閱讀