基于ELK的資料分析實踐——滿滿的幹貨送給你

很多人剛剛接觸ELK都不知道如何使用它們來做分析，經常會碰到下面的問題：

安裝完ELK不知從哪下手
拿到資料樣本不知道怎麼分解資料
導入到elasticsearch中奇怪為什麼搜不出來
搜到結果後，不知道它還能幹什麼

本篇就以一個完整的流程介紹下，資料從

讀取-->分析-->檢索-->應用

的全流程處理。在閱讀本篇之前，需要先安裝ELK,可以參考之前整理安裝文檔：ELK5.0部署教程

在利用ELK做資料分析時，大緻為下面的流程：

1 基于logstash分解字段
2 基于字段建立Mapping
3 檢視分詞結果
4 檢索
5 聚合
6 高亮

可能會根據第4步重複第2步的工作，調整分詞等規則。

為了便于了解，先說一下本文的業務背景：

我需要統計一個url對應的pv和uv，這個url需要支援全文檢索。每天同一個url都會産生一條資料。最後會按照特定的日期範圍對資料進行聚合。

下面就開始資料分析之路吧~

基于logstash分解字段

在使用logstash前，需要對它有一定的了解。logstash的元件其實很簡單，主要包括input、filter、output、codec四個部分。

input 用于讀取内容，常用的有stdin(直接從控制台輸入)、file(讀取檔案)等，另外還提供了對接redis、kafka等的插件
filter 用于對輸入的文本進行處理，常用的有grok(基于正規表達式提取字段)、kv(解析鍵值對形式的資料)、csv、xml等，另外還提供了了一個ruby插件，這個插件如果會用的話，幾乎是萬能的。
output 用于把fitler得到的内容輸出到指定的接收端，常用的自然是elasticsearch(對接ES)、file(輸出到檔案)、stdout(直接輸出到控制台)
codec 它用于格式化對應的内容，可以再Input和output插件中使用，比如在output的stdout中使用rubydebug以json的形式輸出到控制台

了解上面的内容後，再看看logstash的使用方法。

首先需要定義一個配置檔案，配置檔案中配置了對應的input,filter,output等，至少是一個input,output。

如我的配置檔案：

input {
	file {
		path => "C:\Users\Documents\workspace\elk\page.csv"
		start_position => "beginning"	
	}
}
filter {
	grok {
		match => { 
			"message" => "%{NOTSPACE:url}\s*%{NOTSPACE:date}\s*%{NOTSPACE:pvs}\s*%{NOTSPACE:uvs}\s*%{NOTSPACE:ips}\s*%{NOTSPACE:mems}\s*%{NOTSPACE:new_guests}\s*%{NOTSPACE:quits}\s*%{NOTSPACE:outs}\s*%{NOTSPACE:stay_time}" 
		}
	}
}
output {
	stdout{codec => dots}
	elasticsearch {
		document_type => "test"
		index => "page"
		hosts => ["1.1.1.1:9200"]
	}
}

上面的配置最不容易了解的就是Grok,其實它就是個正規表達式而已，你可以把它了解成是一段正規表達式的占位。至于grok都有哪些關鍵字，這些關鍵字對應的正則都是什麼，可以直接參考logstash的源碼,目錄的位置為：

logstash-5.2.2\vendor\bundle\jruby\1.9\gems\logstash-patterns-core-4.0.2\patterns

如果提供的話，可以直接在grokdebug上面進行測試：

另外一個技巧就是，如果開啟stdout并且codec為rubydebug，會把資料輸出到控制台，是以使用

代替，即可省略輸出，又能檢測到現在是否有資料正在處理。而且每個.是一個字元，如果把它輸出到檔案，也可以直接通過檔案的大小，判斷處理了多少條。

這樣，資料的預處理做完了.....

基于字段建立Mapping

雖然說Es是一個文檔資料庫，但是它也是有模式的概念的。文檔中的每個字段仍然需要定義字段的類型，使用者經常會遇到明明是數字，在kibana卻做不了加法；或者明明是IP，kibana裡面卻不認識。這都是因為Mapping有問題導緻的。

在Elasticsearch中其實是有動态映射這個概念的，在字段第一次出現時，ES會自動檢測你的字段是否屬于數字或者日期或者IP，如果滿足它預定義的格式，就按照特殊格式存儲。一旦格式設定過了，之後的資料都會按照這種格式存儲。舉個例子，第一條資料進入ES時，字段檢測為數值型；第二條進來的時候，卻是一個字元串，結果可能插不進去，也可能插進去讀不出來（不同版本處理的方式不同）。

是以，我們需要事先就設定一下字段的Mapping,這樣之後使用的時候才不會困惑。

另外，Mapping裡面不僅僅有字段的類型，還有這個字段的分詞方式，比如使用标準standard分詞器，還是中文分詞器，或者是自定義的分詞器，這個也是很關鍵的一個概念，稍後再講。

建立Mapping有兩種方式：

第一種，直接建立索引并建立映射

建立索引時，可以直接指定它的配置和Mapping:

PUT index_name
{
    "settings" : {
        "number_of_shards" : 1
    },
    "mappings" : {
        "type_name" : {
            "properties" : {
                "field_name" : { "type" : "text" }
            }
        }
    }
}

第二種，先建立索引，再建立映射

# 先建立索引
PUT index_name
{}

# 然後建立Mapping
PUT /index_name/_mapping/type_name
{
  "properties": {
    "ip": {
      "type": "ip"
    }
  }
}

# 最後查詢建立的Mapping
GET /index_name/_mapping/type_name

比如我們上面的URL場景，可以這麼建立索引：

PUT  url/_mapping/test
{
  "properties": {
    "url": {
      "type": "string",
      "fields": {
            "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
    },
    "date": {
      "type": "date"
    },
    "pvs": {
      "type": "integer"
    },
    "uvs": {
      "type": "integer"
    }
  }
}

PS,在上面的例子中，url需要有兩個用途，一個是作為聚合的字段；另一個是需要做全文檢索。在ES中全文檢索的字段是不能用來做聚合的，是以使用嵌套字段的方式，新增一個url.keyword字段，這個字段設定成keyword類型，不采用任何分詞（這是5.0的新特性，如果使用以前版本，可以直接設定string對應的index屬性即可）；然後本身的url字段則采用預設的标準分詞器進行分詞。

這樣，以後在搜尋的時候可以直接以

query string

的方式檢索

url

，聚合的時候則可以直接使用

url.keyword

檢視分詞結果

如果字段為

https://www.elastic.co/guide/en/elasticsearch/reference/5.2

,使用standard标準分詞器，輸入

elastic

卻收不到任何結果，是不是有點懷疑人生。

我們做個小例子，首先建立一個空的索引：

PUT test1/test1/1 
{
  "text":"https://www.elastic.co/guide/en/elasticsearch/reference/5.2"
}

然後查詢這個字段被分解成了什麼鬼？

GET /test1/test1/1/_termvectors?fields=text

得到的内容如下：

{
  "_index": "test1",
  "_type": "test1",
  "_id": "1",
  "_version": 1,
  "found": true,
  "took": 1,
  "term_vectors": {
    "text": {
      "field_statistics": {
        "sum_doc_freq": 7,
        "doc_count": 1,
        "sum_ttf": 7
      },
      "terms": {
        "5.2": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 6,
              "start_offset": 56,
              "end_offset": 59
            }
          ]
        },
        "elasticsearch": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 4,
              "start_offset": 32,
              "end_offset": 45
            }
          ]
        },
        "en": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 3,
              "start_offset": 29,
              "end_offset": 31
            }
          ]
        },
        "guide": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 2,
              "start_offset": 23,
              "end_offset": 28
            }
          ]
        },
        "https": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 0,
              "start_offset": 0,
              "end_offset": 5
            }
          ]
        },
        "reference": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 5,
              "start_offset": 46,
              "end_offset": 55
            }
          ]
        },
        "www.elastic.co": {
          "term_freq": 1,
          "tokens": [
            {
              "position": 1,
              "start_offset": 8,
              "end_offset": 22
            }
          ]
        }
      }
    }
  }
}

看到了吧，沒有elastic這個詞，自然是搜不出來的。如果你不了解這句話，回頭看看反向索引的原理吧！或者看看我的這篇文章:分詞器的作用

那麼你可能很郁悶，我就是要搜elastic怎麼辦！沒關系，換個分詞器就行了~比如elasticsearch為我們提供的

simple

分詞器，就可以簡單的按照符号進行切分:

POST _analyze
{
  "analyzer": "simple",
  "text": "https://www.elastic.co/guide/en/elasticsearch/reference/5.2"
}

得到的結果為：

{
  "tokens": [
    {
      "token": "https",
      "start_offset": 0,
      "end_offset": 5,
      "type": "word",
      "position": 0
    },
    {
      "token": "www",
      "start_offset": 8,
      "end_offset": 11,
      "type": "word",
      "position": 1
    },
    {
      "token": "elastic",
      "start_offset": 12,
      "end_offset": 19,
      "type": "word",
      "position": 2
    },
    {
      "token": "co",
      "start_offset": 20,
      "end_offset": 22,
      "type": "word",
      "position": 3
    },
    {
      "token": "guide",
      "start_offset": 23,
      "end_offset": 28,
      "type": "word",
      "position": 4
    },
    {
      "token": "en",
      "start_offset": 29,
      "end_offset": 31,
      "type": "word",
      "position": 5
    },
    {
      "token": "elasticsearch",
      "start_offset": 32,
      "end_offset": 45,
      "type": "word",
      "position": 6
    },
    {
      "token": "reference",
      "start_offset": 46,
      "end_offset": 55,
      "type": "word",
      "position": 7
    }
  ]
}

這樣你就可以搜尋

elastic

了，但是前提是需要在Mapping裡面為該字段指定使用simple分詞器，方法為:

PUT  url/_mapping/test
{
  "properties": {
    "url": {
      "type": "string",
      "analyzer": "simple",
      "fields": {
              "keyword": {
                "type": "keyword",
                "ignore_above": 256
              }
            }
    },
    "date": {
      "type": "date"
    },
    "pvs": {
      "type": "integer"
    },
    "uvs": {
      "type": "integer"
    }
}

修改Mapping前，需要先删除索引，然後重建索引。删除索引的指令為：

DELETE url

不想删除索引，隻想改變Mapping？想得美....你當ES是孫悟空會72變？不過，你可以建立一個新的索引，然後把舊索引的資料導入到新索引就行了，這也不失為一種辦法。如果想這麼搞，可以參考reindex api，如果版本是5.0之前，那麼你倒黴了！自己搞定吧！

檢索

ES裡面檢索是一個最基礎的功能了，很多人其實這個都是一知半解。由于内容太多，我就結合Kibana講講其中的一小部分吧。

很多人安裝完kibana之後，登陸後不知道該幹啥。如果你的elasticsearch裡面已經有資料了，那麼此時你需要在Kiban建立對應的索引。

如果你的es的索引是

name-2017-03-19

name-2017-03-20

這種名字+時間字尾的，那麼可以勾選1位置的選項，它會自動聚合這些索引。這樣在這一個索引中就可以查詢多個索引的資料了，其實他是利用了索引的模式比對的特性。如果你的索引僅僅是一個簡單的名字，那麼可以不勾選1位置的選項，直接輸入名字，即可。

然後進入Kibana的首頁，在輸入框裡面就可以任意輸入關鍵字進行查詢了。

查詢的詞，需要是上面 `_termvectors` 分析出來的詞，差一個字母都不行！！！！！

這個搜尋框其實就是elasticsearch中的query string,是以所有的lucene查詢文法都是支援的！

如果想要了解更多的查詢文法，也可以參考我之前整理的文章，Lucene查詢文法

另外，這個輸入框，其實也可以輸入ES的DSL查詢文法，隻不過寫法過于蛋疼，就不推薦了。

自定義查詢文法

如果不使用kibana，想在自己的程式裡面通路es操作，也可以直接以rest api的方式查詢。

比如查詢某個索引的全部内容，預設傳回10個:

GET /page/test/_search?pretty

再比如，增加一個特殊點的查詢:

GET /page/test/_search?pretty
{
  "query": {
    "query_string" : {
      "default_field" : "url",
      "query" : "顔色"
    }
  },
  "size": 10,
}

聚合

在es中一個很重要的亮點，就是支援很多的聚合文法，如果沒有它，我想很多人會直接使用lucene吧。在ES中的聚合，大體上可以為兩類聚合方法，metric和bucket。metic可以了解成avg、sum、count、max、min，bucket可以了解為group by 。有了這兩種聚合方法，就可以對ES中的資料做很多處理了。

比如在kibana中，做一個最簡單的餅圖：

其實它在背景發送的請求，就是這個樣子的:

{
  "size": 0,
  "query": {
    "query_string": {
      "query": "顔色",
      "analyze_wildcard": true
    }
  },
  "_source": {
    "excludes": []
  },
  "aggs": {
    "2": {
      "terms": {
        "field": "url.keyword",
        "size": 5,
        "order": {
          "_count": "desc"
        }
      }
    }
  }
}

如果不适用kibana，自己定義聚合請求，那麼可以這樣寫：

GET /page/test/_search?pretty
{
  "query": {
    "query_string" : {
      "default_field" : "url",
      "query" : "顔色"
    }
  },
  "size": 0,
    "aggs" : {
      "agg1" : {
        "terms" : { 
          "field" : "url.keyword",
          "size" : 10
        },
        "aggs" : {
          "pvs" : { "sum" : { "field" : "pvs" } },
          "uvs" : { "sum" : { "field" : "uvs" } }
      }
    }
  }
}

另外，聚合也支援嵌套聚合，就是跟terms或者sum等agg并列寫一個新的aggs對象就行。

高亮

如果是自己使用elasticsearch，高亮也是一個非常重要的内容，它可以幫助最後的使用者快速了解搜尋的結果。

背景的原理，是利用ES提供的highlight API，針對搜尋的關鍵字，傳回對應的字段。該字段中包含了一個自定義的标簽，前端可以基于這個标簽高亮着色。

舉個簡單的例子：

GET /_search
{
    "query" : {
        "match": { "content": "kimchy" }
    },
    "highlight" : {
        "fields" : {
            "content" : {}
        }
    }
}

上面的請求會針對content字段搜尋kimchy。并且傳回對應的字段，比如原來的字段内容時

hello kimchy

，經過高亮後，會再搜尋結果的hits中傳回:

{
  "took": 3,
  "timed_out": false,
  "_shards": {
    "total": 5,
    "successful": 5,
    "failed": 0
  },
  "hits": {
    "total": 30,
    "max_score": 13.945707,
    "hits": [
      {
        "_index": "page",
        "_type": "test",
        "_id": "AVrvHh_kvobeDQC6Q5Sg",
        "_score": 13.945707,
        "_source": {
          "date": "2016-03-14",
          "pvs": "3",
          "url": "hello kimchy",
          "@timestamp": "2017-03-21T04:29:07.187Z",
          "uvs": "1",
          "@version": "1"
        },
        "highlight": {
          "url": [
            "hello <em>kimchy</em>"
          ]
        }
      }
    ]
  }
}

這樣就可以直接利用highlight中的字段做前端的顯示了。

另外，上面的

<em>

标簽可以自定義,比如：

GET /_search
{
    "query" : {
        "match": { "user": "kimchy" }
    },
    "highlight" : {
        "pre_tags" : ["<tag1>"],
        "post_tags" : ["</tag1>"],
        "fields" : {
            "_all" : {}
        }
    }
}

經過上面的一步一步的探索，你應該了解ELK的資料分析的流程與技巧了吧！如果有任何問題，也可以直接留言，可以再交流！

參考

1 建立Mapping
2 查詢Mapping
3 動态Maping
4 建立索引
5 logstash file插件
6 logstash grok插件
7 logstash elasticsearch插件
8 grok調試插件

作者：xingoo

出處：http://www.cnblogs.com/xing901022

本文版權歸作者和部落格園共有。歡迎轉載，但必須保留此段聲明，且在文章頁面明顯位置給出原文連接配接！

基于ELK的資料分析實踐——滿滿的幹貨送給你

為了便于了解，先說一下本文的業務背景：

基于logstash分解字段

基于字段建立Mapping

第一種，直接建立索引并建立映射

第二種，先建立索引，再建立映射

檢視分詞結果

檢索

查詢的詞，需要是上面 `_termvectors` 分析出來的詞，差一個字母都不行！！！！！

自定義查詢文法

聚合

高亮

經過上面的一步一步的探索，你應該了解ELK的資料分析的流程與技巧了吧！如果有任何問題，也可以直接留言，可以再交流！

參考

繼續閱讀

python中哪些函數可以進行清單排序？

This application failed to start because it could not find or load the Qt platform plugin "

R語言| 中介效應分析，Mediation包和BruceR包，循環Process函數

一套完整實用的IT規劃方法論

記一次因MySQL編碼問題導緻的慢查詢排查

miRNA與轉錄組聯合分析

進階資料分析師憑什麼月薪三萬？一文解答你所有困惑

Python進階之路 6.2.1 dict函數

SparkSQL項目練習1 準備資料2 需求：各區域熱門商品Top3

SQL常見計算方法總結

mac系統下載下傳使用JMeter第一步：下載下傳第二步：解壓及啟動第三步：設定與配置

一篇文章帶你使用模組化的思路解決泰迪杯-智慧政務問題（答複意見評價含代碼）

資料分析實戰20絕技

從大資料看技術，為什麼天貓雙11是史上最大數字經濟節日

線上教育巨頭多鄰國Duolingo入華一周年，中國市場馬力全開

申請開通支付寶當面付、電腦網站、手機網站、APP、刷臉支付

基于ELK的資料分析實踐——滿滿的幹貨送給你

為了便于了解，先說一下本文的業務背景：

基于logstash分解字段

基于字段建立Mapping

第一種，直接建立索引并建立映射

第二種，先建立索引，再建立映射

檢視分詞結果

檢索

查詢的詞，需要是上面 _termvectors 分析出來的詞，差一個字母都不行！！！！！

自定義查詢文法

聚合

高亮

經過上面的一步一步的探索，你應該了解ELK的資料分析的流程與技巧了吧！如果有任何問題，也可以直接留言，可以再交流！

參考

繼續閱讀

查詢的詞，需要是上面 `_termvectors` 分析出來的詞，差一個字母都不行！！！！！