天天看點

ElasticSearch 評分排序

ElasticSearch 評分排序

近期有一個需求,需要對優惠券可用商品清單加個排序,隻針對面值類的券不包括折扣券。

需求是這樣的,假設有一張面值券 50 塊錢,可用商品清單 A 100、B 40、C 10,當使用者查詢目前券可用商品清單的時候優先将卡券可以直接抵扣且不需要使用者在額外支付的商品排在前面。

  • 背景
  • 通過腳本改變評分

C 10

B 40

A 100

其實排序有很多側重,比如:

1.根據使用者利益最大化原則,排序清單應該是 B、C、A

2.根據使用者購買習慣,有可能是 A、B、C

3.根據營運政策、第三方利益等有可能是C、B、A

這裡暫且先不擴充如何對商品清單進行智能排序,如果需要完整的個性化商品推薦,涉及很多東西,後面有經驗在拿來分享。

我們就這個簡單的 case,一開始最直接的想法就是加個排序列,建索引的時候将排序值計算好直接寫入。後來分析了下原來索引(index) 結構不是這種笛卡爾積的排列,是以在短時間内很難立馬上線,需要建立 index 結構。

後來通過讨論用影響評分的方法來解決,可以節省時間快速上線。

ES query DSL 支援很多種類型的查詢,結果的排序如果沒有特殊聲明 sort field 則是根據es打分(score)來排序的,score 分值越高排序越靠前。

ES score 計算比較複雜,涉及到 TF(詞頻)/IDF(逆向文檔頻率)、罕見詞、比對文檔長度、權重 boost 向量空間模型 等,不過 ES 提供了幾種封裝好的評分插件供使用。

function_score 查詢來讓我們根據業務場景改變文檔評分方法,根據業務場景我們需要完全控制 score 生成的邏輯,是以我們選擇 script_score 方式。

script_score

如果需求超出以上範圍時,用自定義腳本可以完全控制評分計算,實作所需邏輯。

(參考:https://www.elastic.co/guide/cn/elasticsearch/guide/current/function-score-query.html)

腳本預設是 groovy,當然也可以根據需要使用其他腳本語言,我們來看下實作。

script.inline: on
script.enfine.groovy.inline.aggs: on
script.indexed: on
script.file: on
           

首先在 es.yml 配置中打開腳本支援相關選項。

{
    "query": {
        "function_score": {
            "query": {
                "bool": {
                    "should": [
                        {
                            "match": {
                                "productName": "英語"
                            }
                        }
                    ]
                }
            },
            "score_mode": "first",
            "script_score": {
                "lang": "groovy",
                "params": {
                    "couponPrice": 100
                },
                "script": "def deduct = couponPrice - doc['unitCost'].value.toFloat(); if (deduct > 0) {return 10000 + deduct;}else if(deduct==0 || (deduct<1 && deduct>0)){return 20000;}else{return  doc['unitCost'].value.toFloat()-couponPrice;}"
            },
            "boost_mode": "replace"
        }
    },
    "from": 0,
    "size": 100
}
           

查詢條件可以任意,關鍵是 script_score 對象,script 是需要 ES 腳本引擎執行的腳本代碼。

一個比較重要的選項 boost_mode ,boost_mode 是控制整個 document 的評分方式,這裡我們選擇替代(replace)預設計算好的評分。

這裡面的排序有一個小技巧,如何将負數排序在前面,正數排序在後面,還有抵扣後是0的處理。

def deduct = couponPrice - doc['unitCost'].value.toFloat(); 
if (deduct > 0) {
    return 10000 + deduct; 
}else if(deduct==0 || (deduct<1 && deduct>0)){
    return 20000; 
}else{
    return  doc['unitCost'].value.toFloat()-couponPrice;
}

           

通過 couponPrice 變量表示優惠券面值金額,如果目前商品抵扣完是負數說明需要排序在前面,那麼如何和抵扣完正數分開尼,這裡可以取一個稍微大點的值加上抵扣後的負值,這樣把負值轉換成正數自然就排序在前面。

抵扣後等于0的或者小于1大于0的值也是可以優先安排在前面,當然這裡還是不夠靈活的,最好的方式是根據目前面值、商品價格動态計算才準确。

最後就是抵扣完需要使用者在額外支付的排在最後面,直接取需要額外支付的金額數值作為排序。

通過 ES 評分我們能做很多事情,這個case隻是一個簡單的場景。

作者:王清培 (滬江集團資深架構師)           

繼續閱讀