MongoDB資料庫查詢性能提高40倍的經曆分享
大家在使用 MongoDB 的時候有沒有碰到過性能問題呢?下面這篇文章主要給大家分享了MongoDB資料庫查詢性能提高40倍的經曆,需要的朋友可以參考借鑒,下面來一起看看吧。
前言
資料庫性能對軟體整體性能有着至關重要的影響,本文給大家分享了一次MongoDB資料庫查詢性能提高40倍的經曆,感興趣的朋友們可以參考學習。
背景說明
1、資料庫:MongoDB
2、資料集:
- A:字段數不定,這裡主要用到的兩個UID和Date
- B:三個字段,UID、Date、Actions。其中Actions字段是包含260元素JSON數組,每個JSON對象有6個字段。共有資料800萬條左右。
3、業務場景:求平均數
- 通過組合條件從A資料表查詢出(UID,Date)清單,最多可能包含數萬條記錄;
- 然後用第1步的結果從B中查詢出對應的資料
- 用第2步結果去Actions的某個固定位置的元素的進行計算
進化過程
在這裡使用Python示範
最直接想到的方法
根據上面的業務場景描述,最容易想到的解決方法就是
from pymongo import MongoClient
# 連接配接資料庫
db = MongoClient('mongodb://127.0.0.1:27017')['my_db']
# 簡化的查詢資料集A的條件
filter = {...}
# 查詢Collection A
a_cursor = db.a.find(_filter)
a_docs = [x for x in a_cursor]
# 變量的初始定義
count = 0
total = 0
# 加入需要用到的元素為第21個
index = 20
# 查詢Collection B,同時做累加
for a_doc in a _docs:
b_doc = db.b.find_one({'uid':a_doc['uid'], 'date': a_doc['date']})
# 隻有能查到相應的結果時,才可以
if b_doc is not None:
total += b_doc['actions'][20]['number']
count += 1
# 求平均數
if count > 0 :
avg = total/count
實作難度當然是最低的,可是整個任務在第一步隻有1萬條左右的傳回時,消耗的時間竟然達到了驚人38秒。當然這是已經加了索引的結果,否則可能都無法得到結果了。
減少查詢次數
瓶頸顯而易見,在循環中查詢Collection B,增加了網絡開銷,自然也就增加時間,如果一次查詢出所有結果,自然會大大提高效率。也就是說,我要把第一步的結果作為條件一次性傳遞,做一個$in操作。可是怎麼才能做到呢?如果在uid和date上分别做$in操作,那麼傳回的結果就會是二者單獨做$操作的合集,很顯然這和要求是不符的。
經過上面的分析,似乎進入了死胡同。其實答案也基本顯現了,需要有一個字段可以滿足上面的要求,那麼這個字段就是uid和date的合體,就命名為uid_date。uid_date是一個新字段,在B中并不存在,在使用之前需要将資料庫現有的資料做一下處理。
處理完畢改造程式:
# 下面的隻展現和本次修改相關的内容
uid_date_list = []
for a_doc in a_docs:
uid_date_list.append(a_doc['uid'] + '_' + a_doc['date'])
# 查詢B
b_cursor = db.b.find({'uid_date':{'$in':uid_date_list}})
# 下面就是取出結果,求平均數
...
這一番改造頗費時間,主要是前期的資料處理。代碼改造完畢,執行下看看吧。
可是,可是…… 45秒
我做錯了什麼?!
增加傳回記錄數
我還是堅信上面的優化思路是對的,現在看看資料庫能給一些什麼線索吧。
登入到資料庫伺服器,找到MongoDB的日志/data/mongodb/logs/mongod.log。仔細查找,發現在查詢資料集B時有很多getMore指令。這就奇怪了,我是一次性查詢,為什麼還有getMore。
趕緊查下官方的文檔,然後發現了下面的内容:
batcSize參數指定了每次傳回的個數,預設的101個。那看來這個應該是問題所在。找下pymongo的文檔,也可以設定這個參數,那就設個大的吧10000。
再次改造程式如下:
# 增加batch_size
b_cursor = db.b.find({'uid_date':{'$in': uid_date_list}}, batch_size=10000)
這次總該可以了。
嗯,好了一些,降到了20秒左右。可是,這離1秒隻能還差距20倍呢。