MongoDB資料庫查詢性能提高40倍

MongoDB資料庫查詢性能提高40倍的經曆分享

大家在使用 MongoDB 的時候有沒有碰到過性能問題呢？下面這篇文章主要給大家分享了MongoDB資料庫查詢性能提高40倍的經曆，需要的朋友可以參考借鑒，下面來一起看看吧。

前言

資料庫性能對軟體整體性能有着至關重要的影響，本文給大家分享了一次MongoDB資料庫查詢性能提高40倍的經曆，感興趣的朋友們可以參考學習。

背景說明

1、資料庫：MongoDB

2、資料集：

A：字段數不定，這裡主要用到的兩個UID和Date
B：三個字段，UID、Date、Actions。其中Actions字段是包含260元素JSON數組，每個JSON對象有6個字段。共有資料800萬條左右。

3、業務場景：求平均數

通過組合條件從A資料表查詢出（UID，Date）清單，最多可能包含數萬條記錄；
然後用第1步的結果從B中查詢出對應的資料
用第2步結果去Actions的某個固定位置的元素的進行計算

進化過程

在這裡使用Python示範

最直接想到的方法

根據上面的業務場景描述，最容易想到的解決方法就是

from pymongo import MongoClient
 
# 連接配接資料庫
 
db = MongoClient('mongodb://127.0.0.1:27017')['my_db']
 


 
# 簡化的查詢資料集A的條件
 
filter = {...}
 
# 查詢Collection A
 
a_cursor = db.a.find(_filter)
 
a_docs = [x for x in a_cursor]
 


 
# 變量的初始定義
 
count = 0
 
total = 0
 
# 加入需要用到的元素為第21個
 
index = 20
 
# 查詢Collection B，同時做累加
 
for a_doc in a _docs:
 
b_doc = db.b.find_one({'uid':a_doc['uid'], 'date': a_doc['date']})
 
# 隻有能查到相應的結果時，才可以
 
if b_doc is not None:
 
total += b_doc['actions'][20]['number']
 
count += 1
 


 
# 求平均數
 
if count > 0 :
 
avg = total/count

實作難度當然是最低的，可是整個任務在第一步隻有1萬條左右的傳回時，消耗的時間竟然達到了驚人38秒。當然這是已經加了索引的結果，否則可能都無法得到結果了。

減少查詢次數

瓶頸顯而易見，在循環中查詢Collection B，增加了網絡開銷，自然也就增加時間，如果一次查詢出所有結果，自然會大大提高效率。也就是說，我要把第一步的結果作為條件一次性傳遞，做一個$in操作。可是怎麼才能做到呢？如果在uid和date上分别做$in操作，那麼傳回的結果就會是二者單獨做$操作的合集，很顯然這和要求是不符的。

經過上面的分析，似乎進入了死胡同。其實答案也基本顯現了，需要有一個字段可以滿足上面的要求，那麼這個字段就是uid和date的合體，就命名為uid_date。uid_date是一個新字段，在B中并不存在，在使用之前需要将資料庫現有的資料做一下處理。

處理完畢改造程式：

# 下面的隻展現和本次修改相關的内容
 
uid_date_list = []
 
for a_doc in a_docs:
 
uid_date_list.append(a_doc['uid'] + '_' + a_doc['date'])
 


 
# 查詢B
 
b_cursor = db.b.find({'uid_date':{'$in':uid_date_list}})
 


 
# 下面就是取出結果，求平均數
 
...

這一番改造頗費時間，主要是前期的資料處理。代碼改造完畢，執行下看看吧。

可是，可是…… 45秒

我做錯了什麼？！

增加傳回記錄數

我還是堅信上面的優化思路是對的，現在看看資料庫能給一些什麼線索吧。

登入到資料庫伺服器，找到MongoDB的日志/data/mongodb/logs/mongod.log。仔細查找，發現在查詢資料集B時有很多getMore指令。這就奇怪了，我是一次性查詢，為什麼還有getMore。

趕緊查下官方的文檔，然後發現了下面的内容：

batcSize參數指定了每次傳回的個數，預設的101個。那看來這個應該是問題所在。找下pymongo的文檔，也可以設定這個參數，那就設個大的吧10000。

再次改造程式如下：

# 增加batch_size
 
b_cursor = db.b.find({'uid_date':{'$in': uid_date_list}}, batch_size=10000)

這次總該可以了。

嗯，好了一些，降到了20秒左右。可是，這離1秒隻能還差距20倍呢。

MongoDB資料庫查詢性能提高40倍

MongoDB資料庫查詢性能提高40倍的經曆分享

繼續閱讀

線程通信和程序通信差別（線程程序差別）

Matlab随機波動率SV、GARCH用MCMC馬爾可夫鍊蒙特卡羅方法分析匯率時間序列

微信小程式前端解密擷取使用者資訊

Error: couldn‘t connect to server 127.0.0.1:27017, connection attempt failed: SocketException: Error

Error: couldn't connect to server 127.0.0.1:27017, connection attempt failed: SocketException: Erro

couldn‘t connect to server 127.0.0.1:27017, connection attempt failed: SocketException: Error conne

Spring MVC 自學雜記（五） -- SpringMVC與前台的json資料互動

《MySQL技術内幕：InnoDB存儲引擎》筆記

擴容TIKV節點遇到的坑

PHP輔導代做程式設計：CS353 Database System

自學Zabbix3.10.2-事件通知Notifications upon events-Actions報警配置點選傳回：自學zabbix集錦

HDU 5678 ztr loves trees

拓端tecdat|R語言彈性網絡Elastic Net正則化懲罰回歸模型交叉驗證可視化

二叉樹及其應用--二叉樹建立

Ubuntu14.04 LTS下安裝mongodb

詳解STM32單片機的堆棧