【機器學習】TensorFlow共享GPU資源

2023-05-17 18:09:21

一般在TF serving 在推理測進行控制，可以限制模型大小，可以限制請求數量，同時可以控制排隊數量，也可以限制整個的通路數量。

下面是沒有對GPU進行限制的，程式會将GPU占滿。

$ nohub tensorflow_model_server \ 
--rest_api_port=8501 \ 
--model_name=mobilenet \ 
--model_base_path="/tmp/mobilenet" >server.log 2>&1

下面加入per_process_gpu_memory_fraction，對資源進行控制

$ nohub tensorflow_model_server \ 
--per_process_gpu_memory_fraction=0.3 \ 
--rest_api_port=8501 \ 
--model_name=mobilenet \ 
--model_base_path="/tmp/mobilenet" >server.log 2>&1

在k8s容器裡面跑,也可以使用這個參數來控制gpu記憶體使用。

$ nvidia-docker run -t --rm -p 8501:8501 \ 
-v "$TESTDATA/mobilenet:/models/mobilenet" \ 
-e MODEL_NAME=mobilenet \ 
tensorflow/serving:latest-gpu \ 
--per_process_gpu_memory_fraction=0.5

在一個容器多個GPU來控制gpu記憶體使用

1.如果本身有AI平台的排程功能，可以通過一些配置來達到目的

2.如果沒有k8s，就一個裸的機器，那麼可以使用

$ NV_GPU=${GPU_id} nvidia-docker run -t --rm -p8501:8501 \ 
-v "$TESTDATA/mobilenet:/models/mobilenet" \ 
-e MODEL_NAME=mobilenet \ 
tensorflow/serving:latest-gpu \ 
--per_process_gpu_memory_fraction=0.5

計算運算資源，涉及有很多參數，這裡列出常用參數，進行估算。

1.max_batch_size:一個批次處理的最大請求數量。設定後會将多個請求合并為一個batch進行處理。

2.batch_timeout_micros:在請求未累積到max_batch_size時，等待服務的最大時長。如逾時，則直接處理該批次請求。

3.num_batch_threads:服務可并發處理的batch數量，通常不大于配置設定的CPU核數；

4.max_enqueued_batches: 排程器隊列中最大batch數量。如果目前隊列已滿，那麼之後的請求會傳回錯誤。

【機器學習】TensorFlow共享GPU資源

【機器學習】TensorFlow共享GPU資源

繼續閱讀

證券從業合格證書什麼時候列印？有哪些注意事項？

【幹貨滿滿】初級銀行從業考試《個人理财》重點梳理

2020年經濟師考試，難嗎？

初級銀行從業資格證有什麼用？

MBA提前面試純幹貨分享

MBA值得學麼

申請評分模型拒絕推斷（RI）方法申請評分模型拒絕推斷（RI）方法

吳恩達logistic回歸實作

【人工智能行業大師訪談1】吳恩達采訪 Geoffery Hinton

深度學習模型分析人類複雜疾病的準确性

【趨高機器視覺】機器視覺技術原了解析及解決方案

吳恩達 coursera ML 第七課總結+作業答案前言目錄正文模型表示作業答案

XGBoost Plotting API以及GBDT組合特征實踐 XGBoost Plotting API以及GBDT組合特征實踐

解碼器用于語義分割：資料依賴的解碼可以實作靈活的特征聚合

2021-2025年中國運動療法（KT）帶行業市場供需與戰略研究報告

cs231n斯坦福基于卷積神經網絡的CV學習筆記（一）KNN和線性分類器/分類器損失/反向傳播一，KNN圖像分類算法二，線性分類器三，線性分類器損失四，反向傳播五，神經網絡