NVIDIA 攜手螞蟻鍊實作 INT8 QAT 技術加速 AI 推理

螞蟻鍊 AIoT 團隊與 NVIDIA 合作，将量化感覺訓練（QAT）技術應用于深度學習模型性能優化中，并通過 NVIDIA TensorRT 高性能推理 SDK 進行高效率部署，通過 INT8 推理，吞吐量提升了 3 倍，助力螞蟻鍊版權 AI 平台中的模型推理服務大幅降本增效。

依托于螞蟻鍊自研的區塊鍊和 AI 技術，以及金融級的加密算法能力和雲計算能力的加持，螞蟻鍊版權 AI 平台能夠為數字媒體時代的内容管理方、内容平台方以及創作者提供一站式的版權保護能力。作為螞蟻鍊版權平台的核心能力，AI 技術可以快速提取音視訊及圖像特征，在短時間内完成對相似内容的自動識别和判斷。得益于 NVIDIA 完善的軟硬體生态，螞蟻鍊團隊除了可以友善的在雲端 GPU 部署深度學習模型推理服務，在進一步的合作中，雙方亦成功将其 TensorRT 支援的業界領先的 INT8-QAT 技術應用到版權保護業務模型上，對 AI 模型的推理效率進行大幅度優化，實作了在幾乎精度無損的情況下，單 GPU 上的吞吐量提升約 300%。

利用深度學習模型高效且自動化地進行相似内容識别是螞蟻鍊版權 AI 平台的一項關鍵技術能力，這對 AI 模型研發提出了較高的技術挑戰。一方面，多媒體版權保護業務場景中作品侵權的類型複雜而多變，為了到達高召回率和低虛警率的效果精度，螞蟻鍊團隊需采用較為複雜的算法模型方案；而另一方面，版權場景中高吞吐、低成本的需求又對模型提出了性能方面的挑戰。換言之，算法模型需要的存算資源必須有所限制、推理性能必須較高，而一般情況下，這與模型的效果要求是沖突的，因為深度學習模型的效果往往與模型的尺寸和所需算力正相關。而這些複雜而又多元的業務需求，也确實給團隊的算法研發和優化工作，帶來了相當大的挑戰。

是以，螞蟻鍊團隊将算法研發拆解為不同的流程以解決不同次元的業務需求。簡而言之，就是優先以滿足業務效果名額為目的研發模型，随後借助模型壓縮技術對模型存算需求進行優化，而第二部分工作實作，則需仰賴 NVIDIA 相關軟硬體生态對于高性能AI模型推理加速的優秀支援。一方面，NVIDIA GPU 所提供的強大并行算力以及 INT8 Tensor Core 提供的整型計算能力，為深度學習模型推理的高效實作奠定了基礎；另一方面，NVIDIA TensorRT 8 SDK 中對模型計算圖的高效融合，以及對于新型模型結構的支援和優化（例如 QAT 所采用的 QDQ 結構以及 transformer-based 模型）讓我們可以在 PyTorch 模型的基礎上生成高效的量化推理模型。其中，QAT 作為此項目模型性能優化的重要技術，最大的優點莫過于可以在大幅提升推理速度的同時，做到幾乎完全消弭量化網絡整型計算相比浮點網絡數值精度差異帶來的算法效果損失。而近年來，随着 NVIDIA 對相關軟硬體生态的對 QAT 技術的支援日臻完善，螞蟻鍊團隊希望能藉由 NVIDIA 相關的軟硬體生态，将 QAT 技術應用到螞蟻鍊版權 AI 項目中，以滿足嚴苛的業務需求。

基于以上挑戰，螞蟻鍊 AIoT 技術部與 NVIDIA 技術專家合作，引入 QAT 技術對深度學習模型進行性能優化，并将模型轉換為 TensorRT 引擎部署至 NVIDIA T4 GPU 進行線上推理。

首先，團隊使用 QAT 技術對算法模型以“僞量化”模式進行微調，使模型得以在 INT8 整型推理模式下在算法效果名額上幾乎沒有損失。具體實作方案主要包括：使用 NVIDIA PyTorch Quantization 工具在模型中一些特定位置插入量化/反量化節點，在原模型的基礎上構造一個“僞量化”模型。緊接着，使用該“僞量化”模型在原任務上進行一定輪數的微調，使模型參數在受到量化誤差擾動的同時依然可以收斂到一個局部最優，最終最小化量化推理對模型算法名額帶來的負面影響。實踐中，螞蟻鍊團隊通過 QAT 技術可以将 INT8 模型與單精度模型的算法名額的相對差距縮小到 0.2% 以内，做到了算法效果幾乎無損的模型量化。

随後，則需要将微調完成的 QAT 模型轉換為真正的 INT8 版本模型部署到線上生産環境中。這一流程主要依賴 NVIDIA 提供的 TensorRT 高性能推理架構，相較其他部署架構，TensorRT 在 NVIDIA GPU 上表現出巨大的性能優勢：一方面通過 graph fusion，kernel tuning 等功能，可以自動化精簡網絡結構，為模型各層的不同 op 尋找最優 CUDA kernel 等優化操作；更重要的是，TensorRT 8.0 開始，添加了針對“僞量化”節點的自動化解析和融合功能，使 QAT 模型落地的門檻大大降低，讓 QAT 模型真正有可能在部署環境中展現出近似 INT8 後量化模型的極高推理性能。實踐中，采用 INT8-QAT 的模型做到了比單精度模型約 300% 的機關時間吞吐提升，極大提高了模型推理服務的效率；同時，量化模型更低的顯存占用也為模型部署帶來了更高的靈活性。

借助 NVIDIA 在高性能模型推理方面完善的軟硬體生态，螞蟻鍊團隊得以使用 INT8-QAT 技術大幅優化螞蟻鍊版權 AI 平台中模型推理服務的效率，幫助系統整體降本增效。300% 的推理速度提升，以及算法名額幾乎無損的特性，讓此項目的 AI 模型可以做到兼顧效果與性能，幫助螞蟻鍊版權 AI 平台在業界樹立技術優勢。

“版權保護是一個富有挑戰的技術領域，網際網路内容類型多樣、隐匿性強、易複制與編輯等特點對我們提出了諸多挑戰。螞蟻鍊從 2019 年釋出鵲鑿版權保護平台以來，在音視圖文的侵權檢索、侵權比對與定位方面做了大量深入的研究工作。我們 AIoT 團隊在 2022 年世界知識産權日向公衆釋出了螞蟻鍊版權 AI 計算引擎，可以對相似内容的提取精确到幀，直接以秒為機關回報比對結果。這種細顆粒度的識别能力極大提高了下遊工作效率，同時也需要我們充分探索和利用 NVIDIA INT8-QAT 等加速技術，在效果和性能之間達到最佳平衡。接下去我們還會面向低成本高性能的版權 AI 算法演進，讓技術普惠更多的普通創作者。”螞蟻鍊 AIoT 進階算法專家張曉博與錢烽表示

NVIDIA 攜手螞蟻鍊實作 INT8 QAT 技術加速 AI 推理

繼續閱讀

使用函數計算三步實作深度學習 AI 推理線上服務