天天看點

企業AI需要精益、高效的資料機器

作者:雲雲衆生s
企業AI需要精益、高效的資料機器

貴公司如何處理這個問題将決定它是否會随着人工智能的下一個階段而發展,還是成為過去的一個遺迹。

譯自 Enterprise AI Requires a Lean, Mean Data Machine,作者 Bharti Patel。

七年前,八位 Google 研究人員 在一場重要的機器學習會議上介紹了 Transformer,将 AI 推向了進化的新階段。Transformer 架構 是創新的 AI 神經網絡,它使當今的大語言模型 (LLM) 和建立在其上的生成式 AI 應用程式成為可能。這項工作建立在許多人的基礎之上,包括圖靈獎得主 Geoffrey Hinton 等 AI 巨頭和傳奇人物 Fei Fei Li,後者因堅持認為大資料是釋放 AI 力量的核心而受到認可。雖然超大規模計算和學術界的研究仍然像以往一樣充滿活力,但當今 AI 模型創新的另一個熱點是企業本身。

各個垂直領域的企業都明智地評估了 AI 發展史上的這一分水嶺時刻,抓住時機以創新方式優化 LLM,并利用它們創造新的價值。但是,到目前為止,該價值在很大程度上仍是未實作的。

現在,2024 年過半,為了充分利用 LLM,企業創新者首先必須了解大量活動部件。擁有合适的底層技術并根據企業的獨特需求進行調整,将有助于確定生成式 AI 應用程式能夠産生可靠的結果——以及現實世界的價值。

資料集、模型和工具

當然,資料是 AI 的燃料,海量的公共資料集為 LLM 提供動力。但這些公共資料集可能不包含企業創新者試圖實作的目标的正确資料。通過它們産生的幻覺和偏差也與企業所需的品質控制相沖突。資料譜系、可追溯性、可解釋性、可靠性和安全性對企業使用者來說都更為重要。他們必須對資料使用負責,否則會面臨代價高昂的訴訟、聲譽問題、客戶傷害以及對其産品和解決方案的損害。這意味着他們必須确定哪些内部專有資料集應為模型定制和應用程式開發提供支援,這些資料集位于何處,以及如何最好地清理和準備它們以供模型使用。

我們聽說最多的 LLM 被認為是基礎模型:由 OpenAI、Google、Meta 等公司建構的模型,這些模型在海量網際網路資料上進行訓練——一些高品質資料,一些品質差到被視為錯誤資訊。基礎模型專為大規模并行而建構,可适應各種不同的場景,并且需要重要的防護措施。Meta 的 Llama 2,“一個經過預訓練和微調的 LLM 家族,參數規模從 7B 到 70B 不等”,是許多企業的熱門起點。它可以通過獨特的内部資料集進行微調,并結合知識圖譜、向量資料庫、用于結構化資料的 SQL 等功能。幸運的是,開源社群中有一項強大的活動可以提供新的優化 LLM。

開源社群在提供用作生成式 AI 生态系統的連接配接組織的工具方面也變得特别有幫助。LangChain,例如,是一個簡化基于 AI 的應用程式建立的架構,它有一個專門設計用于優化 LLM 使用的開源 Python 庫。此外,Linux 基金會分支正在為檢索增強生成 ( RAG) 制定開放标準,這對于将企業資料引入預訓練的 LLM 和減少幻覺至關重要。企業開發人員可以使用 API 通路許多工具,這是一場範式轉變,有助于實作 AI 開發的民主化。

雖然一些企業會有一個純粹的研究部門來調查開發新算法和 LLM,但大多數企業不會重新發明輪子。微調現有模型并利用不斷增長的工具生态系統将成為實作價值的最快速途徑。

超級計算和彈性資料平面

目前的 AI 時代,尤其是生成式 AI 的蓬勃發展,正在推動計算使用量和 GPU 技術的進步出現驚人的增長。這是由于 AI 訓練和 AI 推理 所需的計算複雜且數量龐大,盡管這些過程消耗計算的方式存在差異。這裡不可能不提到 Nvidia GPU,它供應了大約 90% 的 AI 晶片市場,并且随着最近宣布 的功能強大的 GB200 Grace Blackwell 超級晶片,它可能會繼續保持主導地位,該晶片能夠進行實時萬億參數推理和訓練。

除了這種強大的計算之外,正确的資料集、微調的 LLM 和強大的工具生态系統的結合對于實作企業 AI 創新至關重要。但為這一切提供形式的技術支柱是資料基礎設施——能夠統一資料生态系統的存儲和管理系統。在雲計算中奠定基礎的資料基礎設施現在也成為 AI 存在和增長的基礎。

當今的 LLM 需要以前所未見的速度獲得資料量、速度和多樣性,這會産生複雜性。不可能在高速緩存中存儲 LLM 所需的資料類型。對于需要為海量資料集進行擴充的高 IOPS 和高吞吐量存儲系統,是 LLM 所需的 基底,其中需要數百萬個節點。借助能夠實作閃電般快速讀取存儲讀取時間的超級 GPU,企業必須擁有低延遲、大規模并行系統,該系統可以避免瓶頸并針對此類嚴格要求進行設計。例如,Hitachi Vantara 的虛拟存儲平台 One 提供了一種新的方法來跨塊、檔案和對象實作資料可見性。需要随時提供不同類型存儲來滿足不同的模型要求,包括閃存、現場和雲中。閃存可以提供更密集的占用空間、聚合性能、可擴充性和效率,以加速 AI 模型和應用程式開發,同時兼顧碳足迹。閃存還可以降低功耗,這對于在可持續的現在和未來擷取生成式 AI 的好處至關重要。

最終,資料基礎設施提供商可以通過向開發人員提供統一的彈性資料平面和易于 部署的裝置(以及生成式 AI 構模組化塊、合适的存儲和計算),以最佳方式支援企業 AI 開發人員。統一的彈性資料平面是一台精益機器,可以極高效地處理資料,資料平面節點靠近資料所在位置,可以輕松通路不同的資料源,并提高對資料譜系、品質和安全性的控制。借助裝置,模型可以位于頂部并可以持續訓練。這種方法将加速企業跨領域的價值生成 AI 應用程式的開發。

控制成本和碳足迹

至關重要的是,AI 時代的這些技術基礎必須以成本效益和減少碳足迹為目标來建構。我們知道,在世界迫切需要減少碳足迹的時候,訓練 LLM 和生成式 AI 在各行業的擴充正在增加我們的碳足迹。我們也知道,首席資訊官始終将削減成本列為首要任務。采用混合資料基礎設施方法有助于確定企業靈活選擇最适合其特定要求且最具成本效益以滿足這些需求的方式。

最重要的是,AI 創新者應該明确他們想要實作什麼以及實作這一目标所需的模型和資料集,然後根據閃存、固态硬碟和硬碟等硬體要求進行調整。從超大規模計算提供商處租用或使用本地機器可能是有利的。生成式 AI 需要節能、高密度的存儲來降低功耗。

具有高自動化水準、彈性資料平面和針對 AI 應用程式建構進行了優化的裝置的混合資料中心将以一種社會負責且可持續的方式幫助推動 AI 創新,同時仍然尊重底線。你的企業如何處理這個問題可能會決定它是否會随着 AI 的下一個階段而發展,還是成為過去的一個遺迹。