SHMEM和OpenSHMEM的構思和發展都假設它們和底層硬體系統體系結構有密不可分的關系。由克雷研究公司開發和出售的克雷T3D和T3E計算機系統在其網絡架構中包含幾個進階的硬體加速特征,是與SHMEM合作設計的,用以最大化可用的帶寬及最小化系統的3D Torus網絡延遲[85]。克雷公司,即原來克雷研究公司的現代同名,在其最新的Gemini網絡架構[86,90]中也延續了相同的設計理念。當1996年SGI收購了克雷研究公司,也同時獲得了SHMEM的知識産權,SGI設計了NUMAlink體系架構[250]和共享存儲的能力以最大化性能,SHMEM再一次成為開發這些的最佳API。兩個公司仍繼續關注于確定軟硬體的高性能實作,也使SHMEM或OpenSHMEM API的能力得以發揮。
IBM在DARPA HPCS項目下開發了私有的網絡裝置Torrent [266]。Torrent的主要目标之一是對類似于OpenSHMEM的PGAS程式設計範型進行硬體加速。Torrent具有一些進階的網絡加速特征,包括遠端存儲通路能力(remote memory access,RMA),共同加速單元(Collective Acceleration Unit,CAU),并支援豐富的原子記憶體操作集(atomic memory operations,AMOs)。AMO特征包括定點(NOP,SUM,MIN,MAX,OR,AND,XOR(有符号和無符号))和浮點(MIN,MAX,SUM,PROD(單精度和雙精度))能力。這些特征使Torrent可以用MPI和OpenSHMEM一起來開發硬體全部的性能,并為PGAS語言提供了基礎。圖3-1描述了IBM Torrent網絡晶片,是系統的計算或存儲元件及環境的網絡部分可能的一種典型內建方式。對超大規模系統(百億億次)來說這很必要,以便将網絡和存儲以及處理能力放在同等位置,這能提高能力和帶寬,并降低延遲,也會對所有PGAS類型的程式設計模型産生積極的影響。
直到現在,這些能力和內建等級隻存在于來自如克雷、SGI和IBM的具有大量私有網絡投資的高端系統中。但在2011年,Mellanox [188]和HP在橡樹嶺國家實驗室超大規模系統中心的指導下,宣布對OpenSHMEM API以及使該模型充分生效的許多關鍵底層硬體特征的支援。雖然這種合作設計的重心聚焦于對OpenSHMEM加速的支援,但這也會使其他PGAS程式設計模型成為可能。這也是商用網絡第一次設計實作包含支援OpenSHMEM基本要素的硬體、固件及系統軟體。除了在私有和商用網絡的進步,筆者也見過将OpenSHMEM API的能力嵌入FPGA的項目[267]。這些輕量級的實作将開發那些部署在未來超大規模系統中的硬體性能。對目前在千兆及未來千兆兆操作的系統所承載的工作量來說,将網絡提升到“一等公民”的位置很重要。