資料密集型計算任務的增長需要具有更高性能和能效的處理單元,但使用傳統半導體技術越來越難以實作這些要求。一種潛在的解決方案是将裝置的開發與系統架構的創新結合起來。
在此,北大彭練矛院士、張志勇教授報告了一種基于3000個碳納米管場效應半導體的張量處理單元(TPU),可以執行節能的卷積運算和矩陣乘法。TPU采用脈動陣列架構建構,允許并行2位整數乘法累加運算。基于TPU的五層卷積神經網絡可以在295μW的功耗下執行MNIST圖像識别,準确率高達88%。他們使用優化的納米管制造技術,提供99.9999%的半導體純度和超潔淨表面,進而使半導體具有高導通電流密度和均勻性。通過系統級模拟,作者估計采用180 nm技術節點的納米管半導體制成的8位TPU可達到850 MHz的主頻率和每秒每瓦1萬億次操作的能效。相關研究成果以題為“A carbon-nanotube-based tensor processing unit”發表在最新一期《Nature Electronics》。
北京大學資訊科學技術學院電子學系主任、中國科學院院士彭練矛曾經在北京碳基內建電路研究院接受澎湃新聞專訪時說道:“我們在碳基內建電路這條路上走了20年,還沒有看到什麼令我們覺得走不下去的障礙。”
大陸從2000年就開始了針對碳基電子學的研究工作。2007年,北京大學彭練矛院士、張志勇教授團隊就提出了非摻雜制備碳納米管CMOS器件的方法,制備出了第一個性能超過同尺寸矽基半導體的碳納米管半導體器件。2017年,團隊在Science上發文,首次制備了5 nm技術節點的頂栅碳納米管場效應半導體,器件的本征性能和功耗綜合名額上性能相較同尺寸的傳統矽基半導體器件約有10倍的優勢,展現了碳納米管電子學的巨大潛力。
2020年5月份,該團隊再次在Science發文,采用多次提純和限域自組裝的方法,在四英寸基底上制備了高密度,純度超過99.9999%的碳納米管平行陣列,達到了超大規模碳納米管內建電路的需求,為推進碳基內建電路的實用化和工業化奠定了基礎。
【CNT TPU的硬體實作】
CNT TPU由3x3處理元件(PE)陣列、控制子產品和輸入/輸出多路複用器組成。每個PE均設計為執行2位整數乘法累加(MAC)運算。整個TPU由大約3000個CNT FET 構成。制造技術包括幾個創新步驟,以確定CNT半導體的高性能,例如:(1)高純度碳納米管薄膜:通過多重分散分選方法實作。(2)超潔淨表面:通過結合退火和濕法清潔工藝來確定。
圖1描繪了CNT TPU的整體系統架構,顯示了PE、控制子產品和多路複用器的排列。它包括所制造的CNTFET的SEM圖像及其結構圖,強調了CNT網絡的高均勻性和純度。
圖1.基于CNTFET的數字計算系統,用于張量處理加速。
圖2顯示了CNTFET的電氣特性,包括傳輸和輸出特性,以及反相器和NAND門等基本邏輯門的性能。它強調了基于CNT的邏輯門的穩健性和高性能。
圖2.頂栅p-FET和基本邏輯門的電氣特性。
【脈動陣列架構和卷積映射】
脈動陣列架構是CNT TPU的關鍵要素。它涉及以規則陣列組織簡單的PE,進而降低設計複雜性并增強容錯能力。每個PE執行MAC操作并将結果傳遞到網狀拓撲中的相鄰PE,進而實作高效的資料流并降低能耗。這種架構對于神經網絡中的卷積運算非常有效,其中資料和權重通過數組傳播,執行部分求和并按順序生成最終輸出。圖3顯示了脈動陣列中PE的内部結構,包括乘法器、加法器和寄存器等元件。它還通過詳細的SEM圖像和測試信号示範了卷積運算期間的資料流。
圖3.CNT TPU中卷積的PE和資料流。
【圖像邊緣提取和手寫數字識别】
為了展示CNTTPU的功能,研究人員實施了圖像邊緣提取和手寫數字識别任務。TPU以令人印象深刻的精度和低功耗執行這些任務:(1)圖像邊緣提取:使用3x3核心捕獲圖像輪廓。應用多個核心來改善細節捕獲,展示了TPU執行複雜圖像處理任務的能力。(2)手寫識别:建構了五層卷積神經網絡(CNN),在識别MNIST資料集中的手寫數字時實作了88%的準确率,而功耗僅為295µW。圖4展示了使用不同核心的圖像邊緣提取的結果。它比較了單個核心群組合核心捕獲的輪廓,展示了TPU提取詳細邊緣資訊的能力。
圖4.使用單個群組合核進行圖像邊緣提取。
圖 5詳細介紹了使用 CNT TPU 實作的五層 CNN 的架構和性能。它包括與其他硬體系統的功耗和準确性的比較,強調了TPU在手寫識别任務中的效率和準确性。
圖5.帶有CNTTPU的五層CNN、性能名額以及不同系統的比較
【脈動數組的矩陣-矩陣乘法】
矩陣乘法是CNT TPU的另一個重要應用。脈動陣列架構通過充分利用輸入資料并最大限度地減少資料移動,提供了優于傳統并行矩陣乘法器的固有優勢。這可以加快計算速度并降低能耗,使CNT TPU對于大規模矩陣運算非常高效。圖6比較CNT TPU和傳統并行矩陣乘法器在矩陣乘法任務期間的資料流和能耗。它凸顯了CNT TPU對于大規模矩陣運算的卓越能源效率和速度。
圖6.通過CNTTPU進行矩陣調控
【總結】
CNT TPU代表了張量處理單元領域的重大進步,集高能效、可擴充性和穩健性能于一身。通過利用CNT的獨特屬性和脈動陣列架構,該TPU非常适合各種資料密集型應用,從圖像處理到神經網絡計算。創新的制造技術確定了CNT的高純度和均勻性,為未來超越矽計算技術的發展鋪平了道路。
--檢測服務--
來源:高分子科學前沿