文︱ED SPERLING
來源︱Semiconductor Engineering
編譯 | 編輯部
芯片制造商開始重新審視異構(gòu)系統(tǒng)中應(yīng)該使用多少暗硅,在哪里工作得最好,以及有哪些替代方案可用——這是摩爾定律擴展放緩以及SoC日益分解的直接后果。
暗硅的概念已經(jīng)存在了幾十年,但隨著物聯(lián)網(wǎng)的引入,所有東西都必須安裝在單個芯片上,并使用小電池工作,暗硅才真正開始發(fā)展起來。事實證明,對于智能手表和手機的初始版本來說,這種做法是存疑的。而當(dāng)時最好的解決方案是關(guān)閉任何基本應(yīng)用不需要的電路。
然而,其他問題接踵而至。例如,當(dāng)設(shè)備重新通電時,浪涌電流(特別是那些需要更快打開的設(shè)備)會給電路帶來壓力,從而導(dǎo)致芯片損壞。因此,雖然關(guān)閉芯片的某些部件的電源可以減少老化,但快速打開它們也可能引發(fā)問題。在過去十年中,通過低功耗芯片的工程設(shè)計,其中大部分問題已經(jīng)得到解決,并且暗硅加上極其高效的設(shè)計,推動了下一代移動設(shè)備的發(fā)展,同時也對極大縮減了數(shù)據(jù)中心的能源成本。
現(xiàn)在的問題是,除了延長兩次充電之間的時間之外,還能做些什么,而僅僅添加更多的暗硅并不能解決這個問題。相反,人們更加關(guān)注滿足應(yīng)用需求的芯片設(shè)計,而這得益于從設(shè)計到制造流程的一系列開發(fā)。其中:
整個生態(tài)系統(tǒng)一直在圍繞先進封裝發(fā)展和高效設(shè)計工具,OSAT和代工廠提供了經(jīng)過硅驗證的分立元件(如Chiplet)以及各種封裝方法。這使得芯片制造商能夠開發(fā)更復(fù)雜的器件,同時還可以更有效地為特定領(lǐng)域應(yīng)用進行分區(qū)和優(yōu)先排序。
先進的封裝為更短的信號路徑和更快的互連開辟了道路。與大型平面芯片相比,信號在封裝中的傳播距離可能更短,并且這些信號可以通過利用先進的互連和新材料,從而在驅(qū)動時實現(xiàn)更快速、功耗更低的數(shù)據(jù)傳輸。
超低功耗設(shè)計和各種功能(例如接近閾值計算)在很大程度上仍處于觀望狀態(tài),然而目前卻正在受到更廣泛的關(guān)注。此外,在過去十年中,電池內(nèi)部的密度以每年平均5%至6%的速度增長,使設(shè)備能夠使用相同尺寸甚至更小的電池做更多的事情。雖然終端設(shè)備的外形尺寸往往相對一致,但可以在不影響電池壽命的情況下將更多設(shè)備封裝在設(shè)備內(nèi)部。
所有這些變化都是日積月累的。因此,與其關(guān)閉芯片的大部分電源,不如使用較小的芯片或Chiplet來完成更多工作,這可以更具成本和能效。此外,芯片中的各種功能可以在最佳工藝節(jié)點上開發(fā),權(quán)衡成本、用例、靜態(tài)電流泄漏和尺寸等因素。
“還有更多各種各樣的解決方案,”Arm的研發(fā)研究員Rob Aitken表示。“暗硅背后的部分想法是有一個固定的功率預(yù)算,特別是對于移動計算。但是,如果縮小設(shè)備,同時提高頻率,那么功率就不會真正改善。相反,最終會得到這個空白空間,并且有各種各樣的想法來解決這個問題。
對于智能手機和可穿戴設(shè)備來說,暗硅是一種經(jīng)過驗證的解決方案,但它不是最有效的解決方案。還有其他選擇,從限制各種組件尺寸到將它們分散在封裝中,從而在增加密度時減少熱效應(yīng)。這對于內(nèi)存尤其有價值,因為內(nèi)存在較低溫度下可以更有效地運行。因此,當(dāng)附近的電路斷電時,內(nèi)存可能會保持冷卻,但浪涌電流會很快使其過熱。更好的選擇是將內(nèi)存與先進封裝中的主動邏輯物理分離。
“如果溫度太接近最大允許的工作范圍,你可能不得不更頻繁地刷新內(nèi)存,”Rambus的杰出發(fā)明家Steven Woo指出。“當(dāng)內(nèi)存器件過熱時,最終可能會失效。如果器件溫度升高,那就不得不做所謂的節(jié)流。注意縮短以最佳性能運行的時間,或者在短時間內(nèi)運行,讓其再次冷卻下來。”
所有這些技術(shù)以及其他發(fā)展使移動設(shè)備能夠進行比過去更密集的計算,而不會耗盡。“在移動領(lǐng)域,功率實際上升了,”Arm的Aitken認為。“與15年前相比,如今的芯片消耗了更多的功率。由于電池技術(shù)的發(fā)展,以及更多的物理區(qū)域,可以讓器件更有效地散熱,從而提高了芯片功率。”
通過三維層級規(guī)劃隔離芯片的各個部分,并采用各種技術(shù),如動態(tài)電壓頻率調(diào)節(jié),以及一些暗硅,可以更有效地進行熱管理。它也可以使用更少的硅面積來完成,這提高了性能,并為相同器件中的其他功能和特性打開了大門。
這種方法還有其他好處。“過去有理由選擇越來越大的芯片,這樣你就可以將更多的功能集成到單個芯片中,”Fraunhofer IIS自適應(yīng)系統(tǒng)部門工程設(shè)計方法負責(zé)人Roland Jancke表示。“如果你不需要硅的某些部分,那么你可以關(guān)閉它們以節(jié)省電力。但是還有其他原因使用較小的芯片。例如,相較于數(shù)字電路,如果在設(shè)計中包含模擬電路,則通常位于成熟工藝節(jié)點中,因此它會占用更多區(qū)域(這使得減小數(shù)字元件的尺寸更具優(yōu)勢)。而對于RF而言,則需要大量的功率。Chiplet也有安全優(yōu)勢,很難復(fù)制整體系統(tǒng)功能,僅在以相同方式將相同部分集成到相同封裝中時,它才有效。如果你使用這些芯片中的任何一個都失敗了,那么你就錯過了整體功能。
人工智能的影響
重新思考關(guān)閉部件以及關(guān)閉時間的驅(qū)動因素之一涉及人工智能和機器學(xué)習(xí),其中芯片設(shè)計旨在實現(xiàn)最大的性能和吞吐量。對于需要非常快速地處理大量數(shù)據(jù)的大型數(shù)據(jù)中心尤其如此。通常,這涉及并行工作的強大處理器內(nèi)核,其中一些內(nèi)核是專門為這些數(shù)據(jù)中心工作負載設(shè)計的,通常與GPU、CPU、某種類型的NPU和DSP結(jié)合使用。問題是這些設(shè)備依賴于穩(wěn)定的數(shù)據(jù)流,并且該數(shù)據(jù)流并不總是一致地流動。
“如果有兩種解決方案,其中一種解決方案更有效地使用晶體管,那么每美元和每瓦特將獲得更多的吞吐量,”Flex Logix首席執(zhí)行官Geoff Tate指出。“因此,從客戶的角度來看,采用暗硅是不可取的。很難開發(fā)出高利用率的架構(gòu),但利用率越高越好。
在過去的五年里,隨著人工智能變得越來越普遍,人們對什么是最佳方案的看法改變了。“在人工智能的早期階段,第一個挑戰(zhàn)就是讓一些功能發(fā)揮作用并改進模型,使它們越來越好,并沿著學(xué)習(xí)曲線上升,” Tate指出。“在數(shù)據(jù)中心領(lǐng)域,其擁有巨大的預(yù)算和巨額利潤,這使他們能夠做一些以前無法做到的事情。但是,當(dāng)我們尋求將AI部署到大批量應(yīng)用,且對價格更敏感的解決方案中時,客戶將尋找能夠為其功率預(yù)算和金錢預(yù)算提供最大的推理性能的供應(yīng)商,我們看到的大多數(shù)企業(yè)在達到他們的資金預(yù)算之前就達到了功率預(yù)算。這不僅僅是出于成本原因而有效地使用晶體管。擁有的晶體管越多,泄漏就越多。因此,如果你能用更少的晶體管完成工作,它將更加節(jié)能。”
在人工智能世界中,“暗硅”也可以具有另一種含義。“盡管供應(yīng)商試圖提供所有芯片和所有馬力,但當(dāng)你試圖運行實際的神經(jīng)網(wǎng)絡(luò)模型時,甚至無法獲得接近40%的系統(tǒng),”AMD數(shù)據(jù)中心人工智能和計算市場高級總監(jiān)Nick Ni表示。“引擎可以非???,但如果你沒有要處理的數(shù)據(jù),那么它們就閑置了。這就是導(dǎo)致暗硅的原因。”
圖 1:AMD 的 3D V-Cache 使用堆疊在處理器上的緩存小芯片(圖源:AMD)
挑戰(zhàn)在于徹底了解需要處理的上下文和數(shù)據(jù)量,然后圍繞這些因素設(shè)計芯片。AMD收購Xilinx的原因之一,以及英特爾收購Altera的原因之一,是能夠微調(diào)其中一些設(shè)備的使用方式。可編程邏輯可以根據(jù)需要動態(tài)重新配置和調(diào)整大小,因此可以根據(jù)需要使用小型FPGA,而不是巨型FPGA。雖然巨型FPGA的效率永遠不如硬連線ASIC,但較小的可編程邏輯芯片可用于減少未充分利用或未利用的硅的數(shù)量。
“雖然能夠為每個市場構(gòu)建定制ASIC會很好,但其中一些用例是如此多樣化,以至于市場變得越來越小,而構(gòu)建ASIC的成本正在上升,”Rambus的Woo表示。“因此,F(xiàn)PGA與x86結(jié)合使用是有意義的。您可以加載位文件以用于特定于市場的工作,然后利用 x86 的通用基礎(chǔ)結(jié)構(gòu)來完成其他所有操作。”
Chiplet架構(gòu)的影響
Chiplet增加了另一個級別的靈活性,因為芯片尺寸可以根據(jù)特定功能所需的任何條件進行調(diào)整。這意味著可以完全消除芯片中未使用的部分,而不是將其置于睡眠狀態(tài),并且可以將附加功能放在不同的小芯片上。
“芯片尺寸是采用Chiplet的主要驅(qū)動力之一,”TechSearch總裁Jan Vardaman在最近的一次演講中說。“如今,GPU和CPU的芯片尺寸非常大,我們確實必須擁有更多的晶體管。只是我們必須弄清楚如何經(jīng)濟地將所有這些晶體管放在一起并發(fā)揮作用。因此,我們在推動Chiplet采用方面所做的額外工作將使我們能夠制作出更高密度的更精細的封裝。您可以做一些提高電源效率的事情,這在我們的許多應(yīng)用中都非常重要。”
關(guān)鍵是能夠以最有效的方式將各個部分組合在一起。“我們必須能夠以一種新的方式思考設(shè)計。這是一個系統(tǒng)架構(gòu),“Vardaman表示。“因為你得到的是一個更小的模具,這可以提高產(chǎn)量,所以你將使用最先進的節(jié)點來制造需要這些節(jié)點的零件。您不會在高性能邏輯節(jié)點中制造芯片的模擬部分。您將在其他節(jié)點中將其鑄造,因為它更便宜。你要把所有這些放在一起。小芯片是硬 IP 塊。它必須共同優(yōu)化。所有這些東西都可以一起工作。你不能孤立地設(shè)計這些東西。”
在這種情況下,暗硅只是降低功耗的另一種選擇,而不一定是最好的選擇。雖然它可以為特定功能提供儲備計算能力,但它不是設(shè)計復(fù)雜系統(tǒng)的最有效方法。
總結(jié)
將更多功能封裝到芯片上的能力不斷削弱,但功耗和性能優(yōu)勢也在不斷縮小。因此,芯片制造商正在尋求通過先進封裝來繼續(xù)降低功耗、提升性能。但在封裝中,暗硅并不如單個高性能芯片那么有吸引力,后者的尺寸更具普適性,并且數(shù)量在十億芯片范圍內(nèi)。即使在最理想的條件下,暗硅似乎也顯示出它的年齡。
“我們正處于這種暗硅軌跡中,”Aitken稱。“有一堆東西進入了暗硅思維過程,這些東西已經(jīng)逐漸成為主流。您將構(gòu)建一個具有許多不同核心功能的芯片。但是,如何始終打開所有功能以最大化提高計算性能仍然是一個非常困難的問題。這是你可能不想回答的問題,因為它會產(chǎn)生大量的熱量,無論如何你都無法處理。”