1.概述
高性能計算(High Performance Computing,簡稱HPC)是計算機科學的一個分支,研究并行算法和開發(fā)相關軟件,致力于開發(fā)高性能計算機(High Performance Computer),滿足科學計算、工程計算、海量數據處理等需要。自從1946年設計用于導彈彈道計算的世界上第一臺現(xiàn)代計算機誕生開始,計算技術應用領域不斷擴大,各應用領域對計算機的處理能力需求越來越高,這也促使了高性能計算機和高性能計算技術不斷向前發(fā)展。隨著信息化社會的飛速發(fā)展,人類對信息處理能力的要求越來越高,不僅石油勘探、氣象預報、航天國防、科學研究等需求高性能計算機,而金融、政府信息化、教育、企業(yè)、網絡游戲等更廣泛的領域對高性能計算的需求也迅猛增長。應用需求是高性能計算技術發(fā)展的根本動力。傳統(tǒng)的高性能計算應用領域包括:量子化學、分子模擬、氣象預報、天氣研究、油氣勘探、流體力學、結構力學、核反應等。隨著經濟發(fā)展和社會進步,科學研究、經濟建設、國防安全等領域對高性能計算設施及環(huán)境提出了越來越高的需求,不僅高性能計算的應用需求急劇增大,而且應用范圍從傳統(tǒng)領域不斷擴大到資源環(huán)境、航空航天、新材料、新能源、醫(yī)療衛(wèi)生、金融、文化產業(yè)等經濟和社會發(fā)展的眾多領域。
圖 1 全球HPC TOP500統(tǒng)計數據顯示高性能計算能力成倍增長解決上述關系國家戰(zhàn)略和國計民生的重大挑戰(zhàn)性問題都離不開高性能計算的強力支撐,可以預見在戰(zhàn)略層面,各國對高性能計算的投入會持續(xù)增長,而中國將更加發(fā)力;在技術層面上,高性能計算的應用范圍將越來越廣,發(fā)過來應用需求也將催生高性能計算新技術的誕生與發(fā)展。
2.搭建原則
計算平臺建設要充分考慮未來的發(fā)展需求,包括多項目、多任務并行協(xié)同,遠程任務提交與監(jiān)控等。高性能仿真平臺的建設總體原則是立足眼前、面向未來,仿真平臺不僅要能夠完全滿足目前我部門的設計需要,還要具有前瞻性和可擴展性,滿足未來至少5年的應用需求。
能夠適應復雜的計算需求
由于高性能計算中心需求復雜,需要滿足各種應用需求。對于天線陣列與天線罩的仿真與建模,需要采用高性能的圖形工作站;對于常規(guī)的計算密集型應用,往往適合大規(guī)模的多節(jié)點并行,使用常規(guī)的刀片集群來滿足;對于無法進行多節(jié)點跨節(jié)點并行的多線程應用,對內存、IO需求的較為強烈,SMP胖節(jié)點可以提供單節(jié)點更強的性能,更高的內存和IO擴展性需求,和廣泛的外插卡擴展性,一般配置SMP 胖節(jié)點來滿足應用需求。
采用高速互聯(lián)網絡
大規(guī)模并行計算在計算過程中對網絡有較大的需求,高帶寬和低延時的InfiniBand網絡會帶來應用性能和擴展性的大幅提升,尤其隨著CPU多核化的快速發(fā)展,單節(jié)點的計算性能越來越強,帶來節(jié)點間通訊的壓力越來越大,InfiniBand網絡幾乎成為許多高性能計算應用的標配。同時,高性能集群對共享文件系統(tǒng)的需求也要求數據通過網絡來對集中存儲進行訪問,高帶寬的InfiniBand網絡也會帶來數據訪問性能的快速增長。文件系統(tǒng)并行和權限分級高性能計算中心應用計算能力強、應用數量多,除了一部分高IO應用會給共享文件系統(tǒng)帶來較大壓力,同時,海量任務的并發(fā)讀寫也會帶給文件系統(tǒng)的較大負載。同時,海量的數據和高性能集群統(tǒng)一文件映像的需求,也要求高性能計算中心有一個海量的單一文件分區(qū)。需要采用并行文件系統(tǒng),并行文件系統(tǒng)通過軟件的方式能夠實現(xiàn)多個存儲空間的單一分區(qū)和并發(fā)讀寫,突破硬件資源設計的瓶頸,帶來靈活的擴展性和性能的大幅提升。同時,面對不同的用戶的權限要求,需要分出幾個層次,用戶享有的數據安全性程度也有不同。同時,不同應用的文件訪問類型也有明顯不同,有的是大文件為主,有的是小文件,但是數量巨大。所以在方案設計中,最好使用分層次的分級存儲。
配置管理調度系統(tǒng)
由于高性能計算中心用戶數量多,權限有一定差異,離散度高,帶來管理的難度加大。同時,由于計算中心的運維方主要給用戶提供服務,所以對用戶的使用權限、記帳、管理等方面要求比較高。所以高性能計算中心對管理軟件和調度軟件的要求較高,一般除了普通的調度功能外,還要可以實現(xiàn)靈活的策略分配和權限分配,作業(yè)記帳、用戶搶占,限制用戶登入、報警、系統(tǒng)快速恢復等等功能。同時,還要制定一定的規(guī)章制度,來規(guī)范用戶對資源的申請、使用和分配。
低能耗要求
由于高性能計算中心規(guī)模大,所以電費開支是一項不小的開銷。一般一年的電量達到上萬甚至數十萬千瓦時,所以節(jié)能環(huán)保不但能實現(xiàn)設備的綠色低碳,同時也能大大降低運維費用??紤]到節(jié)能需求,方案中采用刀片服務器、低功耗處理器、節(jié)能軟件、高制冷效率基礎設施(水冷機組或封閉式制冷機柜)等方式實現(xiàn)綠色節(jié)能。
能實現(xiàn)遠程操作與監(jiān)控
傳統(tǒng)的HPC應用軟件有一定的使用難度,尤其Linux操作系統(tǒng)和作業(yè)提交腳本,對于大部分習慣windows的用戶來說,成為擺在面前的一個技術壁壘。同時,常規(guī)的用戶通過SSH 遠程登錄的使用模式,使得用戶有很多權限可以順利登陸到高性能集群上進行各種操作,也帶來了巨大的安全隱患。定制化的、針對應用軟件的Web Portal可以很好的解決這些問題。Web Portal可以大大降低應用軟件使用難度,保證系統(tǒng)安全性,更好的為用戶提供高性能計算服務。
高數據安全性
在高性能集群上的用戶數據眾多,數據安全非常重要,數據安全主要包含兩方面的內容第一方面,可能遭到網絡黑客的遠程攻擊,或者其它用戶的竊取,或者由于用戶名密碼的丟失被竊取。解決方法可以是使用防火墻、加密文件系統(tǒng)、以及加密認證登陸系統(tǒng)來進行安全防護(如堡壘機等)。第二方面,指的是由于設備故障或地震、火災等因素造成的數據丟失。解決方法可以使用數據備份等方式來解決。
3.高性能仿真平臺
高性能仿真平臺包含兩大部分:軟件系統(tǒng)和硬件系統(tǒng)。根據模型計算量首選確定仿真軟件的配置規(guī)模,進一步牽引出硬件的合理搭配環(huán)境。
3.1. 軟件系統(tǒng)
為完成高性能計算,軟件系統(tǒng)從兩方面來解決超大計算量問題:1.多種混合算法實現(xiàn)電大尺寸問題的精確求解2.采用高性能計算(HPC)擴展求解規(guī)模
3.1.1.多種混合算法實現(xiàn)電大尺寸問題的精確求解
在HFSS的多種算法中,有限元法(FEM)擅長處理復雜結構和介質材料,矩量法(MoM)則擅長求解純金屬電大尺寸的開放空間問題,而PO光學法可以快速評估大尺寸模型的性能與結果,SBR彈跳射線法作為一種高效高精度的光學算法,適用于金屬材料的大尺寸快速求解,并作為混合算法的其中一項,主要針對天線類布局與RCS計算等。例如,天線與天線罩裝配到飛機上之后是典型的大尺寸且復雜的問題。在ANSYS軟件中,HFSS(有限元法模塊)和HFSS-IE(積分方程法模塊),PO光學法模塊(包含于IE模塊內部),即三維矩量法)實現(xiàn)了完美融合,可通過FEBI邊界和IE Region、PO Region技術將幾種算法應用到一個模型的求解中,結合了各種算法的優(yōu)點,非常適合電大尺寸問題的精確求解以及快速評估。1)可以將邊界(FEBI邊界)設置的離目標更近,減小求解網格量;
圖2 天線罩與天線的的混合算法示意圖——FEBI邊界的應用2)可以是凹形的,容易實現(xiàn)與任意形狀復雜結構共形;3)模型可以分離,用于仿真模型分離的情況;
圖3 天線罩與天線的的混合算法示意圖——模型的分離
3.1.2.采用高性能計算(HPC)擴展求解規(guī)模
ANSYS軟件中高性能計算(HPC)選項采用了區(qū)域分解(DDM)技術,可以突破單節(jié)點硬件的限制,實現(xiàn)高性能并行計算,擴展求解規(guī)模。
圖4a
圖4b
圖5 HPC與DDM加速比、內存占用與子域個數的關系曲線DDM技術通過利用局域網內計算機的所有內存對大規(guī)模問題進行仿真。HFSS會根據網格規(guī)模和用于計算的處理器核/計算機數目將待求解問題的劃分子域數目進行優(yōu)化;DDM算法會自動將有限元網格按上述優(yōu)化的結果分解成若干子域。每個子域會單獨進行分析,然后通過在子域間的交接面上的迭代重構出整個域的解。這種網絡內存共享機制可對超出單機計算規(guī)模的大型問題進行仿真。
此外,DDM技術還可降低仿真時間和總內存需求,在某些問題上隨著參與計算的核數的增加可提供超線性的加速比。由于HFSS仿真所需的求解時間和內存隨求解未知量增長的關系大約滿足N1.4(N為未知量數目)。采用8核的計算機進行求解時,去除一個核作為頭節(jié)點,可將待求解模型分為7個子域,因此,求解速度可以提升約71.4(15倍)。如下圖顯示了采用DDM求解F-35上的機載天線時的加速比和內存占用隨求解核數(求解核數=子域數目+1)增加的規(guī)律,在此問題上,DDM呈現(xiàn)出了超線性加速比特性。HPC高效并行算法,是一種結合了MPI技術的并行算法。消息傳遞MPI是目前使用最為廣泛的實現(xiàn)并行計算的一種方式.在消息傳遞模型中,計算由一個或者多個進程構成,進程間的通信通過調用庫函數發(fā)送和接收消息來完成.通信是一種協(xié)同的行為。HPC結合DDM,可以實現(xiàn)大規(guī)模問題的高效并行求解。最新的HPC模塊增加了頻譜分解(SDDM)功能,可自動將寬帶掃頻的各個頻點分配到多個處理器或計算機求解,并自動生成掃頻結果。該方法極大減少了獲取寬帶頻域求解的總仿真時間。
圖6 HPC 區(qū)域分解示意圖最新的HPC模塊增加了頻譜分解(SDDM)功能,支持離功掃頻與插值掃頻??勺詣訉拵哳l的各個頻點分配到多個處理器或計算機求解,并自動生成掃頻結果,極大減少了獲取寬帶頻域求解的總仿真時間。
圖7 頻譜分解技術——并行的掃頻方式分布式求解DSO技術,與OPT模塊結合,可支持多參數的分布式掃描與計算, 將設計參數分配到多個處理器或計算機求解,加速設計參數掃描進程。
圖 8 分布式參掃技術——并行的參數掃描與加速2017版本以后,HFSS軟件增加了GPU加速的功能,可加速頻域FEM有限元的直接法求解與時域有限元模塊的求解。GPU加速功能的加入,并不會增加License的購買成本,而是免費提供。例如,客戶購買了一個8核的HPC,可調用一塊GPU顯示。如果購買更多的HPC,則每8個CPU,可搭配一個GPU使用。
圖 9 介質諧振天線的頻域FEM求解
3.2.硬件系統(tǒng)
- 依據大規(guī)模電磁計算軟件的特點,采用普通刀片節(jié)點和胖刀片節(jié)點結合的集群方案,集群計算系統(tǒng)共可實現(xiàn)2240核CPU、12TB內存資源總和,整體雙精度浮點計算理論峰值性能達到75萬億次每秒。
配置雙路胖刀片計算節(jié)點10臺(每臺512GB內存), CPU采用Intel E5 V4系列,CPU總核心數達到560,總內存數達到5TB,雙精度浮點計算峰值性能達到10.7萬億次每秒。該配置的刀片主要適用于內存空間開銷非常大的電磁計算,并行前處理或DMP方式并行計算的問題的仿真計算。配置高性能圖形工作站10臺,用于仿真計算過程的建模與前處理等對圖形要求較高的工作,并且可以用于小規(guī)模問題的計算,提高高性能計算的靈活性。集群存儲采用分布式并行存儲系統(tǒng),裸容量200TB,提供集群軟件的基本共享存儲空間,及所有用戶數據的統(tǒng)一集中存儲和管理(各用戶的算例數據可共享也可私有)。集群配置管理/登錄節(jié)點2臺。集群滿載總功耗峰值按照集群配置核算,機房配電、冷卻、及電費與此密切相關。計算及存儲網絡采用100Gb/s EDR InfiniBand(為當前業(yè)界帶寬最大且速度最快網絡),采用模塊化InfiniBand交換機,實現(xiàn)系統(tǒng)全線速交換。提供完備的集群系統(tǒng)軟件,包括:節(jié)點Linux操作系統(tǒng);供應商集群操作系統(tǒng)應提供系統(tǒng)監(jiān)控、管理、告警、統(tǒng)計、作業(yè)調度等功能和組件;OpenMP及MPI并行開發(fā)環(huán)境,GPU開發(fā)環(huán)境,以及其它相關的HPC開發(fā)運行環(huán)境。作業(yè)提交和管理軟件。實現(xiàn)所有日常計算作業(yè)的提交和作業(yè)管理,以及滿足某些不了解Linux的Windows用戶,在無需另外學習了解Linux的情況下,能有效便捷地使用Linux高性能計算集群。
- 配置雙路普通刀片計算節(jié)點60臺(每臺128GB內存), CPU采用Intel E5 V4系列,CPU總核心數達到1680,總內存數達到7TB,雙精度浮點計算峰值性能達到64.5萬億次每秒。該配置的刀片主要適用于,絕大多數常規(guī)CAE流體、結構、電磁等問題的仿真計算。
4.系統(tǒng)構成
4.1.系統(tǒng)拓撲結構
圖11 高性能計算系統(tǒng)拓撲結構圖
4.2.計算系統(tǒng)
高性能計算應用最為核心的需求仍然是計算能力,高性能計算機峰值計算能力代表著高性能計算機的整體處理能力,而對于大部分的高性能計算應用,對計算資源的海量需求仍然是最為迫切和直接的需求。在高性能計算過程中,會進行大量的內存訪問,對內存的容量和訪問速度都有很高的需求。尤其隨著CPU多核化的快速發(fā)展,對內存的訪問能力提出了新的需求,同時,隨著CPU的不斷升級,內存通道的數量及內存的頻率也在不斷升級。從應用需求出發(fā),高性能計算機的部件及架構要適合具體的高性能計算應用。我們目前關注的電大尺寸復雜天線罩的結構和電磁計算,需要大內存、共享存儲擴展等需求,因此系統(tǒng)需要配置大內存及多路胖節(jié)點,并考慮總體計算峰值??紤]到上述要求,本集群系統(tǒng)整體雙精度峰值達到75萬億次。共配置70片刀片服務器,配置雙路普通刀片計算節(jié)點60臺(128GB DDR4內存),配置雙路胖刀片計算節(jié)點10臺(512GB DDR4內存),這70片刀片安裝在高性能刀箱中。每個刀片服務器配置2顆14核Intel Xeon E5-2680 v4處理器,主頻2.4GHz。這樣的配置可以滿足我們未來五年的計算需求,實現(xiàn)大型電磁仿真計算。
4.3. 存儲系統(tǒng)
高性能計算集群在多個節(jié)點進行大規(guī)模并行計算的同時,需要進行大量文件及數據訪問,對于系統(tǒng)的存儲性能也提出非常高的要求。為保證參與計算的所有節(jié)點具有統(tǒng)一的文件映象,需要通過網絡文件系統(tǒng)來實現(xiàn),由于集群規(guī)模的增大和訪問性能的要求逐漸提高,并行文件系統(tǒng)在中大規(guī)模的高性能集群中使用越來越廣泛。對于某些規(guī)模較大集群,或者某些高IO應用集群,由于對存儲的訪問量很大,對共享存儲的訪問性能也提出了較高要求,可以通過并行存儲系統(tǒng)來實現(xiàn)海量文件的并發(fā)讀寫。并且集群集中存儲的容量要求能夠適應我單位的應用要求。高性能集群承擔著重要的科研任務,存儲的數據具有極高的價值,同時,存儲為全局系統(tǒng),一旦出現(xiàn)故障,將導致整個系統(tǒng)不可用。所以在存儲系統(tǒng)中,無論IO節(jié)點、存儲交換機、還是存儲磁盤陣列,存儲介質,每個環(huán)節(jié)都要盡可能的保證高可靠性和高可用性??梢酝ㄟ^冗余電源、高級別RAID、雙機熱備、數據備份等各種手段保證存儲系統(tǒng)的高可靠性。本方案采用1套分布式并行存儲系統(tǒng),作為集群共享存儲系統(tǒng),總容量達到200TB,并且具有可擴展性,滿足我單位未來五年的仿真設計要求。
4.4.網絡系統(tǒng)
4.4.1.管理網絡
本項目核心層采用一臺48端口千兆交換機。管理節(jié)點、登錄節(jié)點、刀片計算節(jié)點,采用千兆以太網絡直接連入千兆交換機,該方案在保證管理網絡性能的同時,為系統(tǒng)的擴充也預留了一定空間。
4.4.2.EDR InfiniBand計算/存儲網絡
以MPI為代表的并行高性能計算程序,在多節(jié)點并行運行時有頻繁大量的網絡數據通信,計算網絡的性能對并行程序的計算性能、并行加速比以及可擴展性有決定性的影響。這主要反映在兩方面。如果并行計算程序的數據通信以小數據包為主,且數據交換非常頻繁,這一類并行程序對計算網絡的延遲性能非常敏感,計算網絡的延遲越低,程序的并行性能越好;如果并行計算程序數據通信大數據包較多,則對計算網絡的帶寬性能敏感,計算網絡的帶寬越高,程序的并行性能越好。實際情況中,大部分并行應用程序對計算網絡的帶寬和延遲性能都非常依賴,低延遲、高帶寬的計算網絡是大規(guī)模并行計算必不可少的要素。另一方面,目前大規(guī)模高性能計算集群均采用分布式并行存儲架構,集群的規(guī)模越大,或者應用程序對存儲I/O性能要求越高,則對并行存儲系統(tǒng)的存儲網絡性能要求越高,要求存儲網絡具有低延遲、高帶寬的特性。因此,本系統(tǒng)方案采用目前業(yè)界最高性能的100Gb/s InfiniBandEDR高速網絡,用作并行計算程序的計算網絡以及并行存儲系統(tǒng)的存儲網絡。系統(tǒng)配置1臺108端口模塊化EDR InfiniBand交換機實現(xiàn)全線速交換。
4.5.管理服務節(jié)點
管理節(jié)點主要用于運行集群監(jiān)控管理軟件license、用戶信息管理服務、InfiniBand子網管理服務、作業(yè)調度服務、時間同步服務等集群系統(tǒng)服務。這些關鍵系統(tǒng)服務均配置為互備冗余模式,保障整個集群系統(tǒng)的高可用性。管理節(jié)點硬件本身也配置有冗余電源、本地硬盤RAID保護等可靠性保障措施。登錄節(jié)點主要用于用戶程序編譯、算例準備,文件上傳下載,作業(yè)提交控制等用戶交互操作。登陸節(jié)點CPU與計算節(jié)點架構相同,保障用戶編譯程序的執(zhí)行效率。登陸節(jié)點也可配置CPU、MIC和GPU等開發(fā)環(huán)境,方便用戶進行相關程序的開發(fā)調試。管理和登陸節(jié)點采用千兆直接接入集群管理網絡,可通過獨立硬件負載均衡設備,實現(xiàn)用戶接入的動態(tài)負載均衡和高可用。
4.6.高性能圖形工作站
為符合工程仿真設計的應用場景及要求,包括多人多任務操作、前后處理要求具有較好的圖形顯示功能、小規(guī)模問題計算等,此次平臺建設選擇多臺高性能圖形工作站配合刀片集群配合使用的方案。圖形工作站有出色的圖形處理能力,搭配工程師更為熟悉的Windows操作系統(tǒng),非常適合仿真設計中的前后處理等對圖形處理要求比較高的工作,尤其在對復雜天線罩建模的過程中,需要高性能的GPU支持才能有較好的設計體驗。
5.后注
高性能計算中心的配置屬于大型投資,需要應用方和供應商深度協(xié)作,達成符合應用方需求的最佳配置和使用方式,這里只是將其搭建的各個方面簡單展現(xiàn),且高性能計算市場風起云涌,變幻莫測,這里的信息以及是幾年前的建議,不具有實際操作價值,勿照搬本文所列配置。