【心得】Intel 13th CPU的大小核架構在ANSYS Fluent上的效能表現簡測

1. 前言

由於工作上時常需要使用CFD(計算流體力學)軟體來模擬,加上對電腦硬體有些認識,成了本次做這一些小測試的契機。

念研究所的時候12代剛上,當時有時間可以進行測試,實驗室的設備費卻已經乾了,因此一直沒能買有大小核設計的CPU來進行一些CFD運算的測試。我看到的大多說法都說大小核設計有助於計算密集型的生產力應用,例如渲染、剪片轉檔等等,也確實在Cinebench之類的跑分軟體中有十分強悍的表現。

網路上國內外的評測都鮮少提到CFD軟體的測試成績,只有少數評測網站會測試開源的CFD軟體OpenFOAM,但測出來的結果卻差異甚大。

  • Phoronix的測試中7950x3d卻反將一軍


目前工作上使用的軟體是ANSYS Fluent,因此本文將會以這個軟體做為測試主軸。但合法的ANSYS軟體一套要價數百萬,只好跟公司借用借用,嘿嘿。
利用了下班時間跑了ANSYS FluentBenchmark Case做了一些測試,留個紀錄想要拋磚引玉。

2. 測試環境

A.         軟體版本: ANSYS Fluent 23R2

B.         Benchmark Case: ANSYS Fluent, External Flow Over an Aircraft Wing (aircraft_2m)

C.         網格數量: 2m(200)

D.         網格類型: Hexa(六面體)

E.          紊流模型: realizable k-eps turbulence

F.          求解器類型: Pressure based coupled solver, Green Gauss Node based, steady

G.         電腦配備:
CPU: Intel i7 13700 nonK
Cooler: Thermalright BA120
MB: ASUS B760-A WiFi D4
RAM: Kingston Fury DDR4-3200 32GBx2 @3466
SSD: ADATA S70 pro 2TB
Case: CM TD500 MESH V2

H.         環境溫度24C,觀測HWinfo軟體全測試無出現撞溫度牆的狀況。

I.            電源計畫: 高效能

※合法的ANSYS Fluent一次最多只能使用4核心運算,想另外加核心數上去就必須購買HPC(High Performance Computing)
而這個HPC也是動輒百來萬的東西,因此在這邊只使用1個軟體本體+1HPCLicense,總共12核心下去做運算,我想在有限的核心數量下找出最佳的組合也比較符合預算有限的且只能使用合法軟體的單位。

3. 測試結果

必須要先做說明,我有找到原廠的電腦設定建議,裏頭是建議關掉超執行緒(Hyper-Thread, HT),因此剛開始測試都是關閉HT的狀況,後來才想說要把HT打開測試看看。

以下是測試結果,橘框是P core:

A.         6P6E (no HT)
Simulation wall-clock time for 1800 iterations           4085 sec
6P6E
是將HT關掉後,在Windows 11下的自動核心調度結果
進工作管理員看是有指定CPU親和性在每個運作的核心上的



B.         8P4E (no HT)
Simulation wall-clock time for 1800 iterations           3920 sec
8P4E
是我在工作管理員中手動將CPU親和性調度到8P核上的結果


 

C.         全預設 (自由調度)
Simulation wall-clock time for 1800 iterations           3630 sec
全預設狀況下把HT重新打開,這時進工作管理員查看會發現CPU親和性沒有被指定
但從工作管理員上可以推斷出應該是跑在12P核的執行緒上

D.         8P0E (no HT)
SSimulation wall-clock time for 1800 iterations           3683 sec
把小核跟HT都關了,軟體設定8核心運算,只用8C8T下去跑,這個就沒有特別截圖了

E.          8P0E(有開HT,用12個執行緒在跑)
Simulation wall-clock time for 1800 iterations           3578 sec
關小核但開HT,看工作管理員,也有指定CPU親和性在前12個執行緒上

4. 總結

基本上可以將結果分為兩群:

i.                E核參加運算(AB)

ii.                E核參加運算(CDE)


其中i群內8P4E相較於6P6E快了4.2%,好像有些差別
ii
群內8P0EHT比預設慢了1.4%8P0EHT比預設快了1.5%,這應該可以被認為是誤差

i
群平均(4002.5s)相較於ii群平均(3630.3s)慢了10.3%
甚至可以從BD的比較中發現8P4E8P0E還慢!!

我認為這可以歸因於CFD的特性,CFD是一種吃重記憶體頻寬的應用。
在消費級平台上只有雙通道的記憶體頻寬被P核和E核共享,結果就是沒有讓速度較快的P核發揮全部的算力,進而導致整體計算時間拉長。
因為還沒測試過AMD平台,所以不能說全大核的AMD平台就比較好。但可以得到的結論是:算CFD完全沒有買13900/K的必要,因為P核數量並沒有增加。

以上結果供各位參考,如有關於購買CFD模擬用硬體設備也歡迎留下建議。




張貼留言

0 留言