&

來源：內容由半導體行業(yè)觀察（icbank）編譯自「nextplatform」，作者：Timothy Prickett Morgan，謝謝。

我們現(xiàn)在進入了一個時代，那就是IT行業(yè)的計算引擎將需要比以往任何時候都更需要更低的價格，更好的性能以及更好的散熱特性。這將需要一種在更大范圍的工作負載和設備上進行協(xié)同設計系統(tǒng)（co-designing systems ）的進化方法。

讓我們從顯而易見的地方開始。越來越清楚的是，盡管世界上所有軟件工程師都可能使您相信，但通用計算的美好時代是一個簡單的X86指令集和操作系統(tǒng)內核是他們唯一需要的畫布。繪制他們的代碼。

X86計算生態(tài)系統(tǒng)的興起使我們在分布式計算和各種運行時中實現(xiàn)了出色的寒武紀爆炸式增長，以執(zhí)行可跨X86變體以及Arm和Power等其他體系結構移植的高級代碼。數(shù)據(jù)存儲、數(shù)據(jù)庫，應用程序框架，虛擬機和運行時的數(shù)量驚人，多樣化且美觀。如果確實發(fā)生了寒武紀大爆炸，那就是分布式計算模型和計算硬件的多樣性（過去十年中一直在增長）確實是通用X86引擎的功能，后者可以完成所有工作，或者有時很多，雖然他們不是支持各種工作負載的最佳方法。

當工作負載，框架和硬件都對齊時，這是一件很美的事情。2012年就是這種情況，大約在HPC開始過渡到將代碼的并行組件卸載到GPU加速器的五年之后，機器學習算法最終找到了足夠的數(shù)據(jù)并具有足夠的并行處理能力以采用數(shù)學上早在1980年代就聽起來不錯的算法，并將它們用于圖像識別，語音識別，語音到文本翻譯，視頻識別和其他工作負載的測試。而且，lo和hehold，他們工作了。

現(xiàn)在AI的機器學習版本已經徹底改變了我們思考軟件編寫以及管理業(yè)務和個人生活許多方面的方式。HPC和AI統(tǒng)一對供應商和用戶而言都非常方便，因為可以執(zhí)行一組工作負載的相同系統(tǒng)也可以完成另一組工作，在某些情況下，它們可以串行或并行地交織以創(chuàng)建AI增強的HPC。但是，正如我們之前指出的那樣，HPC和AI之間這種諧波收斂（harmonic convergence）的便利并不一定要保持，而只有在軟件和經濟朝著相同的方向推動時才如此。

在2020年的這一點上，很難說它是否會成立，但是很明顯的是，橡樹嶺國家實驗室的1.5 exaflops的“Frontier” 系統(tǒng)將于2021年到期，勞倫斯·利弗莫爾國家實驗室的2 exaflops的“ El Capitan”系統(tǒng)定于2022年問世。相關資料顯示，這個系統(tǒng)混合了CPU-GPU，兩者之間具有緊密耦合的計算和一致的內存。他們指出，將AMD Epyc CPU和Radeon Instinct GPU加速器混合使用是正確的選擇，這對新貴X86和GPU芯片制造商來說是福音。話雖如此，勞倫斯·利弗莫爾（Lawrence Livermore）絕對清楚，El Capitan主要是一臺HPC機器，具有一些相對較小的AI職責。

現(xiàn)代的單片CPU或使用單個插槽中的小芯片（chiplets）之間的互連創(chuàng)建虛擬CPU的插槽，確實是一個奇跡。當我們看這些芯片中的一種時，我們正在看的是僅僅幾十年前的超級計算機，它們將需要如此多的單個芯片來構建，以至于讓人難以置信。讓我們花點時間看一下這些藝術品，從英特爾的28核“ Skylake” Xeon SP 裸片開始：

甚至西摩·克雷（Seymour Cray）都會拿出放大鏡，花幾個小時觀察這種美麗?？死祝–ray）將花費我們預期的等量時間，研究IBM的24核“ Nimbus” Power9處理器：

我們還沒有Ampere的“ Quicksilver” Altra或Marvell的“ Triton” ThunderX3 這些Arm服務器CPU的裸片圖，但是就組件數(shù)量而言，毫無疑問，它們將同樣復雜。我們也沒有構成AMD“羅馬” Epyc 7002系列的九中芯片的集合，但是我們稍后將在此查看一些Rome原理圖。

如果您細心看，你會發(fā)現(xiàn)現(xiàn)代服務器CPU就像二十年前的大型iron NUMA的外觀，只是所有組件都縮減為一個裸片，他不僅包含CPU（今天稱為內核），還包括L3緩存，PCI- Express和以太網(wǎng)控制器以及用于加密、數(shù)據(jù)壓縮、內存壓縮、矢量數(shù)學和十進制數(shù)學的各種加速器（IBM Power和System z都有）。如果您已經像我們一樣從事了很長時間的行業(yè)，那么從大型NUMA服務器縮減到單個插槽的縮影確實是一個了不起的旅程。

AMD Rome會是你的目標嗎？

有幾件事很清楚。一方面，AMD在Rome方面的成功提供了一種設計良好的小芯片體系結構，即使從單片芯片遷移到小芯片設計時，即使對延遲產生影響，也可以提供性能和性價比方面的優(yōu)勢。在羅馬走一走，看看：

Rome使用的Zen2內核的所有功能都優(yōu)于Naples首次推出的Zen1內核，并且通過創(chuàng)建圍繞單個I / O和內存控制器中樞的專用內核模塊，大大改善了小芯片的互連體系結構。AMD這樣做的所有意圖和目的都是在單個14納米管芯上混合了I / O和存儲器控制器的NUMA控制器，該管芯由Globalfoundries制造，具有83.4億個晶體管。

據(jù)了解，核心小芯片在單個裸片上具有兩個四核核心復合體，其中八個裸片（骰子？）構成了總共64個核心，這些I / O核心都包裹在其中。每個核心小芯片都有39億個晶體管，這些晶體管是由臺積電在其7納米工藝中蝕刻的，總共有322億個晶體管用于計算。

全部加進去 Rome Epyc 7002小芯片工廠總共擁有395.4億個晶體管，這肯定會超出任何代工廠的標線限制，而且要獲得如此大芯片的良率也將變得更加瘋狂。封裝小芯片的麻煩，成本和風險不如制造標線片破壞單片服務器芯片的麻煩成本和風險大，至少對于擁有附屬PC芯片業(yè)務的AMD而言，無論如何它都需要制造更小的芯片。

所有服務器CPU制造商遲早都將使用小芯片，但我們希望更加激進。我們希望將CPU分解為核心串行，整數(shù)處理要點，并撕裂所有已放置在芯片上的矢量引擎和加速器（這些整數(shù)引擎現(xiàn)在或在其旁邊或在環(huán)形或網(wǎng)狀互連中）。它們位于其他芯片中，它們屬于一個世界，該世界將具有一致的系統(tǒng)間（CXL）和系統(tǒng)內（Gen-Z）一致協(xié)議集，以將計算元素捆綁在一起，以便它們可以以非對稱方式共享內存或存儲或symmetric fashion。

如果GPU加速器可以在64位或32位浮點處理上提供最佳的每瓦性能和每美元性能，那就可以了。將向量單元從CPU中取出，然后有兩種選擇：使芯片更小，更便宜，添加更多內核或提高時鐘頻率以創(chuàng)建性能更高或成本更低的串行整數(shù)計算引擎。

如果客戶需要混合精度或更高精度的數(shù)據(jù)流引擎以及僅少量串行數(shù)據(jù)，主機計算，則可以將精簡的CPU與FPGA緊密連接。并且假設至少要進行一些服務器虛擬化，尤其是在云和企業(yè)中，則應盡可能從服務器CPU上卸載這項工作。這意味著我們絕對假設每臺服務器中都將有一個SmartNIC，可以像基板管理控制器（尚未發(fā)生的融合），服務器虛擬化或容器平臺主機，以及可以運行虛擬網(wǎng)絡和虛擬存儲的地方一樣工作,就像Amazon Web Services和Microsoft Azure一樣。加密，解密，數(shù)據(jù)壓縮和其他功能也可以從主機CPU中提取出來，并放入SmartNIC中，它們可以歸為SmartNIC，并且可以用更少的錢完成。

最終，我們要優(yōu)化專用芯片上的所有芯片性能，使其具有各種尺寸和容量，并具有互連功能，從而允許系統(tǒng)設計師以比超規(guī)?；吆驮茦嫿ㄕ咚鶕碛械囊蕴W(wǎng)更細粒度，更低的層次來混合它們。

試圖做到這一點。這可能意味著socket的協(xié)議標準化,這可能將引致一些芯片制造商的抵制。但是有了這樣的標準，系統(tǒng)架構師和芯片（實際上是socket）制造商可以擁有更廣泛的計算選項板，用它們來繪制他們的許多工作負載，無論是在socket還是跨系統(tǒng)，或是它們的某種混合。

誠然，仍然會有那些想要通用服務器CPU的人，瑞士軍刀可以完成所有工作。但是，我們談論的是擁有一把劍，一把非常好的剪刀和一把無用的手鋸，而是一系列微型版本的集合，這些版本最終并沒有看上去有用。

*點擊文末閱讀原文，可閱讀英文原文。

*免責聲明：本文由作者原創(chuàng)。文章內容系作者個人觀點，半導體行業(yè)觀察轉載僅為了傳達一種不同的觀點，不代表半導體行業(yè)觀察對該觀點贊同或支持，如果有任何異議，歡迎聯(lián)系半導體行業(yè)觀察。

今天是《半導體行業(yè)觀察》為您分享的第2265期內容，歡迎關注。

★為什么我看中的人都想去華為海思？

★中國存儲產業(yè)的另一面

★手機芯片往事

存儲｜傳感器｜IGBT｜ARM｜FPGA｜中興｜蘋果｜半導體股價｜IP

亚洲农村老熟妇肥BBBB_无码人妻精品一区二区蜜桃色_精品亚洲AⅤ无码午夜在线观看_中文字幕熟妇人妻在线视频_囯产色无码精品视频免费

CPU將進入新時代：押注計算芯片的極限協(xié)同設計