2025年10月9日 | 晶圓製造/代工, AI人工智慧

ASIC 將超車 GPU?NVIDIA 從 Scale-Up 霸主到全面戰爭

ASIC 成長率 2026 年將超車 GPU,NVIDIA 面臨前所未有的競爭壓力。戰局已從晶片性能轉向互連網路、核心交換器、軟體與生態系的全面之爭!

2026 年的 AI 加速器市場,正處於一個關鍵的轉捩點。根據 TrendForce 的數據顯示,以 AI 伺服器總量的成長率來看,雲端服務商(CSP)自研的 ASIC 類別 2026 年成長率會來到 44.6%,大幅超越 GPU 的 16.1%

圖 1

AI 伺服器的成長趨勢:GPU vs ASIC。ASIC 伺服器成長率將於 2026 年超越 GPU 陣營

不過,這並不代表 NVIDIA 的主導地位會立即瓦解。相反地,這場戰役正在從單純的 GPU 性能競賽,轉變為一場更複雜、涉及互連網路與軟體生態的全方位戰爭。過去幾年 NVIDIA 「一路向上」的黃金時代,正迎來一個由多方勢力共同推動的平台期。

面對 ASIC 陣營以成本和效率發起的強勁挑戰,NVIDIA 的應對策略不再只是一味地提升單一晶片性能。他們近期動作頻頻,從技術路徑圖到產品架構,無不顯示出其深思熟慮的戰略轉變:

  • NVIDIA 推出 NVLink Fusion:宣布開放 NVLink 技術,允許客戶在自己的 ASIC 中使用,此舉不僅是技術的展示,更是意在打破自身生態系的封閉性,將其護城河從單純的硬體擴展至高速互連的軟體層面。
  • NVIDIA 推出 Rubin CPX/VR200 NVL144 CPX:專門針對大型語言模型(LLM)的 Inference(推論)應用,導入了全新的機架概念,並在 Rubin CPX 晶片間採用了 PCIe 6 互連。這項轉變尤其值得關注,它預示著 Inference 的 Prefill 和 Decode 階段將走向分離式架構,NVIDIA 藉此切入過去被視為較低階、但潛力巨大的 Inference 市場。
  • NVIDIA 與 Intel 合作:將 NVLink 的使用場景拓展至 x86 CPU,擴大其在伺服器互連領域的影響力。
NVIDIA 的營運策略與市場應對

NVIDIA 的營運策略與市場應對

NVIDIA FY2Q26 資料中心營收占近 88%,GB Rack 預計將在 2H25 因 Oracle 需求顯著起量,但 H20 受中國政策影響,前景仍具不確定性。 了解趨勢 / Get Trend Intelligence

AI 資料中心的互連(Interconnects)之戰

事實上,多個運算節點之間的整合已躍升為 AI 運算的關鍵驅動力,無論是目前為 AI 王者的 NVIDIA 還是 Broadcom 為首的 ASIC 陣營都認知到,資料中心互連網路是大規模 AI 擴展、跨節點協作與超級運算力的關鍵技術,已從配角躍升為決定勝負的核心,這也是為什麼兩大陣營在資料中心互連技術頻頻出招。

AI 基礎建設中的互連網路,根據傳輸頻寬、延遲、節點數和傳輸距離等技術要求,可分為三個層級:

  • Scale-Up 定義為垂直擴展單一系統(如單一 Rack 或單一 SuperPOD)
  • Scale-Out 定義為水平擴展多個系統(如約 4–16 個 SuperPOD 組成一個 Cluster)
  • Scale-Across 定義為跨資料中心擴展

圖 2

AI 資料中心的互連網路層級

表 1. 資料中心的 Scale-Up、Scale-Out、Scale-Across 比較

層級 Scale-Up Scale-Out Scale-Across
定義 垂直擴展單一系統 (Rack / SuperPOD) 水平擴展多個系統 (Cluster) 跨資料中心擴展
現有協定 NVLink、UALink、SUE、UB InfiniBand、Ethernet、UE Ethernet
XPU 頻寬 ~ 8 Tbps 400 / 800 Gbps ~ 100 Gbps (E)
延遲要求 <1 μs <10 ms <20 ms (E)
節點數 <10k 10-100k 1-10M
傳輸距離 <500 m 500 m - 10 km <40 km
拓樸 Clos、3D Torus、Dragonfly+ Clos、Dragonfly+ Clos、Dragonfly+
硬體技術 Rack(機櫃)內現以銅線為主,逐步轉向光纖 光纖 光纖

註: (E) 表示「估計」。
(來源:TrendForce)

網路拓樸與其結構改變對 Switch IC 需求量的影響

在網路架構中,運算節點間所連結的形狀即為拓樸(Topology),大致可分為階層式拓樸(Hierarchical Topology)、直連式拓樸(Direct-connect Topology)、混合式拓樸(Hybrid Topology)。而常見的網路拓樸包括 Clos、Torus、Fully Mesh,以及結合 Clos 和 Dragonfly 的 Dragonfly+。

表 2. 主要網路拓樸類別

連接類型 Hierarchical Direct-Connect Hybrid
定義 採用多層結構 節點之間直接互連 結合階層式與直連式
範例 Clos Torus、Full-Mesh、Dragonfly Dragonfly+
圖例 Clos Topology 3D Torus Topology Dragonfly+ Topology

(來源:TrendForce)

網路拓樸的優劣可由六大指標評估:

  1. 性能(Performance)
  2. 彈性(Flexibility)
  3. 可模組性(Modularity)
  4. 可分割性(Divisibility)
  5. 成本效益(Cost-effectiveness)
  6. 對稱性(Symmetry)

屬於階層式拓樸的 Clos(圖 3)技術最為成熟,在六大指標皆表現良好。該技術早在五十年前即運用於無阻塞電話網路,如今 2-Tier Clos(Leaf-Spine)架構也廣泛應用於資料中心,支援多種協定與晶片,如 Nvidia SuperPOD 之間的互連。但其缺點為可擴展性不如直連式拓樸。

圖 3

Clos Topology

直連式拓樸方面,Torus(圖 4)具備優異的對稱性、可模組性、成本效益與彈性,因不需使用 switch,整體成本僅為 Clos 的 20% 以下。Google 目前的 ICI(Inter-Chip Interconnect)網路即採用 3D Torus 架構。然而,Torus 具有分割困難的問題,若擴大整體規模,使用拓樸中的一部分時效能將大幅下滑。例如,若單一 GPU 總頻寬 7,200 Gbps 直接與另外 7 顆 GPU 互連,單一連結頻寬將被拆分為 1,028 Gbps。

圖 4

Torus Topology

Full-Mesh(圖 5)使網路直徑隨規模擴大仍能保持恆定,讓其效能優於 Torus,然而仍具有分割困難、缺乏彈性等問題。實際應用如 Tesla 的 TTP(Tesla Transport Protocol)採用的 2D Full-Mesh

圖 5

Full-Mesh Topology

Dragonfly(圖 6)則是使多個 Switch 直接互連提升可擴展性,使擴展的成本效益優於 Clos,然而缺點為在局部性能不如 Clos。

圖 6

Dragonfly Topology

結合階層式拓樸、直連式拓樸優點的混合式拓樸應運而生,Nvidia 所使用的 Dragonfly+(圖 7)即為 Dragonfly、Clos 的混合體。在 Switch 組內採用 2-Tier Clos 以提升組內通訊效能,每對 GPU-GPU 間的互連頻寬不受 GPU 數量影響;在組間則採用 Dragonfly 的 1D Full-Mesh 網狀結構以提升擴展性。

圖 7

Dragonfly+ Topology

CSP 網路架構正走向混合式拓樸?

過去 CSP 所使用的 Scale-Up 網路多使用不需要 Switch 的 Torus、Mesh 拓樸,但隨著 SuperPOD 所連結的 XPU 數量規模愈來愈大,為了兼具效能、可擴展性、成本效益等優勢,預計未來 CSP 也將逐漸使用結合 Switch 的混合式拓樸,進而提升 Switch IC 的需求

如 AWS 原先在 Trainium 2 使用的 Neuronlink 3 是使用 3D Torus,但在預計 4Q25 推出的 Trainium 2.5 Teton PDS 中,將改為需要 Switch IC 的混合式拓樸,採用 Astera Labs 基於 Scorpio-X 的客製化 Switch IC。

圖 8

各大廠商SuperPOD中Switch IC/XPU比例估計

Scale-Up 競爭格局:NVIDIA 的護城河與挑戰者

NVIDIA 憑藉其 NVLink 技術,在 Scale-Up 市場建立了難以撼動的領先地位。其技術路徑圖清晰可見:從 2014 年的 NVLink 1.0 到 2024 年的 NVLink 5.0,單一 GPU 的雙向總頻寬從 160 Gbps 躍升至 1,800 Gbps。

NVIDIA 的 NVSwitch 技術也隨之進化,從最初實現 16 顆 GPU 的全互連,到 NVL576 機櫃實現 576 顆 GPU 的高速連接,其在技術規格上領先對手約一年。

值得注意的是,NVIDIA 的戰略正在從單純的技術規格領先,轉向更全面的生態系防禦

  • 技術規格的穩步推進:從 2014 年的 NVLink 1.0 開始,NVIDIA 幾乎每兩年發布一次新版本,持續提升單一 GPU 的頻寬和節點數。
  • 調變技術的革新:從最初的 NRZ 轉向 PAM4,實現傳輸速率翻倍,這顯示其在底層物理技術上亦持續投入。
  • 產品架構的多元化:除了傳統的 DGX 系列,NVIDIA 透過 GB200 NVL72、VR200 NVL144 CPX 等產品,提供更多元、更具針對性的機櫃解決方案。

表 3. NVLink 技術演進

發布時間 2014 2017 2018 2020 2022 2024 2025 2026 2027
GPU 類型 P100 V100 A100 GH100 GH100 GB200 GB300 VR200 VR300
DGX 型號 DGX-1 DGX-1 DGX-2 DGX A100
DGX H100
NVL32
NVL72 NVL144 NVL144 NVL576
NVLink 1.0 2.0 3.0 4.0 5.0 6.0 7.0
GPU per DGX 8 8 16 8
8
32
72 72 144
NVSwitch N/A 1.0 2.0 3.0 4.0 5.0 6.0
Lane per Port 8 4 2 2 4 (E) 4 (E)
BW/Lane 20 Gbps 25 Gbps 50 Gbps 100 Gbps 200 Gbps 200 Gbps (E) 400 Gbps (E)
Modulation NRZ NRZ NRZ PAM4 PAM4 PAM4/PAM6 (E)
Structure Cube Mesh All-to-All

註: (E) 表示「估計」。
(來源:TrendForce)

然而,這條護城河並非無懈可擊。各大 CSP 和晶片供應商正積極開發各自的 Scale-Up 技術,試圖降低對 NVIDIA 的依賴。AMD 的 UALink、Broadcom 的 SUE、AWS 和 Google 的自研技術,都旨在提供更開放或封閉的替代方案。

NVIDIA NVLink Fusion 打破封閉,創造新生態

NVIDIA 的 NVLink Fusion 策略,是其對抗 ASIC 陣營的關鍵一步。透過將 NVLink 介面開放為 I/O IP,NVIDIA 允許客戶將其整合至自己的 ASIC 或 CPU 中。這不僅使得客戶能夠享受到 NVLink 的高速傳輸,更重要的是,他們同時也將被鎖定在 NVIDIA 廣泛的軟體工具鏈中。

這是一個巧妙的「以退為進」策略,NVIDIA 讓出硬體層的部分市場,換取在軟體和生態系層面更深層次的控制權Fujitsu 和 Qualcomm 已率先將其導入自家 CPU 設計中,這也證明了這一策略的有效性。

中國戰場:本土 Scale-Up 巨頭的崛起

在 AI 算力競賽中,中國市場已形成一套獨立於 NVIDIA 生態之外的競爭格局。 除了 CSP 自研 ASIC 的通用趨勢外,本土的技術巨頭,尤其是華為,正在 Scale-Up 領域建立起自己的生態系統,對 NVIDIA 的市場主導地位構成直接挑戰。

目前,中國主要的自研 Scale-Up 技術標準包括:

  • 華為的靈衢(Unified Bus, UB): 領先的封閉式解決方案,正在轉向開放。
  • 阿里巴巴主導的 ALS(Alink System): 一個由阿里的雲端部門與 AMD 共同推動的開放聯盟。
  • 騰訊主導的 ETH-X: 一個專注於優化乙太網(Ethernet)效能的開放標準。
2025 全球及中國 AI 資料中心佈局與展望

2025 全球及中國 AI 資料中心佈局與展望

美系業者持續全球部署,並加大對美投資;中國業者除了維持在地化,也透過自研晶片外擴全球,雙方的未來都將能源穩定性擺在首要位置。 了解趨勢

華為 UB 的技術力與市場野心

華為的 UB 協議是中國市場中技術最成熟、部署規模最大的 Scale-Up 解決方案。2025 年,華為基於 UB 1.0 發布了 Atlas 900 A3 SuperPOD,其核心亮點在於規模與互連效率。

這套系統實現了 384 顆昇騰 910C NPU 的高速互連,單通道頻寬高達 400 Gbps。值得注意的是,其 CloudMatrix384 架構採用了 2D-Full Mesh 混合式設計,這意味著它在單一板卡層級和單一機架層級都實現了高密度的互連,而非單純的線路堆疊。

圖 9

CloudMatrix384 Level 2互連架構

更具戰略意義的是,華為預計在 2026 年推出的 Atlas 950 SuperPOD,將採用下一代 UB 2.0 協議,目標是實現 8,192 顆 NPU 的龐大規模互連。

這一數字不僅遠超當前市場主流部署,更透露出華為在超大規模模型訓練市場的勃勃野心。

同時,華為宣佈 UB 2.0 將對外開放,這一舉動與 NVIDIA 的 NVLink Fusion 策略異曲同工,旨在將其技術標準化,並藉此擴大其生態影響力,跨入其他 XPU 的市場。

中國開放標準推動 Scale-Up 市場發展

除了華為的封閉轉開放策略,中國市場也積極發展多個開放標準,以降低對單一供應商的依賴。

  • ALS:由阿里巴巴和 AMD 主導,聯盟成員涵蓋 Broadcom 和 Intel 等十多家公司。這套標準與 AMD 的 UALink 協定有異曲同工之妙,旨在透過開放的聯盟模式,推動 Scale-Up 領域的多元化競爭。
  • ETH-X:由騰訊主導,聯盟成員多達三十多家。該標準專注於改良 Ethernet 架構,並結合 RoCE 技術來提升頻寬。與 ALS 不同,ETH-X 的技術核心在於透過調整傳輸編碼方式來提升傳輸效率,這在提供高頻寬的同時,也可能導致更高的運算複雜度和延遲。這與 Broadcom 主導的 SUE(Scale-Up Ethernet)協定有相似之處。

表 4. NVLink 與中國 Scale-Up 技術比較

技術 NVLink 5.0 UB 1.0 ALS ETH-X
推出時間 2024 2Q25 4Q24 4Q25
主導者 NVIDIA 華為 阿里巴巴 騰訊
拓樸 Clos Clos Clos Clos
雙向頻寬 / port 800 Gbps 800 Gbps 800 Gbps (UALink) 800 Gbps
節點數 576 384 1,024 (UALink) 64
延遲 <1 μs <2 μs <1 μs <1 μs
生態系 封閉(NVLink Fusion 推出前) 封閉(UB 2.0轉為開放) 開放 開放

(來源:TrendForce)

從性能之爭到生態系之戰,AI 晶片戰的終極戰場

綜觀這場圍繞 AI 加速器的戰役,我們看到一個清晰的趨勢:單純的硬體性能競賽,已不再是唯一的決勝點。

從 NVIDIA 近期推出 NVLink Fusion 讓客戶在其自有 ASIC 中使用 NVLink,到中國華為宣布將其 UB 2.0 協議對外開放,這些舉動都證明,AI 晶片巨頭們正將戰場從硬體規格的軍備競賽,轉向更深層次的生態系與軟體護城河之戰

NVIDIA 深知,雖然其 GPU 仍主導著高端訓練市場,但若要維持其 AI 王座的地位,必須透過其無可匹敵的 CUDA 生態系,將客戶更深地鎖定在其技術架構中。這種「以退為進」的策略,是讓出部分硬體控制權,換取在軟體和工具鏈層面更廣泛的影響力。

與此同時,以 Broadcom 為首的 ASIC 陣營,也正透過推動開放標準,為 CSPs 提供擺脫單一供應商限制的替代方案。華為、阿里巴巴等中國巨頭,則積極在國內市場建立獨立的生態系,試圖複製 NVIDIA 的成功模式。

未來的市場主導者,將是那些能夠提供最完善、最易用的軟硬體整合方案的玩家。這場戰役將不再由單一晶片的性能來定義,而是由生態系的廣度、深度和黏著度來決定。

關於作者

本文由 TrendForce 研究團隊提供分析資料與專業觀點,經資深編輯撰寫。

聯絡我們

聯絡我們