什麼是 AI 基礎建設?
AI 基礎建設(AI Infrastructure),也稱作 AI 堆疊(AI Stack),是一套支援人工智慧(AI)與機器學習(ML)應用的開發、訓練與部署所設計的整合性軟硬體資源。
它專為處理 AI 專案所需的大量運算與數據處理而設計,應具備高效能、彈性與可擴展性,幫助企業更快推動 AI 解決方案落地,提升營運效率與市場競爭力。
AI 基礎建設 vs. IT 基礎設施
雖然 AI 基礎建設與傳統 IT 基礎設施都涵蓋運算、儲存與網路資源,但兩者的設計思維與應用目標上截然不同。
傳統 IT 基礎設施是企業日常營運的骨幹,支援 ERP、資料庫與辦公作業等通用運算需求;而 AI 基礎建設,則是為因應深度學習、生成式 AI 等新型工作負載與專屬技術堆疊而打造的全新架構,不僅對硬體需求更高,整體架構設計與支援軟體生態也完全不同。
AI 基礎建設並非現有 IT 系統的升級,而是涵蓋技術架構、組織運作與資源配置的全面調整。
每一場工業革命,都是從基礎建設開始。人工智慧正是這個時代的關鍵基礎建設,就像過去的電力與網際網路一樣。
— 黃仁勳,NVIDIA 創辦人暨執行長,NVIDIA Newsroom, June 11, 2025
雲端巨頭對 AI 基礎建設的投資布局
AI 浪潮席捲全球,有助於加快 AI 基礎建設的布建。Microsoft、Alphabet(Google)、Meta 與 Amazon —北美四大雲端服務供應商(CSP),近年皆大力發展雲端運算業務。
回顧 2024 年第四季,北美四大 CSP 雲端運算業務雖維持正成長,但增速普遍放緩,且未達市場預期。在 2025 年初,又遇上以 DeepSeek 為首的低成本 AI 模型來挑戰,然而四大 CSP 業者並未怯戰,今年持續提高相關資本支出。
四大 CSP 加碼資本支出,搶占 AI 堆疊主導權
生成式 AI 熱潮持續推動相關業務動能,即便面臨短期營收壓力與低成本 AI 崛起, 各大 CSP 仍積極加碼資本支出,強化雲端與合作生態,凸顯其對 AI 基礎建設長期潛力的高度信心。
- Microsoft(微軟) 預計 2025 財年上的資本支出達 800 億美元,聚焦於擴建 AI 資料中心、晶片、模型,並強化與 OpenAI 的合作。但該公司也表示可能放緩、調整部分領域的規劃。
- Alphabet 將資本支出從 2024年 525 億美元增至今年的 750 億美元,加速資料中心投資與自研 AI 晶片 TPU 等,顯見其將持續堆疊基礎硬體。這波投入將推動其雲端平台(Google Cloud)、AI 開發平台(Vertex AI)、AI 模型(Gemini)以及自駕車 Waymo 等產品的發展。
- Meta 預計今年有 600 至 650 億美元的資本支出,著重於興建超大型 AI 資料園區與強化模型訓練平台。同時積極發展合作生態,期望以 AI 基礎建設奠基未來優勢。四月推出 Llama 4 系列模型具高度部署彈性,助企業更易導入自有或混合式 AI 應用。
- Amazon 預期將資本支出從 2024年 750 億美元提高至今年的 1,000 億美元,持續建設 AI 資料中心與 AWS 的基礎建設與服務,也正強化 Trainium 晶片 、Nova 模型等研發,積極搶佔 AI 運算資源市場。
AI 基礎建設已是科技巨頭資源競逐核心,從硬體研發到模型服務的堆疊,各大 CSP 都在全力爭奪下一輪市場主導權,將持續重塑全球雲端與 AI 生態系。
成功驅動 AI 基礎建設的三大關鍵策略
在探討 AI 基礎建設策略之前,先掌握其六大核心組成:算力、資料、平台、網路、生態與治理。這些構成完整的架構堆疊,並互相協作,是企業推動 AI 應用的基本:
- 算力(Compute):AI 的大腦
足夠的算力決定 AI 模型訓練的速度、規模,以及應用的即時反應力。主要由裝有 GPU(圖形處理器)與 TPU(張量處理器)等 AI 加速器的伺服器組成,是機器學習運作的核心引擎。 - 數據(Data):AI 的血液與養分
數據決定了 AI 模型的表現與所能創造的商業價值。AI 基礎建設需支援從訓練到應用階段的海量數據處理,讓數據能被有效收集、高速儲存(如數據湖)、清洗與安全管理,讓模型能從優質數據中學習。 - 平台(Platform):AI 的骨骼與器官
平台作為連接算力與數據的橋樑,提供開發與部署 AI 所需的整合環境。具備強大與易管理的平台可大幅降低技術門檻,加速從實驗到應用的落地進程,並提升資源配置效率。 - 網路(Networking):AI 的神經系統
網路連結數據、算力與平台,確保數據能高速流動、AI 系統即時反應。沒有穩定、高速的網路,模型無法順利運作,將造成效能瓶頸、延遲增加,甚至影響用戶體驗。 - 生態(Ecosystem):AI 的朋友圈
AI 生態系包含內外部的技術夥伴與工具平台,能為企業提供支援、加速導入、降低風險。與合適的合作夥伴協作,企業不必自建所有環節,能專注打造差異化價值。 - 治理(Governance):AI 的管家
治理是保障 AI 系統安全、合規與永續運行的關鍵機制。涵蓋資料與模型的政策管理、安全規範與倫理風險控管,能降低法律與聲譽風險,確保企業長期信任與發展。
企業擁有強大的 AI 基礎建設,不僅代表技術領先,更是推動商業價值與提升競爭力。接著來探討企業推動 AI 基礎建設成功的三大關鍵策略。
1. 目標驅動(Why):以業務成果導向 AI 投資
成功的 AI 基礎建設投資,必須以明確且可衡量的商業目標與投報率(ROI)為核心,要聚焦解決關鍵業務問題與創造新商機,例如透過提升客戶體驗來推動營收增長,或加速產品生產速度以有效降低營運成本。所有基礎建設的投入,都應與其能創造的商業價值緊密掛鉤。
以 TrendForce 為例,面對瞬息萬變的科技市場,提升研究時效與擴展分析深度是領先關鍵。為此,TrendForce 建置自有 AI 基礎建設與生成式模型。據其資料中心統計,使用模型的分析師研究效率平均提升約 60%,同時能整合更多元數據,使產業洞察更全面,確保能第一時間提供關鍵產業情報給客戶。
AI 市場最新趨勢
TrendForce 提供全球 AI 基礎建設相關的趨勢分析與情報,從記憶體、晶圓製造到 AI 伺服器,幫助企業掌握核心供應鏈動態,成為行業領先者。 獲取 AI 市場情報
2. 資源配置(How、Where):打造靈活可控的 AI 資源佈局
AI 基礎建設應以「目標驅動」,才能有效訂定技術、人力與財務資源配置策略,並透過生態合作降低建置負擔,確保企業既能快速上線 AI 應用,又能維持持續創新的能力。
技術選擇與部署策略
AI 技術資源配置應緊扣企業的應用目標與實際條件,考量數據敏感性、模型複雜度與未來擴展性,規劃最合適的部署與基礎建設策略。實務上,成功企業多採漸進式路徑,從小規模驗證起步,再視成果逐步擴大投入,降低風險並提高資源效益。
下表整理三種常見部署模式,是關於 AI 基礎建設「在哪裡」和「如何」佈局的大方向,協助企業根據成本、資安與彈性需求進行判斷:
部署模式 | 說明 | 投資門檻與控制權 | 適用情境 |
---|---|---|---|
雲端優先型(Cloud-First) | 依賴雲端服務與現成模型,部署快速,彈性高 | 低 | 資源有限、需快速試水溫或原型驗證 |
混合部署型(Hybrid Model) | 結合雲端與本地資源,兼顧彈性與部分控制權 | 中 | 有數據敏感性、需控成本與效能 |
自建優化型(On-Premise Optimized) | 自建基礎設施,追求最大控制與效能 | 高 | 資安要求高、AI 深度整合業務 |
部署模式確立後,企業應同步強化技術底座,包括算力、數據、平台與網路核心支柱。唯有整體平衡,才能確保 AI 系統具備可擴展性與穩定性,真正支撐成果產出與規模應用。
同時,建立合作生態系是加速技術落地的方法。與雲端平台、AI 晶片供應商 、開源社群及專業技術夥伴合作,可有效縮短導入時程、降低建置風險。
組織協作與人才戰略
AI 專案往往橫跨多部門與多職能,企業需建立扁平化的溝通機制,促進技術團隊(如 AI 工程師、基礎設施團隊)與業務部門能密切合作,共同釐清需求、定義問題,並持續迭代解決方案。
同時,組織應同步調整專案分工與責任歸屬,建立以「業務驅動、技術支援」為核心的協作模式,確保各角色具備明確目標與交付責任,避免技術與業務脫節。
此外,企業也應投入教育訓練資源,鼓勵員工持續掌握 AI 技術趨勢,培養具備實戰力的內部 AI 團隊,提升應用落地與持續演進能力。
全生命週期財務管理
在規劃 AI 基礎建設時,企業必須跳脫初期的硬體採購或雲端訂閱費,而是從全生命週期角度,系統性評估總體支出結構。包括:
- 資本支出:如自建資料中心、AI 加速器等硬體設備的前期投入。
- 營運支出:包含雲端服務費用、電力與網路支出、軟體授權及後續維運。
- 隱性成本:如人才招募與培訓、數據管理的長期投入、系統整合複雜度與潛在風險管理。
對這些成本結構進行全面評估,有助於制定更精準的預算規劃與投資決策。
3. 風險管理(What if):安全、合規與永續治理
具備前瞻性的風險治理能力使 AI 基礎建設可長期運作的關鍵。企業應從以下三大面向同步強化:
- 安全性:確保 AI 數據與模型在整個生命週期中的機密性與完整性,防止未授權存取與惡意攻擊。
- 合規性:依循法規與倫理原則,建立 AI 使用的透明、公平與可追溯制度,避免潛在法律風險。
- 永續性:將碳排放、能源效率與長期維運成本納入考量,確保技術發展與 ESG 目標一致。
低成本模型崛起正在改變 AI 基礎建設佈局
2025 年初,中國的 DeepSeek-R1 與同質型模型崛起,震撼正加速擴建基礎設施的 AI 產業。關於此類 AI 模型訓練成本僅需 30 或 50 美元的傳言甚多,然而相關評估多指在技術成熟與硬體成本下降後,模型的部分或最終訓練成本,並非涵蓋從無到有的基礎架構、數據準備等建置費用。
低成本 AI 模型的目標為以較低資源消耗、開發時間和營運成本設計而成,降低後進者進入門檻。這類模型多以優化架構方式、高效利用數據達到成本效益。DeepSeek 即是在專家模型的設計上,結合共用專家與路由專家的架構,並以無輔助損失的負載平衡為原則,實現更高效分配計算資源,效能也不會因確保負載平衡而下降。
NVIDIA(輝達)於 2025 年 2 月底,開源首個在 Blackwell 架構上優化 DeepSeek-R1 模型,推理速度較 1 月提升 25 倍,單一 Token 成本下降 20 倍,顯示其在 AI 效能與成本控制上再創突破。
儘管市場對 AI 基礎建設的投報率始終存有顧慮,但雲端大廠於今年仍持續加碼相關資本支出,並研發客製化 AI 晶片「ASIC」,想藉由這些技術堆疊,鞏固市場領先地位和國家優勢。因為從長期來看,高精度 AI 產品服務仍是產業必須,效益非低成本模型可及,須加大支持力道。
如何佈局下一波 AI 基礎建設?
今年,市場迎來重要轉變,低成本 AI 模型於原有的資本密集作法上另闢蹊徑,可視為 AI 產業的分水嶺。這股趨勢有望推動 AI 技術的普及化,加速各產業應用落地進程。企業將更重視以軟體演算法等方式優化,來提升現有 AI 基礎建設的效能,並在此基礎下能以較低成本開發 AI 產品;終端用戶需付出的費用也能降低。
由大廠開發的精準、閉源高成本模型,和低成本 AI 模型突破傳統算力限制,以可用、開源的多元低成本模型,未來將讓廠商各取所需。