融資30億后，曦望發(fā)布新一代推理GPU芯片啟望S3

2026-01-28 來源：電子工程專輯

408

隨著大模型進(jìn)入規(guī)模化應(yīng)用階段，AI產(chǎn)業(yè)正從“訓(xùn)練驅(qū)動(dòng)”轉(zhuǎn)向“推理驅(qū)動(dòng)”。相比一次性投入巨大的訓(xùn)練，推理更強(qiáng)調(diào)長期交付能力、單位成本和系統(tǒng)穩(wěn)定性。誰能持續(xù)降低推理成本，誰就掌握了AI產(chǎn)業(yè)的成本曲線。

1月27日，國產(chǎn)GPU廠商曦望（Sunrise）在杭州舉辦了首屆Sunrise GPU Summit，正式發(fā)布了新一代推理GPU芯片——啟望S3。截至2025年，曦望芯片的交付量已突破萬片，標(biāo)志著其"All-in推理"戰(zhàn)略完成從工程驗(yàn)證到規(guī)模化交付的關(guān)鍵跨越。

在發(fā)布會(huì)前不久，曦望宣布完成近30億元的戰(zhàn)略融資，投資方陣容豪華，涵蓋了產(chǎn)業(yè)投資方、知名VC/PE機(jī)構(gòu)以及國資背景資本。具體投資方包括三一集團(tuán)旗下華胥基金、范式智能、杭州數(shù)據(jù)集團(tuán)、正大機(jī)器人、協(xié)鑫科技等產(chǎn)業(yè)投資方，IDG資本、高榕創(chuàng)投、無極資本、中金資本、普華資本、松禾資本、易方達(dá)資本、工銀投資、心資本等知名VC/PE機(jī)構(gòu)，以及誠通混改基金等國資背景資本。這筆資金將主要用于下一代推理GPU的研發(fā)、規(guī)模化量產(chǎn)及生態(tài)共建。

啟望S3發(fā)布，推理算力性能躍升

曦望成立于2020年，前身為商湯科技大芯片部門。團(tuán)隊(duì)規(guī)模約300人，成員主要來自NVIDIA、AMD、昆侖芯、商湯等企業(yè)，核心技術(shù)骨干平均擁有15年行業(yè)經(jīng)驗(yàn)。聯(lián)席CEO王勇為前AMD、昆侖芯核心架構(gòu)師，擁有20年芯片研發(fā)經(jīng)驗(yàn)；另一位聯(lián)席CEO王湛為百度創(chuàng)始團(tuán)隊(duì)成員、原集團(tuán)副總裁，曾帶領(lǐng)8000人團(tuán)隊(duì)負(fù)責(zé)百度搜索業(yè)務(wù)，2025年初加入曦望負(fù)責(zé)產(chǎn)品化和商業(yè)化。

與行業(yè)普遍沿用的"訓(xùn)推一體GPU"路線不同，曦望本次選擇了一條差異化路徑——不追求峰值訓(xùn)練性能，而是聚焦推理效率與單位成本。

啟望S3是曦望面向大模型推理市場推出的定制化GPGPU芯片。據(jù)王勇介紹，該芯片圍繞真實(shí)推理負(fù)載，對(duì)芯片架構(gòu)、存儲(chǔ)體系與互聯(lián)方式進(jìn)行了系統(tǒng)級(jí)設(shè)計(jì)，旨在提供高效、低成本的推理算力解決方案。

在算力與存儲(chǔ)設(shè)計(jì)上，啟望S3支持從FP16到FP4的精度自由切換，能夠在保證模型效果的前提下，顯著提升低精度推理效率。同時(shí)，該芯片率先在國內(nèi)GPGPU產(chǎn)品中采用LPDDR6顯存方案，顯存容量較上一代提升4倍，有效緩解了大模型推理中常見的顯存瓶頸問題。

性能方面，啟望S3在典型推理場景下的整體性價(jià)比較上一代產(chǎn)品提升超過10倍。在DeepSeek V3/R1滿血版等主流大模型推理場景中，單位Token推理成本較上一代降低約90%，實(shí)現(xiàn)了“百萬Token一分錢”的工程能力，為大模型推理的商業(yè)化應(yīng)用提供了強(qiáng)有力的支持。

全棧自研，構(gòu)建推理算力生態(tài)

公開信息顯示，曦望歷經(jīng)數(shù)年研發(fā)投入累計(jì)20億元，已形成三代芯片產(chǎn)品矩陣：

2020年量產(chǎn)的S1芯片，作為國內(nèi)首款視覺推理芯片，適配千余種CV模型，已實(shí)現(xiàn)IP授權(quán)索尼、小米等頭部客戶；
2024年量產(chǎn)的S2芯片，對(duì)標(biāo)主流A/H系列GPU，兼容CUDA生態(tài)，已成功適配DeepSeek、Qwen等主流模型；
2026年推出的S3芯片，定位為"推理性價(jià)比之王"，在單位Token成本、能耗上實(shí)現(xiàn)數(shù)量級(jí)降低。

曦望不僅在芯片硬件上進(jìn)行了深度優(yōu)化，還在軟件層面構(gòu)建了與CUDA兼容的基礎(chǔ)軟件體系，覆蓋驅(qū)動(dòng)、運(yùn)行時(shí)API、開發(fā)工具鏈、算子庫和通信庫，支持推理應(yīng)用低成本遷移與持續(xù)優(yōu)化。目前，該體系已適配ModelScope平臺(tái)90%以上的主流大模型形態(tài)，降低了模型適配和系統(tǒng)部署的復(fù)雜度。

此外，曦望還同步發(fā)布了面向大模型推理的寰望SC3-256超節(jié)點(diǎn)方案。該方案可高效支撐PD分離架構(gòu)與大規(guī)模專家并行（EP）部署，適配千億、萬億級(jí)參數(shù)的多模態(tài)MoE推理場景。

在交付形態(tài)上，寰望SC3采用全液冷設(shè)計(jì)，具備極致PUE表現(xiàn)，并支持模塊化交付與快速部署。在同等推理能力量級(jí)下，該方案的整體系統(tǒng)交付成本從行業(yè)常見的億元級(jí)降低至千萬元級(jí)，實(shí)現(xiàn)了一個(gè)數(shù)量級(jí)的下降。

推理云計(jì)劃，重構(gòu)算力交付方式

除了硬件和軟件的創(chuàng)新外，曦望還推出了共建推理云計(jì)劃。該計(jì)劃依托自研推理GPU，通過GPU池化與彈性調(diào)度，將分散的算力資源整合為統(tǒng)一的推理算力池，并以MaaS（Model as a Service）作為核心入口，向企業(yè)提供開箱即用的大模型推理服務(wù)。

據(jù)曦望聯(lián)席CEO王湛介紹，共建推理云在千卡級(jí)集群場景下可用性達(dá)到99.95%，橫向擴(kuò)展效率超過95%。這一計(jì)劃不僅解決了推理算力在實(shí)際落地中普遍存在的資源碎片化、運(yùn)維復(fù)雜、成本不可預(yù)測等挑戰(zhàn)，還通過云化方式對(duì)算力交付模式進(jìn)行了重構(gòu)，使推理算力從“設(shè)備能力”轉(zhuǎn)化為可標(biāo)準(zhǔn)化、可規(guī)模化的服務(wù)能力。

生態(tài)協(xié)同，推動(dòng)推理算力商業(yè)化

隨著推理算力競爭從單點(diǎn)技術(shù)走向系統(tǒng)工程能力比拼，產(chǎn)業(yè)協(xié)同的重要性日益凸顯。曦望在發(fā)布會(huì)上與浙江大學(xué)簽署了戰(zhàn)略合作協(xié)議，聯(lián)合成立“智能計(jì)算聯(lián)合研發(fā)中心”，圍繞光互連GPU超節(jié)點(diǎn)架構(gòu)、半導(dǎo)體虛擬制造（計(jì)算光刻）以及AI高精度氣象預(yù)測等前沿方向展開協(xié)同研究。

此外，曦望還與中交信科集團(tuán)、杭鋼數(shù)字科技、浙江算力科技、三一集團(tuán)、協(xié)鑫科技等企業(yè)達(dá)成了戰(zhàn)略合作，共同推動(dòng)推理算力在交通、制造、醫(yī)療等行業(yè)的落地應(yīng)用。曦望董事長徐冰表示，曦望并不希望只做一家賣芯片的公司，而是圍繞推理場景構(gòu)建“芯片+系統(tǒng)+生態(tài)”的整體布局，讓推理算力真正成為可規(guī)模化、可持續(xù)的基礎(chǔ)設(shè)施。