

企业每投资 1 亿好意思元,即可得回 50 亿好意思元的 token 收益。
作家 | ZeR0剪辑 | 漠影
芯东西 9 月 10 日报谈,昨晚,英伟达又放 AI 筹备大招,推出专为长高下文推理和视频生成应用假想的新式专用 GPU ——NVIDIA Rubin CPX。
英伟达创举东谈主兼 CEO 黄仁勋说:"正如 RTX 透澈改变了图形和物理 AI 同样,Rubin CPX 是首款专为海量高下文 AI 打造的 CUDA GPU,这种 AI 模子不错同期处理数百万个学问 token 的推理。"

Rubin CPX 配备128GB GDDR7 内存,NVFP4精度下 AI 算力可达30PFLOPS,终点适合开动长高下文处理(跳跃 100 万个 token)和视频生成任务。
Vera Rubin NVL144 CPX 平台可在单机架集成 144 张 Rubin CPX GPU、144 张 Rubin GPU、36 张 Vera CPU,提供8EFLOPS的 AI 性能(NVFP4 精度)和100TB的快速内存,内存带宽达到1.7PB/s。
其 AI 性能是英伟达 Vera Rubin NVL144 平台的2倍多,是基于 Blackwell Ultra 的 GB300 NVL72 系统的7.5 倍,比拟 GB300 NVL72 系统还能提供3 倍更快的重目力机制。
Rubin CPX GPU 展望将于2026 年底上市。
9 月 17 日,智猩猩发起主持的 2025 各人 AI 芯片峰会将在上海举办。大会设有主论坛,大模子 AI 芯片、AI 芯片架构两大专题论坛,以及存算一体、超节点与智算集群两大时期研讨会,近 40 位嘉宾将共享和延续。IEEE Fellow 王中风西席将开场,华为昇腾等国产 AI 芯片力量谐和,华为云、阿里云领衔超节点与智算集群势力。扫码报名 ~
01.全新专用 GPU:128GB 内存,30PFLOPS 算力
Rubin CPX 基于 NVIDIA Rubin 架构构建,采用经济高效的单芯片假想,配备128GB GDDR7 内存,采用NVFP4精度,并过程优化,算力可达30PFLOPS,大约为 AI 推理任务,尤其是长高下文处理(跳跃 100 万个 token)和视频生成,提供了远超现存系统的性能和 token 收益。
与英伟达 GB300 NVL72 系统比拟,这款专用 GPU 还提供了3 倍更快的重目力机制,从而普及了 AI 模子处理更长高下文序列的智力,况兼速率不会缩小。
比拟之下,本年 3 月发布的 Rubin GPU,在 FP4 精度下峰值推明智力为 50PFLOPS。而英伟达在本年 6 月才公布转变式 4 位浮点模式 NVFP4,这种模式的宗旨是在超低精度下死力保握模子性能。

其分析标明,当使用考研后量化(PTQ)将 DeepSeek-R1-0528 从原始 FP8 模式量化为 NVFP4 模式时,其在要津谈话建模任务上的准确率着落幅度不跳跃 1%。在 AIME 2024 中,NVFP4 的准确率致使提高了 2%。

Rubin CPX 采用的 GDDR7,价钱比 Rubin GPU 配备的 288GB HBM4 高带宽内存更低廉。
02.单机架 AI 性能达 30EFLOPS,提供 100TB 快速内存、1.7PB/s 内存带宽
Rubin CPX 与全新NVIDIA Vera Rubin NVL144 CPX 平台中的英伟达 Vera CPU 和 Rubin GPU 协同使命,进行生成阶段处理,酿成一个好意思满的高性能说明式功绩惩处有磋议。

Vera Rubin NVL144 CPX 平台可在单机架集成 144 张 Rubin CPX GPU、144 张 Rubin GPU、36 张 Vera CPU,提供8EFLOPS的 AI 性能(NVFP4 精度)和100TB的快速内存,内存带宽达到1.7PB/s。
其 AI 性能是英伟达 Vera Rubin NVL144 平台的2倍多,是基于 Blackwell Ultra 的 GB300 NVL72 机架式系统的7.5 倍。
英伟达还在周二共享了 GB300 NVL72 系统的基准测试收尾,其 DeepSeek-R1 推感性能普及到上一代的 1.4 倍。该系统还创下 MLPerf Inference v5.1 套件中添加的所有新数据中心基准测试的纪录,包括 Llama 3.1 405B Interactive、Llama 3.1 8B、Whisper 的纪录。
英伟达筹划为但愿访佛使用现存 Vera Rubin 144 系统的客户配备专用的 Rubin CPX 筹备托盘(tray)。
Rubin CPX 提供多种建立,包括 Vera Rubin NVL144 CPX,可与 NVIDIA Quantum ‑ X800 InfiniBand 横向膨胀筹备架构或搭载英伟达 Spectrum-XGS 以太网时期和 ConnectX-9 SuperNIC 的 Spectrum-X 以太网网罗平台归拢使用。
英伟达展望将推出一款双机架家具,将 Vera Rubin NVL144 和 Vera Rubin NVL144 机架归拢在一皆,将快速内存容量普及至150TB。
03.为说明式推理优化而生,与英伟达旗舰 GPU 搭配用
这款全新的专用 GPU,跟英伟达之前发布的旗舰 GPU 有什么区分?
据英伟达数据中心家具总监 Shar Narasimhan 共享,Rubin CPX 将算作英伟达的专用 GPU,用于高下文和预填充筹备,从而显贵普及海量高下文 AI 应用的性能。原版 Rubin GPU 则正经生成妥协码筹备。
推情理两个阶段构成:高下文阶段和生成阶段。这两个阶段对基础模式的条款截然有异。
高下文阶段受筹备智力限制,需要高浑沌量处理来索乞降分析多半输入数据,最终身成第一个 token 输出收尾。
生成阶段受内存带脱期制,依赖于快速内存传输和高速互连(如 NVLink)来保管逐 token 输出性能。
说明式推理使这些阶段大约平定处理,从而竣事对筹备和内存资源的有针对性的优化。这种架构转变可提高浑沌量,缩小蔓延,并普及举座资源行使率。
但说明会带来新的复杂性,需要在低蔓延键值缓存传输、大谈话模子感知路由和高效内存管制之间进行精准配合。
英伟达打造 Rubin CPX GPU,等于为了在筹备密集型长高下文阶段竣事专科的加快,并将该专用 GPU 无缝集成到说明式基础架构中。

英伟达通过将 GPU 功能与高下文和生成使命负载相归拢来优化推理。
Rubin CPX GPU 专为高效处理长序列而优化,旨在增强长高下文性能,补充现存基础架构,普及浑沌量和反映速率,同期提供可膨胀的后果,并最大化大鸿沟生成式 AI 使命负载的投资讲述率(ROI)。
为了处理视频,AI 模子可能需要处理 1 小时实际中多达 100 万个 token,这挑战了传统 GPU 筹备的极限。Rubin CPX 将视频解码器和编码器以及长高下文推理处理集成在单芯片中,为视频搜索和高质地生成视频等应用提供了前所未有的功能。
Rubin CPX 将大约开动 NVIDIA Nemotron 系列最新的多模态模子,为企业级 AI agent 提供滥觞进的推明智力。关于分娩级 AI,Nemotron 模子不错通过 NVIDIA AI Enterprise 软件平台委用。
04.结语:30~50 倍投资讲述率,每投资 1 亿好意思元可带来 50 亿好意思元收益
Vera Rubin NVL144 CPX 采用英伟达 Quantum-X800 InfiniBand 或 Spectrum-X 以太网,搭配 ConnectX-9 SuperNIC 并由 Dynamo 平台配合,旨在为下一波百万 token 高下文 AI 推理使命负载提供扶持,缩小推理成本。
在鸿沟化运营下,该平台可竣事 30~50 倍的投资讲述率,相配于每1 亿好意思元的本钱支拨即可带来高达50 亿好意思元的 token 收益。英伟达称这"为推理经济学建造了新的标杆"。
Rubin CPX 将使 AI 编程助手勤俭单的代码生成用具转变为大约通晓和优化大型软件表情的复杂系统。
有名的好意思国 AI 编程平台 Cursor、AI 视频生成创企 Runway、AI 编程创企 Magic 等正在探索用 Rubin CPX GPU 加快他们的代码生成、复杂视频生成等应用。