NVIDIA TensorRT 提升 Stable Diffusion 3.5 在 NVIDIA GeForce RTX 和 RTX PRO GPU 上的性能表现

Stable Diffusion 在显存占用减少 40% 的情况下实现性能倍增;全新 TensorRT for RTX 软件开发套件现已向开发者开放。
作者 Gerardo Delgado

生成式 AI 重塑了人们创作、想象以及与数字内容互动的方式。

随着 AI 模型的功能与复杂性不断提升,其对显存 (即视频随机访问内存) 的需求也与日俱增。例如,基础版 Stable Diffusion 3.5 Large 模型的显存占用超过 18GB,这对能够高效运行该模型的系统数量构成限制。

通过对模型进行量化可以在保持类似质量的同时缩小模型大小并提升其性能。NVIDIA GeForce RTX 40 系列与 NVIDIA RTX PRO GPU (Ada Lovelace 架构) 支持通过 FP8 量化运行这些量化模型,而最新一代 NVIDIA Blackwell GPU 更新增对 FP4 的支持。

NVIDIA 与 Stability AI 合作,通过将其最新模型 Stable Diffusion (SD) 3.5 Large 量化为 FP8,将显存占用降低了 40%。借助 NVIDIA TensorRT 软件开发套件 (SDK) 对 SD3.5 Large 和 Medium 进行进一步优化,可实现性能倍增。

另外,TensorRT 针对 RTX AI 电脑进行了全新升级,结合了业界顶尖的性能,支持即时 (JIT) 在设备端构建引擎,体积缩小了 8 倍,让 AI 部署变得更轻松,可无缝部署至超过 1 亿台 RTX AI PC。TensorRT for RTX 现已作为独立 SDK 向开发者开放。

经 RTX 加速的 AI

NVIDIA 与 Stability AI 正在合力提升全球最热门 AI 图像模型之一 Stable Diffusion 3.5 的性能,同时降低其对显存的要求。借助 NVIDIA TensorRT 加速与量化,用户能够在 NVIDIA RTX GPU 上更快、更高效地进行图像生成与剪辑。

Stable Diffusion 3.5 量化 FP8 (右) 生成图像的时间缩短了一半,质量与 BF16 (左) 相差无几。(提示词:A serene mountain lake at sunrise, crystal clear water reflecting snow-capped peaks, lush pine trees along the shore, soft morning mist, photorealistic, vibrant colors, high resolution.)

为解决 SD3.5 Large 的显存限制问题,该模型通过 TensorRT 被量化至 FP8 精度,显存需求降低 40% 至 11GB。这意味着可以有五个 GeForce RTX 50 系列 GPU 型号 (而不是仅仅一个) 支持在显存中运行模型。

SD3.5 Large 和 Medium 模型也使用了 TensorRT 进行优化,TensorRT 是一种人工智能后端,可充分利用 Tensor Core。TensorRT 对模型权重和计算图 (即关于模型运行方式的指令) 进行特定于 RTX GPU 的优化。

与 BF16 PyTorch 相比,FP8 TensorRT 可将 SD3.5 Large 性能提升 2.3 倍,显存占用减少 40%。对于 SD3.5 Medium,BF16 TensorRT 可将速度提高 1.7 倍。

相较于 BF16 PyTorch 原始模型,FP8 TensorRT 版本能够给 SD3.5 Large 带来 2.3 倍性能提升,同时将显存占用减少 40%。而 SD3.5 Medium 的 BF16 TensorRT 版本与 BF16 Pytorch 版本相比实现了 1.7 倍性能提升。

经过优化的模型现已通过 Stability AI 的 Hugging Face 页面提供。

NVIDIA 与 Stability AI 持续推进合作,计划将 SD3.5 作为 NVIDIA NIM 微服务发布,方便创作者和开发者更轻松地调用该模型,并将其部署到各种应用场景中。这项 NIM 微服务预计将于七月发布。

TensorRT for RTX SDK 已发布

已在 Microsoft Build 大会上发布,并作为全新 Windows ML 框架的一部分提供预览的 TensorRT for RTX,现在作为独立 SDK 向开发者开放。

此前,开发者需要为每类 GPU 预生成并打包 TensorRT 引擎,该流程虽能实现特定于每颗 GPU 的优化,但需要耗费大量时间。

借助新版 TensorRT,开发者可以让所创建的通用 TensorRT 引擎在数秒内创建针对设备进行优化。这种 JIT 编译方案可在软件安装期间在后台静默完成,或在首次启用该功能时自动执行。

这一易于集成的 SDK 如今缩小至此前的八分之一,并可通过微软推出的 Windows 系统级 AI 推理后端 Windows ML 实现无缝调用。开发者可以前往 NVIDIA 开发者页面下载该全新独立 SDK,或在 Windows ML 预览版中试用。

如需进一步了解详情,请阅读本篇 NVIDIA 技术博客文章及 Microsoft Build 概述

在 GTC 巴黎大会上参加 NVIDIA 活动

上周,在欧洲规模最大的初创公司与科技峰会 VivaTech 大会上,NVIDIA 创始人兼 CEO 黄仁勋就云端 AI 基础设施、代理式 AI 物理 AI 领域的最新突破发表了主题演讲。观看重播

每周,RTX AI Garage 博客系列都会分享由社区推动的 AI 创新与内容,面向希望深入了解 NIM 微服务、AI Blueprint,以及如何在 AI PC 和工作站上构建 AI 智能体、创意工作流、数字人、生产力应用等的用户。

欢迎关注 NVIDIA 在微博、微信和哔哩哔哩的官方账号,获取最新资讯请订阅 RTX AI PC 新闻通讯

请参阅有关软件产品信息的通知