推理经济学如何驱动 AI 价值最大化

解析 AI 在生产环境中的部署成本,助力用户实现性能优化和盈利能力。
作者 Kyle Aubrey

随着 AI 模型的持续演进与应用普及,企业需要在价值最大化的目标下进行精心权衡。

这是因为推理(将数据输入模型并获取输出的运算过程)面临与模型训练截然不同的计算挑战。

预训练模型 (数据导入、token 化分解及模式识别的过程) 本质上是单次的成本投入。但在推理过程中,模型的每个提示词 (prompt) 都会生成 token,而每个 token 都会产生成本。

这意味着,随着 AI 模型性能提升和应用规模扩大, token 的生成量及其相关计算成本也会增加。对于希望构建 AI 能力的企业来说,关键在于控制计算成本的同时,以最快的速度、最高的准确性和服务质量生成尽可能多的 token。

为此,AI 生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破,过去一年中推理成本持续呈下降趋势,催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025 年人工智能指数报告》,“2022 年 11 月至 2024 年 10 月期间,达到 GPT-3.5 水平系统的推理成本降幅超 280 倍。硬件层面的成本年降幅 30%,而能效年提升率达 40%。开放权重模型也在缩小与闭源模型的差距,部分基准测试中,性能差距在一年内就从 8% 缩小到仅 1.7%。多重趋势共同作用下先进 AI 的门槛正在迅速降低。”

随着模型持续演进引发需求及 token 量级增加,企业必须扩展其加速计算资源,以提供下一代 AI 逻辑推理工具,否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南,帮助企业可以建立战略定位,实现高效、高性价比且可盈利的大规模 AI 解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token) 是 AI 模型中的基本数据单位,源自训练过程中的文本、图像、音频片段和视频等数据。通过 token 化 (tokenization) 过程,原始数据被解构成最小语义单元。在训练过程中,模型会学习标记 token 之间的关系,从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput) 指的是模型在单位时间内输出的 token 量,其本身是运行模型基础架构的一个函数。吞吐量通常以 token/每秒为单位,吞吐量越高,意味着基础架构的回报越高。

延迟 (Latency) 是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括:

  • token 时延 (Time to First Token, TTFT)用户输入提示后,模型生成第一个输出 token 所需的时间。
  • 首 token 后,每个输出 token 的时延(Time per Output Token, TPOT):连续 token 之间的平均输出时间,也可以理解为,模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT 和 TPOT 固然是重要的基准参数,但它们只是众多计算公式中的两个部分,只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素,IT 领导者开始衡量“有效吞吐量” (goodput),即在维持目标 TTFT 和 TPOT 水平的前提下,系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能,保持吞吐量、延迟和成本的最优配置,确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标,以每瓦特性能来表示。通过使用加速计算平台,组织可以在降低能耗的同时,最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律

  • 预训练扩展 (Pretraining scaling):最初的扩展定律表明,通过提升训练数据集规模、模型参数数量以及增加计算资源,能够实现模型智能水平和准确率的可预测性提升。
  • 后训练 (Post-training):对模型的准确性和领域专业性进行微调,以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。
  • 测试时扩展 (Test-time scaling又称长思考逻辑推理):在推理过程中,模型会分配额外的计算资源,以评估多种可能的结果,然后得出最佳答案。

虽然 AI 在不断发展,后训练和测试时扩展技术也在持续迭代,但这并不意味着预训练即将消失,它仍然是扩展模型的重要方法。要支持后训练和测试时扩展,仍需要进行预训练。

可盈利的 AI 需要全栈方案

相较于只经过预训练和后训练的模型推理,采用测试时扩展的模型会生成多个 token 来解决复杂问题。这虽然可以显著提升准确性和模型输出的相关性,但计算成本也会更高。

更智能的 AI 意味着生成更多 token 来解决问题,而优质的用户体验意味着尽可能快地生成这些 token。AI 模型越智能、越快速,对公司和客户的实用性就越大。

企业需要扩展其加速计算资源,构建能支持复杂问题求解、代码生成和多步骤规划的下一代 AI 逻辑推理工具,同时避免成本激增。

这需要先进的硬件和全面优化的软件栈。NVIDIA AI 工厂产品路线图旨在满足计算需求,帮助解决复杂的推理问题,同时实现更高的效率。

AI 工厂集成了高性能 AI 基础设施、高速网络和经优化的软件,可大规模生产智能。这些组件设计灵活、可编程,使企业能够优先关注对其模型或推理需求更关键的领域。

为了进一步简化在部署大规模 AI 逻辑推理模型时的操作,AI 工厂在高性能、低延迟的推理管理系统上运行,确保以尽可能低的成本满足 AI 逻辑推理所需的速度和吞吐量,从而最大化提升 token 收入。

了解更多信息,请阅读电子书:《AI 推理:平衡成本、延迟与性能