推理经济学如何驱动 AI 价值最大化

随着 AI 模型的持续演进与应用普及，企业需要在价值最大化的目标下进行精心权衡。

这是因为推理（将数据输入模型并获取输出的运算过程）面临与模型训练截然不同的计算挑战。

预训练模型 (数据导入、token 化分解及模式识别的过程) 本质上是单次的成本投入。但在推理过程中，模型的每个提示词 (prompt) 都会生成 token，而每个 token 都会产生成本。

这意味着，随着 AI 模型性能提升和应用规模扩大， token 的生成量及其相关计算成本也会增加。对于希望构建 AI 能力的企业来说，关键在于控制计算成本的同时，以最快的速度、最高的准确性和服务质量生成尽可能多的 token。

为此，AI 生态系统持续推动推理效率优化与成本压缩。得益于模型优化技术的重大突破，过去一年中推理成本持续呈下降趋势，催生了日益先进、高能效的加速计算基础架构和全栈解决方案。

根据斯坦福大学“以人为本人工智能研究所 (HAI)”发布的《2025 年人工智能指数报告》，“2022 年 11 月至 2024 年 10 月期间，达到 GPT-3.5 水平系统的推理成本降幅超 280 倍。硬件层面的成本年降幅 30%，而能效年提升率达 40%。开放权重模型也在缩小与闭源模型的差距，部分基准测试中，性能差距在一年内就从 8% 缩小到仅 1.7%。多重趋势共同作用下先进 AI 的门槛正在迅速降低。”

随着模型持续演进引发需求及 token 量级增加，企业必须扩展其加速计算资源，以提供下一代 AI 逻辑推理工具，否则将面临成本和能耗增加的风险。

以下是推理经济学概念的入门指南，帮助企业可以建立战略定位，实现高效、高性价比且可盈利的大规模 AI 解决方案。

AI 推理经济学的关键术语

了解推理经济学的关键术语是理解其重要性的基础。

词元 (Token) 是 AI 模型中的基本数据单位，源自训练过程中的文本、图像、音频片段和视频等数据。通过 token 化 (tokenization) 过程，原始数据被解构成最小语义单元。在训练过程中，模型会学习标记 token 之间的关系，从而执行推理并生成准确、相关的输出。

吞吐量 (Throughput) 指的是模型在单位时间内输出的 token 量，其本身是运行模型基础架构的一个函数。吞吐量通常以 token/每秒为单位，吞吐量越高，意味着基础架构的回报越高。

延迟 (Latency) 是指从输入提示到模型开始响应所需的时间。较低的延迟意味着更快的响应。衡量延迟的两种主要方法包括：

首 token 时延 (Time to First Token, TTFT)：用户输入提示后，模型生成第一个输出 token 所需的时间。
首 token 后，每个输出 token 的时延（Time per Output Token, TPOT）：连续 token 之间的平均输出时间，也可以理解为，模型为每个用户的查询请求生成一个完整输出 token 所需要的时间。它也被称为“token 间延迟”或“token 到 token 延迟”。

TTFT 和 TPOT 固然是重要的基准参数，但它们只是众多计算公式中的两个部分，只关注这两项指标仍可能导致性能衰减或成本超支。

为了考虑其他相互依赖的因素，IT 领导者开始衡量“有效吞吐量” (goodput)，即在维持目标 TTFT 和 TPOT 水平的前提下，系统实际达成的有效吞吐量。这一指标使企业能够以更全面的方式评估性能，保持吞吐量、延迟和成本的最优配置，确保运营效率和优秀的用户体验。

能效是衡量 AI 系统将电能转化为计算输出效率的指标，以每瓦特性能来表示。通过使用加速计算平台，组织可以在降低能耗的同时，最大化每瓦特的 token 处理量。

扩展定律 (Scaling Law) 如何应用于推理成本

理解推理经济学的核心在于掌握 AI 的三大扩展定律：

预训练扩展 (Pretraining scaling)：最初的扩展定律表明，通过提升训练数据集规模、模型参数数量以及增加计算资源，能够实现模型智能水平和准确率的可预测性提升。
后训练 (Post-training)：对模型的准确性和领域专业性进行微调，以便将其用于应用开发。可以使用检索增强生成 (RAG) 等技术从企业数据库返回更相关的答案。
测试时扩展 (Test-time scaling，又称“长思考”或“逻辑推理”)：在推理过程中，模型会分配额外的计算资源，以评估多种可能的结果，然后得出最佳答案。