原始论点
大模型能力商品化
→
Token 成为计算单位
→
软件价值重构
→
推理基础设施需求爆发
升级后的论点
增加两个关键机制,解释为什么需求会非线性增长:
Token 价格暴跌
→
Jevons 悖论启动
→
Agent 放大器叠加
→
Token 总消耗非线性爆发
→
推理算力持续超预期
→
算力·存储·电力 三条确定性需求线
1
Jevons 悖论
越便宜,用得越多,总消耗反而更大。1865 年蒸汽机效率提高后煤炭消耗不降反升 — Token 经济完全符合这个规律。
2
Agent 放大器
从人类对话到 Agent 自主运行,单任务 Token 消耗放大 100-1000 倍。Agent 反复读取上下文、试错迭代、多步推理,每步都消耗 Token。
3
推理超越训练
算力需求重心从一次性训练转向持续性推理。投资逻辑从"谁在训练大模型"转向"谁在部署推理基础设施"。
实际价格数据
以百万 Token 输入价格(美元)计,同等能力级别的价格变化:
| 时间 |
模型 |
输入价格 $/百万token |
相对 GPT-4 |
| 2023.03 |
GPT-4 |
$30.00 |
100% |
| 2023.11 |
GPT-4 Turbo |
$10.00 |
33% |
| 2024.05 |
GPT-4o |
$5.00 |
17% |
| 2024.06 |
Claude 3.5 Sonnet |
$3.00 |
10% |
| 2024.07 |
GPT-4o mini |
$0.15 |
0.5% |
| 2025.01 |
DeepSeek V3 |
$0.27 |
0.9% |
| 2025.01 |
DeepSeek V3(缓存命中) |
$0.07 |
0.2% |
从 GPT-4 到 GPT-4o mini,18 个月内同等能力级别的 Token 价格下降了约 99.5%。这不是终点 — 价格仍在加速下降。
降价幅度可视化
以 GPT-4 价格为 100%,各模型相对成本(越短越便宜):
价格下降的四个技术驱动
价格不是凭空下降的,背后有四个可持续的技术进步:
1
MoE 混合专家架构
模型总参数可以很大,但每次推理只激活一小部分专家网络。GPT-4 估计约 1.8 万亿总参数,每个 Token 只激活约 2800 亿。推理效率提升约 6 倍。
2
量化技术
从 FP16(16位浮点)到 INT8、INT4,模型权重存储和计算量缩减 2-4 倍,精度损失很小。大幅降低推理的显存和算力要求。
3
KV Cache 优化
GQA(分组查询注意力)、PagedAttention 等技术大幅降低长上下文推理的显存占用。让长对话和大文档处理变得经济可行。
4
模型蒸馏
用大模型生成训练数据来训练小模型,以 1/10 的参数达到大模型 80-90% 的能力。小模型推理成本极低。
这四个方向仍在快速进步。预计到 2027 年,同等能力的 Token 价格可能再下降 10-50 倍。
即将更新
Jevons 悖论 · Agent 放大器 · 全球 Token 消耗量化估算
即将更新
单 Token 算力消耗 · GPU 需求反推 · 训练 vs 推理翻转
即将更新
算力(GPU/AI芯片)· 存储(HBM/SSD)· 电力(最确定)· 光通信
即将更新
云端 API · 私有化部署 TCO 拐点 · 端侧 NPU 算力增长
即将更新
被替代 · 被增强 · 全新的 · Agent 经济体
即将更新
基础模型跃迁 · Agent 元年 · 企业渗透 · AI 原生操作系统
即将更新
算力·存储·电力·光通信产业链 · 确定性排序 · 核心跟踪指标