大模型价格列表

1485 字
7 分钟
大模型价格列表

汇总了一些国内外大语言模型(LLM)的 API 定价信息。仅供参考。

国内大模型#

更新时间:2026-03-02 (单位统一为元/1M Tokens)

百度 (Baidu)#

数据来源:百度智能云千帆大模型平台

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
ERNIE 5.14 (≤32k)
6 (>32k)
18 (≤32k)
22 (>32k)
ERNIE 5.0
(Thinking-Preview/Latest/Exp)
6 (≤32k)
10 (>32k)
24 (≤32k)
40 (>32k)

联网搜索:0.004 元/次

阿里云 (Aliyun)#

数据来源:阿里云百炼模型价格 | 上下文缓存说明

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
Qwen 3.6 Max Preview
(qwen3.6-max-preview)
9 (≤128K)
15 (≤256K)
54 (≤128K)
90 (≤256K)
Batch 调用半价
Qwen 3.6 Plus
(qwen3.6-plus)
2 (≤256K)
8 (≤1M)
12 (≤256K)
48 (≤1M)
Batch 调用半价
Qwen 3.6 Flash
(qwen3.6-flash)
1.2 (≤256K)
4.8 (≤1M)
7.2 (≤256K)
28.8 (≤1M)
Batch 调用半价

上下文缓存说明: 阿里云支持显式缓存和隐式缓存两种模式,互斥,单次请求只能应用其中一种。

  • 显式缓存:需在 messages 中添加 cache_control 标记启用。创建缓存按输入标准价 125% 计费,命中按 10% 计费,有效期 5 分钟(命中刷新)。
  • 隐式缓存:自动模式,无需配置。系统基于前缀匹配自动缓存,创建不额外收费,命中按 20% 计费,有效期由系统管理。

智谱AI (ZhipuAI)#

数据来源:智谱AI开放平台

文本模型

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
GLM-5.16 (≤32k)
8 (>32k)
24 (≤32k)
28 (>32k)
缓存命中: 1.3 / 2
GLM-5-Turbo5 (≤32k)
7 (>32k)
22 (≤32k)
26 (>32k)
缓存命中: 1.2 / 1.8
GLM-54 (≤32k)
6 (>32k)
18 (≤32k)
22 (>32k)
缓存命中: 1 / 1.5
GLM-4.72 (≤32k, 短输出)
3 (≤32k, 长输出)
4 (>32k)
8 (≤32k, 短输出)
14 (≤32k, 长输出)
16 (>32k)
短输出: <0.2k
长输出: ≥0.2k
缓存命中: 0.4/0.6/0.8
GLM-4.7-Flash免费免费缓存命中: 免费

视觉模型

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
GLM-5V-Turbo5 (≤32k)
7 (>32k)
22 (≤32k)
26 (>32k)
缓存命中: 1.2 / 1.8
GLM-4.6V1 (≤32k)
2 (≤128k)
3 (≤32k)
6 (≤128k)
缓存命中: 0.2 / 0.4
GLM-4.6V-Flash免费免费缓存命中: 免费

缓存存储限时免费。

DeepSeek#

数据来源:DeepSeek API Docs

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
DeepSeek-V4-Flash
(deepseek-v4-flash)
12缓存命中: 0.02
旧 deepseek-chat/reasoner 已映射至此模型
DeepSeek-V4-Pro
(deepseek-v4-pro)
3
(标价 12,当前 2.5 折至 5/31)
6
(标价 24)
缓存命中: 0.025

火山引擎 (Volcengine)#

数据来源:火山方舟大模型服务平台

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
doubao-seed-2.0-pro3.2 (≤32k)
4.8 (32k-128k]
9.6 (128k-256k]
16 (≤32k)
24 (32k-128k]
48 (128k-256k]
输入缓存命中: 0.64/0.96/1.92
缓存存储: 0.017元/1M/小时
doubao-seed-2.0-lite0.6 (≤32k)
0.9 (32k-128k]
1.8 (128k-256k]
3.6 (≤32k)
5.4 (32k-128k]
10.8 (128k-256k]
输入缓存命中: 0.12/0.18/0.36
缓存存储: 0.017元/1M/小时
doubao-seed-2.0-mini0.2 (≤32k)
0.4 (32k-128k]
0.8 (128k-256k]
2 (≤32k)
4 (32k-128k]
8 (128k-256k]
输入缓存命中: 0.04/0.08/0.16
缓存存储: 0.017元/1M/小时
doubao-seed-2.0-code3.2 (≤32k)
4.8 (32k-128k]
9.6 (128k-256k]
16 (≤32k)
24 (32k-128k]
48 (128k-256k]
输入缓存命中: 0.64/0.96/1.92
缓存存储: 0.017元/1M/小时

分段计费说明: 部分模型按输入长度(及输出长度)划分价格区间。例如,请求输入 200k tokens、输出 14k tokens,满足输入长度 (128, 256] 条件,则输入按 2.4 元/百万 token、输出按 24 元/百万 token 单价计费(具体价格以各模型对应区间为准)。

MiniMax#

数据来源:MiniMax 开放平台

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
MiniMax-M2.72.18.4输入缓存命中: 0.42
缓存写入: 2.625
MiniMax-M2.7-highspeed4.216.8输入缓存命中: 0.42
缓存写入: 2.625
MiniMax-M2.52.18.4输入缓存命中: 0.21
缓存写入: 2.625
MiniMax-M2.5-highspeed4.216.8输入缓存命中: 0.21
缓存写入: 2.625

月之暗面 (Moonshot AI)#

数据来源:Moonshot AI 开放平台

模型名称输入价格 (元/1M Tokens)输出价格 (元/1M Tokens)说明
kimi-k2.66.5027.00缓存命中: 1.10
kimi-k2.5421缓存命中: 0.70
moonshot-v1-8k210
moonshot-v1-32k520
moonshot-v1-128k1030

kimi-k2 系列模型将于 2026 年 5 月 25 日下线,不再维护和支持。|

国外大模型#

更新时间:2026-03-02 (单位统一为美元/1M Tokens)

OpenAI#

数据来源:OpenAI Pricing (Standard) Short context ≤ 272k tokens,Long context > 272k tokens。无 Long 价格表示仅支持 Short context。

模型名称输入 ($)缓存输入 ($)输出 ($)长上下文输入 ($)长上下文缓存 ($)长上下文输出 ($)
gpt-5.55.000.5030.0010.001.0045.00
gpt-5.5-pro30.00180.0060.00270.00
gpt-5.42.500.2515.005.000.5022.50
gpt-5.4-mini0.750.0754.50
gpt-5.4-nano0.200.021.25
gpt-5.4-pro30.00180.0060.00270.00
gpt-4o2.501.2510.00

Anthropic (Claude)#

数据来源:Claude Pricing

模型名称基础输入 ($/1M)5m 缓存写入 ($/1M)1h 缓存写入 ($/1M)缓存读取 ($/1M)输出 ($/1M)
Claude Opus 4.5/4.6/4.75.006.2510.000.5025.00
Claude Sonnet 4.5/4.63.003.756.000.3015.00
Claude Haiku 4.51.001.252.000.105.00

提示缓存说明: 提示缓存通过重用之前处理过的提示部分来降低成本和延迟。

  • 自动缓存:在请求顶层添加 cache_control 字段,系统自动管理缓存断点。
  • 显式缓存断点:将 cache_control 放在单个内容块上,精细控制缓存内容。

缓存写入令牌在内容首次存储时收费;缓存读取在后续请求检索缓存内容时收费。

长上下文: Claude Mythos Preview、Opus 4.7、Opus 4.6 和 Sonnet 4.6 包括完整的 100 万令牌上下文窗口,价格为标准定价(90 万令牌的请求按与 9k 令牌请求相同的每令牌费率计费)。提示缓存和批处理折扣在整个上下文窗口中按标准费率应用。

Google (Gemini)#

数据来源:Gemini API Pricing

模型名称输入价格 ($/1M Tokens)输出价格 ($/1M Tokens)说明
Gemini 3.1 Pro
(preview)
2.00 (≤200k)
4.00 (>200k)
12.00 (≤200k)
18.00 (>200k)
输入缓存命中: 0.20 / 0.40
缓存存储: 4.50/1M/小时
Gemini 3.1 Flash Image
(preview)
0.25 (文本/图片)1.50 (文本/思考)
60.00 (图片)
面向图像生成的轻量模型
Gemini 3 Flash
(preview)
0.50 (文本/图片/视频)
1.00 (音频)
3.00输入缓存命中: 0.05 (文本/图片/视频) / 0.10 (音频)
缓存存储: 1.00/1M/小时
Gemini 2.5 Pro1.25 (≤200k)
2.50 (>200k)
10.00 (≤200k)
15.00 (>200k)
输入缓存命中: 0.125 / 0.25
缓存存储: 4.50/1M/小时
Gemini 2.5 Flash0.30 (文本/图片/视频)
1.00 (音频)
2.50输入缓存命中: 0.03 (文本/图片/视频) / 0.10 (音频)
缓存存储: 1.00/1M/小时
Gemini 3.1 Flash-Lite0.25 (文本/图片/视频)
0.50 (音频)
1.50
Gemini 2.5 Flash-Lite0.10 (文本/图片/视频)
0.30 (音频)
0.40输入缓存命中: 0.01 (文本/图片/视频) / 0.03 (音频)
缓存存储: 1.00/1M/小时
Gemini 2.5 Computer Use Preview1.25 (≤200k)
2.50 (>200k)
10.00 (≤200k)
15.00 (>200k)
浏览器控制代理模型

文章分享

如果这篇文章对你有帮助,欢迎分享给更多人!

大模型价格列表
https://xtower.site/posts/llm-cost/
作者
Xtower
发布于
2026-02-08
许可协议
CC BY-NC-SA 4.0
Profile Image of the Author
Xtower
Hello, I'm Xtower.
公告
「如何?为你描绘的这个世界?」
音乐
封面

音乐

暂未播放

0:00 0:00
暂无歌词
分类
标签
站点统计
文章
3
分类
2
标签
2
总字数
3,725
运行时长
0
最后活动
0 天前

文章目录