大模型价格列表 - 塔弦云随笔

汇总了一些国内外大语言模型（LLM）的 API 定价信息。仅供参考。

国内大模型#

更新时间：2026-03-02 (单位统一为元/1M Tokens)

百度 (Baidu)#

数据来源：百度智能云千帆大模型平台

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
ERNIE 5.1	4 (≤32k) 6 (>32k)	18 (≤32k) 22 (>32k)
ERNIE 5.0 (Thinking-Preview/Latest/Exp)	6 (≤32k) 10 (>32k)	24 (≤32k) 40 (>32k)

联网搜索：0.004 元/次

阿里云 (Aliyun)#

数据来源：阿里云百炼模型价格 | 上下文缓存说明

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
Qwen 3.6 Max Preview (qwen3.6-max-preview)	9 (≤128K) 15 (≤256K)	54 (≤128K) 90 (≤256K)	Batch 调用半价
Qwen 3.6 Plus (qwen3.6-plus)	2 (≤256K) 8 (≤1M)	12 (≤256K) 48 (≤1M)	Batch 调用半价
Qwen 3.6 Flash (qwen3.6-flash)	1.2 (≤256K) 4.8 (≤1M)	7.2 (≤256K) 28.8 (≤1M)	Batch 调用半价

上下文缓存说明： 阿里云支持显式缓存和隐式缓存两种模式，互斥，单次请求只能应用其中一种。

显式缓存：需在 messages 中添加 cache_control 标记启用。创建缓存按输入标准价 125% 计费，命中按 10% 计费，有效期 5 分钟（命中刷新）。

隐式缓存：自动模式，无需配置。系统基于前缀匹配自动缓存，创建不额外收费，命中按 20% 计费，有效期由系统管理。

智谱AI (ZhipuAI)#

数据来源：智谱AI开放平台

文本模型

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
GLM-5.1	6 (≤32k) 8 (>32k)	24 (≤32k) 28 (>32k)	缓存命中: 1.3 / 2
GLM-5-Turbo	5 (≤32k) 7 (>32k)	22 (≤32k) 26 (>32k)	缓存命中: 1.2 / 1.8
GLM-5	4 (≤32k) 6 (>32k)	18 (≤32k) 22 (>32k)	缓存命中: 1 / 1.5
GLM-4.7	2 (≤32k, 短输出) 3 (≤32k, 长输出) 4 (>32k)	8 (≤32k, 短输出) 14 (≤32k, 长输出) 16 (>32k)	短输出: <0.2k 长输出: ≥0.2k 缓存命中: 0.4/0.6/0.8
GLM-4.7-Flash	免费	免费	缓存命中: 免费

视觉模型

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
GLM-5V-Turbo	5 (≤32k) 7 (>32k)	22 (≤32k) 26 (>32k)	缓存命中: 1.2 / 1.8
GLM-4.6V	1 (≤32k) 2 (≤128k)	3 (≤32k) 6 (≤128k)	缓存命中: 0.2 / 0.4
GLM-4.6V-Flash	免费	免费	缓存命中: 免费

缓存存储限时免费。

DeepSeek#

数据来源：DeepSeek API Docs

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
DeepSeek-V4-Flash (deepseek-v4-flash)	1	2	缓存命中: 0.02 旧 deepseek-chat/reasoner 已映射至此模型
DeepSeek-V4-Pro (deepseek-v4-pro)	3 (标价 12，当前 2.5 折至 5/31)	6 (标价 24)	缓存命中: 0.025

火山引擎 (Volcengine)#

数据来源：火山方舟大模型服务平台

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
doubao-seed-2.0-pro	3.2 (≤32k) 4.8 (32k-128k] 9.6 (128k-256k]	16 (≤32k) 24 (32k-128k] 48 (128k-256k]	输入缓存命中: 0.64/0.96/1.92 缓存存储: 0.017元/1M/小时
doubao-seed-2.0-lite	0.6 (≤32k) 0.9 (32k-128k] 1.8 (128k-256k]	3.6 (≤32k) 5.4 (32k-128k] 10.8 (128k-256k]	输入缓存命中: 0.12/0.18/0.36 缓存存储: 0.017元/1M/小时
doubao-seed-2.0-mini	0.2 (≤32k) 0.4 (32k-128k] 0.8 (128k-256k]	2 (≤32k) 4 (32k-128k] 8 (128k-256k]	输入缓存命中: 0.04/0.08/0.16 缓存存储: 0.017元/1M/小时
doubao-seed-2.0-code	3.2 (≤32k) 4.8 (32k-128k] 9.6 (128k-256k]	16 (≤32k) 24 (32k-128k] 48 (128k-256k]	输入缓存命中: 0.64/0.96/1.92 缓存存储: 0.017元/1M/小时

分段计费说明： 部分模型按输入长度（及输出长度）划分价格区间。例如，请求输入 200k tokens、输出 14k tokens，满足输入长度 (128, 256] 条件，则输入按 2.4 元/百万 token、输出按 24 元/百万 token 单价计费（具体价格以各模型对应区间为准）。

MiniMax#

数据来源：MiniMax 开放平台

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
MiniMax-M2.7	2.1	8.4	输入缓存命中: 0.42 缓存写入: 2.625
MiniMax-M2.7-highspeed	4.2	16.8	输入缓存命中: 0.42 缓存写入: 2.625
MiniMax-M2.5	2.1	8.4	输入缓存命中: 0.21 缓存写入: 2.625
MiniMax-M2.5-highspeed	4.2	16.8	输入缓存命中: 0.21 缓存写入: 2.625

月之暗面 (Moonshot AI)#

数据来源：Moonshot AI 开放平台

模型名称	输入价格 (元/1M Tokens)	输出价格 (元/1M Tokens)	说明
kimi-k2.6	6.50	27.00	缓存命中: 1.10
kimi-k2.5	4	21	缓存命中: 0.70
moonshot-v1-8k	2	10
moonshot-v1-32k	5	20
moonshot-v1-128k	10	30

kimi-k2 系列模型将于 2026 年 5 月 25 日下线，不再维护和支持。|

国外大模型#

更新时间：2026-03-02 (单位统一为美元/1M Tokens)

OpenAI#

数据来源：OpenAI Pricing (Standard) Short context ≤ 272k tokens，Long context > 272k tokens。无 Long 价格表示仅支持 Short context。

模型名称	输入 ($)	缓存输入 ($)	输出 ($)	长上下文输入 ($)	长上下文缓存 ($)	长上下文输出 ($)
gpt-5.5	5.00	0.50	30.00	10.00	1.00	45.00
gpt-5.5-pro	30.00	—	180.00	60.00	—	270.00
gpt-5.4	2.50	0.25	15.00	5.00	0.50	22.50
gpt-5.4-mini	0.75	0.075	4.50	—	—	—
gpt-5.4-nano	0.20	0.02	1.25	—	—	—
gpt-5.4-pro	30.00	—	180.00	60.00	—	270.00
gpt-4o	2.50	1.25	10.00	—	—	—

Anthropic (Claude)#

数据来源：Claude Pricing

模型名称	基础输入 ($/1M)	5m 缓存写入 ($/1M)	1h 缓存写入 ($/1M)	缓存读取 ($/1M)	输出 ($/1M)
Claude Opus 4.5/4.6/4.7	5.00	6.25	10.00	0.50	25.00
Claude Sonnet 4.5/4.6	3.00	3.75	6.00	0.30	15.00
Claude Haiku 4.5	1.00	1.25	2.00	0.10	5.00

提示缓存说明： 提示缓存通过重用之前处理过的提示部分来降低成本和延迟。

自动缓存：在请求顶层添加 cache_control 字段，系统自动管理缓存断点。

显式缓存断点：将 cache_control 放在单个内容块上，精细控制缓存内容。

缓存写入令牌在内容首次存储时收费；缓存读取在后续请求检索缓存内容时收费。

长上下文： Claude Mythos Preview、Opus 4.7、Opus 4.6 和 Sonnet 4.6 包括完整的 100 万令牌上下文窗口，价格为标准定价（90 万令牌的请求按与 9k 令牌请求相同的每令牌费率计费）。提示缓存和批处理折扣在整个上下文窗口中按标准费率应用。

Google (Gemini)#

数据来源：Gemini API Pricing

模型名称	输入价格 ($/1M Tokens)	输出价格 ($/1M Tokens)	说明
Gemini 3.1 Pro (preview)	2.00 (≤200k) 4.00 (>200k)	12.00 (≤200k) 18.00 (>200k)	输入缓存命中: 0.20 / 0.40 缓存存储: 4.50/1M/小时
Gemini 3.1 Flash Image (preview)	0.25 (文本/图片)	1.50 (文本/思考) 60.00 (图片)	面向图像生成的轻量模型
Gemini 3 Flash (preview)	0.50 (文本/图片/视频) 1.00 (音频)	3.00	输入缓存命中: 0.05 (文本/图片/视频) / 0.10 (音频) 缓存存储: 1.00/1M/小时
Gemini 2.5 Pro	1.25 (≤200k) 2.50 (>200k)	10.00 (≤200k) 15.00 (>200k)	输入缓存命中: 0.125 / 0.25 缓存存储: 4.50/1M/小时
Gemini 2.5 Flash	0.30 (文本/图片/视频) 1.00 (音频)	2.50	输入缓存命中: 0.03 (文本/图片/视频) / 0.10 (音频) 缓存存储: 1.00/1M/小时
Gemini 3.1 Flash-Lite	0.25 (文本/图片/视频) 0.50 (音频)	1.50
Gemini 2.5 Flash-Lite	0.10 (文本/图片/视频) 0.30 (音频)	0.40	输入缓存命中: 0.01 (文本/图片/视频) / 0.03 (音频) 缓存存储: 1.00/1M/小时
Gemini 2.5 Computer Use Preview	1.25 (≤200k) 2.50 (>200k)	10.00 (≤200k) 15.00 (>200k)	浏览器控制代理模型

音乐

音乐

国内大模型#

百度 (Baidu)#

阿里云 (Aliyun)#

智谱AI (ZhipuAI)#

DeepSeek#

火山引擎 (Volcengine)#

MiniMax#

月之暗面 (Moonshot AI)#

国外大模型#

OpenAI#

Anthropic (Claude)#

Google (Gemini)#

文章分享

音乐

文章目录