大模型价格列表
汇总了一些国内外大语言模型(LLM)的 API 定价信息。仅供参考。
国内大模型
更新时间:2026-03-02 (单位统一为元/1M Tokens)
百度 (Baidu)
数据来源:百度智能云千帆大模型平台
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| ERNIE 5.1 | 4 (≤32k) 6 (>32k) | 18 (≤32k) 22 (>32k) | |
| ERNIE 5.0 (Thinking-Preview/Latest/Exp) | 6 (≤32k) 10 (>32k) | 24 (≤32k) 40 (>32k) |
联网搜索:0.004 元/次
阿里云 (Aliyun)
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| Qwen 3.6 Max Preview (qwen3.6-max-preview) | 9 (≤128K) 15 (≤256K) | 54 (≤128K) 90 (≤256K) | Batch 调用半价 |
| Qwen 3.6 Plus (qwen3.6-plus) | 2 (≤256K) 8 (≤1M) | 12 (≤256K) 48 (≤1M) | Batch 调用半价 |
| Qwen 3.6 Flash (qwen3.6-flash) | 1.2 (≤256K) 4.8 (≤1M) | 7.2 (≤256K) 28.8 (≤1M) | Batch 调用半价 |
上下文缓存说明: 阿里云支持显式缓存和隐式缓存两种模式,互斥,单次请求只能应用其中一种。
- 显式缓存:需在 messages 中添加
cache_control标记启用。创建缓存按输入标准价 125% 计费,命中按 10% 计费,有效期 5 分钟(命中刷新)。- 隐式缓存:自动模式,无需配置。系统基于前缀匹配自动缓存,创建不额外收费,命中按 20% 计费,有效期由系统管理。
智谱AI (ZhipuAI)
数据来源:智谱AI开放平台
文本模型
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| GLM-5.1 | 6 (≤32k) 8 (>32k) | 24 (≤32k) 28 (>32k) | 缓存命中: 1.3 / 2 |
| GLM-5-Turbo | 5 (≤32k) 7 (>32k) | 22 (≤32k) 26 (>32k) | 缓存命中: 1.2 / 1.8 |
| GLM-5 | 4 (≤32k) 6 (>32k) | 18 (≤32k) 22 (>32k) | 缓存命中: 1 / 1.5 |
| GLM-4.7 | 2 (≤32k, 短输出) 3 (≤32k, 长输出) 4 (>32k) | 8 (≤32k, 短输出) 14 (≤32k, 长输出) 16 (>32k) | 短输出: <0.2k 长输出: ≥0.2k 缓存命中: 0.4/0.6/0.8 |
| GLM-4.7-Flash | 免费 | 免费 | 缓存命中: 免费 |
视觉模型
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| GLM-5V-Turbo | 5 (≤32k) 7 (>32k) | 22 (≤32k) 26 (>32k) | 缓存命中: 1.2 / 1.8 |
| GLM-4.6V | 1 (≤32k) 2 (≤128k) | 3 (≤32k) 6 (≤128k) | 缓存命中: 0.2 / 0.4 |
| GLM-4.6V-Flash | 免费 | 免费 | 缓存命中: 免费 |
缓存存储限时免费。
DeepSeek
数据来源:DeepSeek API Docs
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| DeepSeek-V4-Flash (deepseek-v4-flash) | 1 | 2 | 缓存命中: 0.02 旧 deepseek-chat/reasoner 已映射至此模型 |
| DeepSeek-V4-Pro (deepseek-v4-pro) | 3 (标价 12,当前 2.5 折至 5/31) | 6 (标价 24) | 缓存命中: 0.025 |
火山引擎 (Volcengine)
数据来源:火山方舟大模型服务平台
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| doubao-seed-2.0-pro | 3.2 (≤32k) 4.8 (32k-128k] 9.6 (128k-256k] | 16 (≤32k) 24 (32k-128k] 48 (128k-256k] | 输入缓存命中: 0.64/0.96/1.92 缓存存储: 0.017元/1M/小时 |
| doubao-seed-2.0-lite | 0.6 (≤32k) 0.9 (32k-128k] 1.8 (128k-256k] | 3.6 (≤32k) 5.4 (32k-128k] 10.8 (128k-256k] | 输入缓存命中: 0.12/0.18/0.36 缓存存储: 0.017元/1M/小时 |
| doubao-seed-2.0-mini | 0.2 (≤32k) 0.4 (32k-128k] 0.8 (128k-256k] | 2 (≤32k) 4 (32k-128k] 8 (128k-256k] | 输入缓存命中: 0.04/0.08/0.16 缓存存储: 0.017元/1M/小时 |
| doubao-seed-2.0-code | 3.2 (≤32k) 4.8 (32k-128k] 9.6 (128k-256k] | 16 (≤32k) 24 (32k-128k] 48 (128k-256k] | 输入缓存命中: 0.64/0.96/1.92 缓存存储: 0.017元/1M/小时 |
分段计费说明: 部分模型按输入长度(及输出长度)划分价格区间。例如,请求输入 200k tokens、输出 14k tokens,满足输入长度 (128, 256] 条件,则输入按 2.4 元/百万 token、输出按 24 元/百万 token 单价计费(具体价格以各模型对应区间为准)。
MiniMax
数据来源:MiniMax 开放平台
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| MiniMax-M2.7 | 2.1 | 8.4 | 输入缓存命中: 0.42 缓存写入: 2.625 |
| MiniMax-M2.7-highspeed | 4.2 | 16.8 | 输入缓存命中: 0.42 缓存写入: 2.625 |
| MiniMax-M2.5 | 2.1 | 8.4 | 输入缓存命中: 0.21 缓存写入: 2.625 |
| MiniMax-M2.5-highspeed | 4.2 | 16.8 | 输入缓存命中: 0.21 缓存写入: 2.625 |
月之暗面 (Moonshot AI)
数据来源:Moonshot AI 开放平台
| 模型名称 | 输入价格 (元/1M Tokens) | 输出价格 (元/1M Tokens) | 说明 |
|---|---|---|---|
| kimi-k2.6 | 6.50 | 27.00 | 缓存命中: 1.10 |
| kimi-k2.5 | 4 | 21 | 缓存命中: 0.70 |
| moonshot-v1-8k | 2 | 10 | |
| moonshot-v1-32k | 5 | 20 | |
| moonshot-v1-128k | 10 | 30 |
kimi-k2 系列模型将于 2026 年 5 月 25 日下线,不再维护和支持。|
国外大模型
更新时间:2026-03-02 (单位统一为美元/1M Tokens)
OpenAI
数据来源:OpenAI Pricing (Standard) Short context ≤ 272k tokens,Long context > 272k tokens。无 Long 价格表示仅支持 Short context。
| 模型名称 | 输入 ($) | 缓存输入 ($) | 输出 ($) | 长上下文输入 ($) | 长上下文缓存 ($) | 长上下文输出 ($) |
|---|---|---|---|---|---|---|
| gpt-5.5 | 5.00 | 0.50 | 30.00 | 10.00 | 1.00 | 45.00 |
| gpt-5.5-pro | 30.00 | — | 180.00 | 60.00 | — | 270.00 |
| gpt-5.4 | 2.50 | 0.25 | 15.00 | 5.00 | 0.50 | 22.50 |
| gpt-5.4-mini | 0.75 | 0.075 | 4.50 | — | — | — |
| gpt-5.4-nano | 0.20 | 0.02 | 1.25 | — | — | — |
| gpt-5.4-pro | 30.00 | — | 180.00 | 60.00 | — | 270.00 |
| gpt-4o | 2.50 | 1.25 | 10.00 | — | — | — |
Anthropic (Claude)
数据来源:Claude Pricing
| 模型名称 | 基础输入 ($/1M) | 5m 缓存写入 ($/1M) | 1h 缓存写入 ($/1M) | 缓存读取 ($/1M) | 输出 ($/1M) |
|---|---|---|---|---|---|
| Claude Opus 4.5/4.6/4.7 | 5.00 | 6.25 | 10.00 | 0.50 | 25.00 |
| Claude Sonnet 4.5/4.6 | 3.00 | 3.75 | 6.00 | 0.30 | 15.00 |
| Claude Haiku 4.5 | 1.00 | 1.25 | 2.00 | 0.10 | 5.00 |
提示缓存说明: 提示缓存通过重用之前处理过的提示部分来降低成本和延迟。
- 自动缓存:在请求顶层添加
cache_control字段,系统自动管理缓存断点。- 显式缓存断点:将
cache_control放在单个内容块上,精细控制缓存内容。缓存写入令牌在内容首次存储时收费;缓存读取在后续请求检索缓存内容时收费。
长上下文: Claude Mythos Preview、Opus 4.7、Opus 4.6 和 Sonnet 4.6 包括完整的 100 万令牌上下文窗口,价格为标准定价(90 万令牌的请求按与 9k 令牌请求相同的每令牌费率计费)。提示缓存和批处理折扣在整个上下文窗口中按标准费率应用。
Google (Gemini)
数据来源:Gemini API Pricing
| 模型名称 | 输入价格 ($/1M Tokens) | 输出价格 ($/1M Tokens) | 说明 |
|---|---|---|---|
| Gemini 3.1 Pro (preview) | 2.00 (≤200k) 4.00 (>200k) | 12.00 (≤200k) 18.00 (>200k) | 输入缓存命中: 0.20 / 0.40 缓存存储: 4.50/1M/小时 |
| Gemini 3.1 Flash Image (preview) | 0.25 (文本/图片) | 1.50 (文本/思考) 60.00 (图片) | 面向图像生成的轻量模型 |
| Gemini 3 Flash (preview) | 0.50 (文本/图片/视频) 1.00 (音频) | 3.00 | 输入缓存命中: 0.05 (文本/图片/视频) / 0.10 (音频) 缓存存储: 1.00/1M/小时 |
| Gemini 2.5 Pro | 1.25 (≤200k) 2.50 (>200k) | 10.00 (≤200k) 15.00 (>200k) | 输入缓存命中: 0.125 / 0.25 缓存存储: 4.50/1M/小时 |
| Gemini 2.5 Flash | 0.30 (文本/图片/视频) 1.00 (音频) | 2.50 | 输入缓存命中: 0.03 (文本/图片/视频) / 0.10 (音频) 缓存存储: 1.00/1M/小时 |
| Gemini 3.1 Flash-Lite | 0.25 (文本/图片/视频) 0.50 (音频) | 1.50 | |
| Gemini 2.5 Flash-Lite | 0.10 (文本/图片/视频) 0.30 (音频) | 0.40 | 输入缓存命中: 0.01 (文本/图片/视频) / 0.03 (音频) 缓存存储: 1.00/1M/小时 |
| Gemini 2.5 Computer Use Preview | 1.25 (≤200k) 2.50 (>200k) | 10.00 (≤200k) 15.00 (>200k) | 浏览器控制代理模型 |
文章分享
如果这篇文章对你有帮助,欢迎分享给更多人!