返回开发者专区

Zhipu AI 模型

探索 Zhipu AI 的所有 6 个模型,包括详细定价、优缺点和开发者推荐。

6
模型
$0.050
最低输入价格
1M
最大上下文
3
质量层级

快速推荐

最佳性价比: GLM-4-Flash ($0.050/1M)
最佳质量: GLM-5.1

GLM-5.1

Flagship

复杂编码、长期代理任务、开源部署

官方定价

适用场景: 开源编码助手、内部开发者工具、代理编码工作流,以及需要自托管前沿模型的团队。

核心升级

  • 754B MoE 开放权重 — MIT 许可证,完全商业使用
  • SWE-bench 匹配 GPT-5.4 — 前沿编码性能
  • 针对单个问题 8 小时自主任务执行
  • 反思:迭代内部推理以确保正确性
  • 在自有 GPU 上自托管 — 无供应商锁定
输入价格
$0.830
per 1M tokens
输出价格
$3.31
per 1M tokens
缓存输入
$0.170
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 1M
最大输出: 16,384 tokens
知识截止日期: 2026-04
视觉函数调用微调JSON 模式免费层级

优点

  • 754B MoE 开放权重(MIT 许可证)
  • 在 SWE-bench 编码上匹配 GPT-5.4
  • 8 小时持续自主任务执行
  • 可自托管并拥有完整商业权利
  • 用于深度推理的反思架构

缺点

  • 754B 参数需要大量 GPU 基础设施才能自托管
  • 在通用任务上英语能力弱于封闭前沿模型
  • 基础模型无视觉能力

性能

输出速度~40 tok/s
速率限制3,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU (CN)
91.2%
C-Eval
93.5%
SWE-Verified
78.6%
CMMLU
92.1%

GLM-4.6

Flagship

中文语言任务,企业级AI

官方定价

适用场景: 面向中文市场的企业级应用、客服机器人及内容生成。

核心升级

  • 顶级中文NLU和生成能力——在中文基准测试中超越GPT-4
  • 128K上下文,最大16K输出——同类中最长输出
  • 完整的函数调用支持代理工作流
  • 提供微调功能用于领域适配
  • $0.50/$2.00——价格仅为GPT-4o的一半,具有竞争力
输入价格
$0.500
per 1M tokens
输出价格
$2.00
per 1M tokens
缓存输入
$0.100
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 128K
最大输出: 16,000 tokens
知识截止日期: 2025-03
视觉函数调用微调JSON 模式免费层级

优点

  • 最佳中文语言性能
  • 128K上下文,16K输出
  • 强大的函数调用
  • 支持微调

缺点

  • 英文能力弱于GPT-4
  • 基础模型无视觉功能
  • 生态系统较小

性能

输出速度~60 tok/s
速率限制5,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU (CN)
84.5%
C-Eval
89.2%
CMMLU
88.7%

GLM-4.5

Mid-tier

平衡的中文/英文任务

官方定价

适用场景: 需要良好中英文支持的中档定价双语应用。

核心升级

  • 强大的双语能力:在中文和英文方面均有竞争力
  • 128K上下文,每百万token仅$0.30——经济实惠的长上下文
  • 16K最大输出,适合长文本生成
  • 支持微调定制
输入价格
$0.300
per 1M tokens
输出价格
$1.20
per 1M tokens
缓存输入
$0.080
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 128K
最大输出: 16,000 tokens
知识截止日期: 2025-03
视觉函数调用微调JSON 模式免费层级

优点

  • 强大的双语性能
  • 128K上下文
  • 16K最大输出
  • 高性价比

缺点

  • 不如GLM-4.6强大
  • 无视觉功能
  • 模型生态较小

性能

输出速度~75 tok/s
速率限制8,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU
76.8%
C-Eval
83.1%

GLM-4-Plus

Mid-tier

通用用途,API集成

官方定价

适用场景: 通用API集成、聊天机器人和内容生成,价格经济实惠。

核心升级

  • 适用于大多数用例的多功能中端模型
  • 128K上下文,仅需$0.20/1M输入
  • 完整的函数调用支持工具使用
  • 支持微调
输入价格
$0.200
per 1M tokens
输出价格
$0.800
per 1M tokens
缓存输入
$0.050
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 128K
最大输出: 8,192 tokens
知识截止日期: 2025-03
视觉函数调用微调JSON 模式免费层级

优点

  • 全能型选手
  • 128K上下文
  • 价格实惠
  • 函数调用

缺点

  • 最大输出8K
  • 无视觉能力
  • 复杂推理较弱

性能

输出速度~85 tok/s
速率限制10,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU
73.5%
C-Eval
79.8%

GLM-4-Flash

Lite

高吞吐量、低延迟任务

官方定价

适用场景: 高容量任务,如分类、摘要和简单问答,速度和成本至关重要。

核心升级

  • 最快的GLM模型——针对吞吐量优化
  • $0.05/1M输入——超预算友好
  • 轻量级仍支持128K上下文
  • 免费套餐:每天1M令牌用于开发
输入价格
$0.050
per 1M tokens
输出价格
$0.200
per 1M tokens
缓存输入
$0.010
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 128K
最大输出: 8,192 tokens
知识截止日期: 2025-03
视觉函数调用微调JSON 模式免费层级

优点

  • 极快的推理速度
  • 128K上下文
  • 极低成本
  • 提供免费套餐

缺点

  • 仅支持基础推理
  • 不支持微调
  • 不支持视觉

性能

输出速度~200 tok/s
速率限制30,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU
65.2%
C-Eval
72.1%

GLM-4V-Plus

Mid-tier

中文多模态、文档AI

官方定价

适用场景: 中文文档分析、收据/发票处理以及面向中国市场的视觉问答。

核心升级

  • 原生多模态,强大的中文OCR
  • 文档AI:收据、发票、表单
  • 针对中文内容优化的视觉问答
  • 用于多模态代理工作流的函数调用
输入价格
$0.300
per 1M tokens
输出价格
$1.20
per 1M tokens
缓存输入
$0.080
per 1M tokens
批量输入
per 1M tokens
上下文窗口: 8K
最大输出: 4,096 tokens
知识截止日期: 2025-03
视觉函数调用微调JSON 模式免费层级

优点

  • 原生视觉语言
  • 强大的中文OCR
  • 文档和图表理解
  • 函数调用

缺点

  • 仅8K上下文
  • 最大4K输出
  • 无微调

性能

输出速度~50 tok/s
速率限制3,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMMU (CN)
62.8%
DocVQA
85.3%

并排比较

模型层级输入输出上下文
GLM-5.1Flagship$0.830$3.311M
GLM-4.6Flagship$0.500$2.00128K
GLM-4.5Mid-tier$0.300$1.20128K
GLM-4-PlusMid-tier$0.200$0.800128K
GLM-4-FlashLite$0.050$0.200128K
GLM-4V-PlusMid-tier$0.300$1.208K