Zhipu AI 模型

探索 Zhipu AI 的所有 6 个模型，包括详细定价、优缺点和开发者推荐。

模型

$0.050

最低输入价格

最大上下文

质量层级

快速推荐

最佳性价比: GLM-4-Flash ($0.050/1M)

最佳质量: GLM-5.1

GLM-5.1

Flagship

复杂编码、长期代理任务、开源部署

官方定价

适用场景: 开源编码助手、内部开发者工具、代理编码工作流，以及需要自托管前沿模型的团队。

核心升级

◆754B MoE 开放权重 — MIT 许可证，完全商业使用
◆SWE-bench 匹配 GPT-5.4 — 前沿编码性能
◆针对单个问题 8 小时自主任务执行
◆反思：迭代内部推理以确保正确性
◆在自有 GPU 上自托管 — 无供应商锁定

输入价格

$0.830

per 1M tokens

输出价格

$3.31

per 1M tokens

缓存输入

$0.170

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 1M

最大输出: 16,384 tokens

知识截止日期: 2026-04

视觉函数调用微调JSON 模式免费层级

优点

754B MoE 开放权重（MIT 许可证）
在 SWE-bench 编码上匹配 GPT-5.4
8 小时持续自主任务执行
可自托管并拥有完整商业权利
用于深度推理的反思架构

缺点

754B 参数需要大量 GPU 基础设施才能自托管
在通用任务上英语能力弱于封闭前沿模型
基础模型无视觉能力

性能

输出速度~40 tok/s

速率限制3,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU (CN)

91.2%

C-Eval

93.5%

SWE-Verified

78.6%

CMMLU

92.1%

GLM-4.6

Flagship

中文语言任务，企业级AI

官方定价

适用场景: 面向中文市场的企业级应用、客服机器人及内容生成。

核心升级

◆顶级中文NLU和生成能力——在中文基准测试中超越GPT-4
◆128K上下文，最大16K输出——同类中最长输出
◆完整的函数调用支持代理工作流
◆提供微调功能用于领域适配
◆$0.50/$2.00——价格仅为GPT-4o的一半，具有竞争力

输入价格

$0.500

per 1M tokens

输出价格

$2.00

per 1M tokens

缓存输入

$0.100

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 128K

最大输出: 16,000 tokens

知识截止日期: 2025-03

视觉函数调用微调JSON 模式免费层级

优点

最佳中文语言性能
128K上下文，16K输出
强大的函数调用
支持微调

缺点

英文能力弱于GPT-4
基础模型无视觉功能
生态系统较小

性能

输出速度~60 tok/s

速率限制5,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU (CN)

84.5%

C-Eval

89.2%

CMMLU

88.7%

GLM-4.5

Mid-tier

平衡的中文/英文任务

官方定价

适用场景: 需要良好中英文支持的中档定价双语应用。

核心升级

◆强大的双语能力：在中文和英文方面均有竞争力
◆128K上下文，每百万token仅$0.30——经济实惠的长上下文
◆16K最大输出，适合长文本生成
◆支持微调定制

输入价格

$0.300

per 1M tokens

输出价格

$1.20

per 1M tokens

缓存输入

$0.080

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 128K

最大输出: 16,000 tokens

知识截止日期: 2025-03

视觉函数调用微调JSON 模式免费层级

优点

强大的双语性能
128K上下文
16K最大输出
高性价比

缺点

不如GLM-4.6强大
无视觉功能
模型生态较小

性能

输出速度~75 tok/s

速率限制8,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

76.8%

C-Eval

83.1%

GLM-4-Plus

Mid-tier

通用用途，API集成

官方定价

适用场景: 通用API集成、聊天机器人和内容生成，价格经济实惠。

核心升级

◆适用于大多数用例的多功能中端模型
◆128K上下文，仅需$0.20/1M输入
◆完整的函数调用支持工具使用
◆支持微调

输入价格

$0.200

per 1M tokens

输出价格

$0.800

per 1M tokens

缓存输入

$0.050

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 128K

最大输出: 8,192 tokens

知识截止日期: 2025-03

视觉函数调用微调JSON 模式免费层级

优点

全能型选手
128K上下文
价格实惠
函数调用

缺点

最大输出8K
无视觉能力
复杂推理较弱

性能

输出速度~85 tok/s

速率限制10,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

73.5%

C-Eval

79.8%

GLM-4-Flash

Lite

高吞吐量、低延迟任务

官方定价

适用场景: 高容量任务，如分类、摘要和简单问答，速度和成本至关重要。

核心升级

◆最快的GLM模型——针对吞吐量优化
◆$0.05/1M输入——超预算友好
◆轻量级仍支持128K上下文
◆免费套餐：每天1M令牌用于开发

输入价格

$0.050

per 1M tokens

输出价格

$0.200

per 1M tokens

缓存输入

$0.010

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 128K

最大输出: 8,192 tokens

知识截止日期: 2025-03

视觉函数调用微调JSON 模式免费层级

优点

极快的推理速度
128K上下文
极低成本
提供免费套餐

缺点

仅支持基础推理
不支持微调
不支持视觉

性能

输出速度~200 tok/s

速率限制30,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

65.2%

C-Eval

72.1%

GLM-4V-Plus

Mid-tier

中文多模态、文档AI

官方定价

适用场景: 中文文档分析、收据/发票处理以及面向中国市场的视觉问答。

核心升级

◆原生多模态，强大的中文OCR
◆文档AI：收据、发票、表单
◆针对中文内容优化的视觉问答
◆用于多模态代理工作流的函数调用

输入价格

$0.300

per 1M tokens

输出价格

$1.20

per 1M tokens

缓存输入

$0.080

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 8K

最大输出: 4,096 tokens

知识截止日期: 2025-03

视觉函数调用微调JSON 模式免费层级

优点

原生视觉语言
强大的中文OCR
文档和图表理解
函数调用

缺点

仅8K上下文
最大4K输出
无微调

性能

输出速度~50 tok/s

速率限制3,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMMU (CN)

62.8%

DocVQA

85.3%

并排比较

模型	层级	输入	输出	缓存	上下文	最大输出
GLM-5.1	Flagship	$0.830	$3.31	$0.170	1M	16,384
GLM-4.6	Flagship	$0.500	$2.00	$0.100	128K	16,000
GLM-4.5	Mid-tier	$0.300	$1.20	$0.080	128K	16,000
GLM-4-Plus	Mid-tier	$0.200	$0.800	$0.050	128K	8,192
GLM-4-Flash	Lite	$0.050	$0.200	$0.010	128K	8,192
GLM-4V-Plus	Mid-tier	$0.300	$1.20	$0.080	8K	4,096