Zhipu AI Modelos

Explore todos os 6 modelos de Zhipu AI com preços detalhados, prós e contras e recomendações para desenvolvedores.

Modelos

$0.050

Menor Entrada

Contexto Máximo

Níveis de Qualidade

Recomendações Rápidas

Melhor Custo-Benefício: GLM-4-Flash ($0.050/1M)

Melhor Qualidade: GLM-5.1

GLM-5.1

Flagship

Codificação complexa, tarefas agentivas de longo horizonte, implantação de código aberto

Preços Oficiais

Quando usar: Assistente de codificação de código aberto, ferramentas internas de desenvolvimento, fluxos de trabalho agentivos de codificação e equipes que precisam de modelos auto-hospedáveis com capacidade de fronteira.

Destaques da Atualização

◆754B MoE de peso aberto — licença MIT, uso comercial completo
◆SWE-bench iguala GPT-5.4 — desempenho de codificação de fronteira
◆Execução autônoma de 8 horas em um único problema
◆Ruminação: raciocínio interno iterativo para correção
◆Auto-hospede em suas próprias GPUs — sem dependência de fornecedor

Preço de Entrada

$0.830

per 1M tokens

Preço de Saída

$3.31

per 1M tokens

Entrada em Cache

$0.170

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 1M

Saída Máxima: 16,384 tokens

Corte de Conhecimento: 2026-04

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

754B MoE de peso aberto (licença MIT)
Iguala GPT-5.4 no SWE-bench de codificação
Execução autônoma sustentada por 8 horas
Auto-hospedável com direitos comerciais completos
Arquitetura de ruminação para raciocínio profundo

Contras

754B parâmetros requer infraestrutura substancial de GPU para auto-hospedagem
Inglês mais fraco em comparação com modelos fechados de fronteira em tarefas generalistas
Sem visão no modelo base

Desempenho

Velocidade de saída~40 tok/s

Limite de taxa3,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU (CN)

91.2%

C-Eval

93.5%

SWE-Verified

78.6%

CMMLU

92.1%

GLM-4.6

Flagship

Tarefas em chinês, IA empresarial

Preços Oficiais

Quando usar: Aplicações empresariais em chinês, chatbots de atendimento ao cliente e geração de conteúdo voltada para o mercado chinês.

Destaques da Atualização

◆NLU e geração de chinês de alto nível — supera GPT-4 em benchmarks chineses
◆Contexto de 128K com saída máxima de 16K — maior saída da classe
◆Chamada de função completa para fluxos de agente
◆Ajuste fino disponível para adaptação de domínio
◆$0.50/$2.00 — competitivo com GPT-4o pela metade do preço

Preço de Entrada

$0.500

per 1M tokens

Preço de Saída

$2.00

per 1M tokens

Entrada em Cache

$0.100

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 128K

Saída Máxima: 16,000 tokens

Corte de Conhecimento: 2025-03

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

Melhor desempenho em chinês
Contexto de 128K, saída de 16K
Chamada de função forte
Suporte a ajuste fino

Contras

Inglês mais fraco que GPT-4
Sem visão no modelo base
Ecossistema menor

Desempenho

Velocidade de saída~60 tok/s

Limite de taxa5,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU (CN)

84.5%

C-Eval

89.2%

CMMLU

88.7%

GLM-4.5

Mid-tier

Tarefas equilibradas em chinês/inglês

Preços Oficiais

Quando usar: Aplicações bilíngues que precisam de bom chinês e inglês com preço médio.

Destaques da Atualização

◆Bilíngue forte: competitivo tanto em chinês quanto em inglês
◆Contexto de 128K a $0,30/1M — contexto longo acessível
◆Saída máxima de 16K para geração de texto longo
◆Suporte a fine-tuning para personalização

Preço de Entrada

$0.300

per 1M tokens

Preço de Saída

$1.20

per 1M tokens

Entrada em Cache

$0.080

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 128K

Saída Máxima: 16,000 tokens

Corte de Conhecimento: 2025-03

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

Desempenho bilíngue forte
Contexto de 128K
Saída máxima de 16K
Custo-benefício

Contras

Menos capaz que o GLM-4.6
Sem visão
Ecossistema de modelo menor

Desempenho

Velocidade de saída~75 tok/s

Limite de taxa8,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU

76.8%

C-Eval

83.1%

GLM-4-Plus

Mid-tier

Uso geral, integração de API

Preços Oficiais

Quando usar: Integração de API de uso geral, chatbots e geração de conteúdo com preços acessíveis.

Destaques da Atualização

◆Modelo versátil de nível médio para a maioria dos casos de uso
◆Contexto de 128K por apenas $0,20/1M de entrada
◆Chamada de funções completa para uso de ferramentas
◆Ajuste fino disponível

Preço de Entrada

$0.200

per 1M tokens

Preço de Saída

$0.800

per 1M tokens

Entrada em Cache

$0.050

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 128K

Saída Máxima: 8,192 tokens

Corte de Conhecimento: 2025-03

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

Bom para tudo
Contexto de 128K
Preço acessível
Chamada de funções

Contras

Máximo de 8K de saída
Sem visão
Mais fraco em raciocínio complexo

Desempenho

Velocidade de saída~85 tok/s

Limite de taxa10,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU

73.5%

C-Eval

79.8%

GLM-4-Flash

Lite

Tarefas de alto rendimento e baixa latência

Preços Oficiais

Quando usar: Tarefas de alto volume como classificação, sumarização e perguntas e respostas simples, onde velocidade e custo importam.

Destaques da Atualização

◆Modelo GLM mais rápido — otimizado para rendimento
◆$0.05/1M de entrada — ultra econômico
◆Contexto de 128K apesar da camada leve
◆Camada gratuita: 1M tokens/dia para desenvolvimento

Preço de Entrada

$0.050

per 1M tokens

Preço de Saída

$0.200

per 1M tokens

Entrada em Cache

$0.010

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 128K

Saída Máxima: 8,192 tokens

Corte de Conhecimento: 2025-03

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

Inferência extremamente rápida
Contexto de 128K
Custo muito baixo
Camada gratuita disponível

Contras

Raciocínio básico apenas
Sem ajuste fino
Sem visão

Desempenho

Velocidade de saída~200 tok/s

Limite de taxa30,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU

65.2%

C-Eval

72.1%

GLM-4V-Plus

Mid-tier

Multimodal chinês, IA documental

Preços Oficiais

Quando usar: Análise de documentos chineses, processamento de recibos/faturas e Q&A visual para mercados chineses.

Destaques da Atualização

◆Multimodal nativo com OCR chinês forte
◆IA documental: recibos, faturas, formulários
◆Q&A visual otimizado para conteúdo chinês
◆Chamada de funções para fluxos de trabalho de agente multimodal

Preço de Entrada

$0.300

per 1M tokens

Preço de Saída

$1.20

per 1M tokens

Entrada em Cache

$0.080

per 1M tokens

Entrada em Lote

—

per 1M tokens

Janela de Contexto: 8K

Saída Máxima: 4,096 tokens

Corte de Conhecimento: 2025-03

VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

Visão-linguagem nativa
OCR chinês forte
Compreensão de documentos e gráficos
Chamada de funções

Contras

Apenas contexto de 8K
Máximo de saída de 4K
Sem ajuste fino

Desempenho

Velocidade de saída~50 tok/s

Limite de taxa3,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMMU (CN)

62.8%

DocVQA

85.3%

Comparação Lado a Lado

Modelo	Nível	Entrada	Saída	Em Cache	Contexto	Saída Máxima
GLM-5.1	Flagship	$0.830	$3.31	$0.170	1M	16,384
GLM-4.6	Flagship	$0.500	$2.00	$0.100	128K	16,000
GLM-4.5	Mid-tier	$0.300	$1.20	$0.080	128K	16,000
GLM-4-Plus	Mid-tier	$0.200	$0.800	$0.050	128K	8,192
GLM-4-Flash	Lite	$0.050	$0.200	$0.010	128K	8,192
GLM-4V-Plus	Mid-tier	$0.300	$1.20	$0.080	8K	4,096