Voltar à Zona do Desenvolvedor

Zhipu AI Modelos

Explore todos os 6 modelos de Zhipu AI com preços detalhados, prós e contras e recomendações para desenvolvedores.

6
Modelos
$0.050
Menor Entrada
1M
Contexto Máximo
3
Níveis de Qualidade

Recomendações Rápidas

Melhor Custo-Benefício: GLM-4-Flash ($0.050/1M)
Melhor Qualidade: GLM-5.1

GLM-5.1

Flagship

Codificação complexa, tarefas agentivas de longo horizonte, implantação de código aberto

Preços Oficiais

Quando usar: Assistente de codificação de código aberto, ferramentas internas de desenvolvimento, fluxos de trabalho agentivos de codificação e equipes que precisam de modelos auto-hospedáveis com capacidade de fronteira.

Destaques da Atualização

  • 754B MoE de peso aberto — licença MIT, uso comercial completo
  • SWE-bench iguala GPT-5.4 — desempenho de codificação de fronteira
  • Execução autônoma de 8 horas em um único problema
  • Ruminação: raciocínio interno iterativo para correção
  • Auto-hospede em suas próprias GPUs — sem dependência de fornecedor
Preço de Entrada
$0.830
per 1M tokens
Preço de Saída
$3.31
per 1M tokens
Entrada em Cache
$0.170
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 1M
Saída Máxima: 16,384 tokens
Corte de Conhecimento: 2026-04
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • 754B MoE de peso aberto (licença MIT)
  • Iguala GPT-5.4 no SWE-bench de codificação
  • Execução autônoma sustentada por 8 horas
  • Auto-hospedável com direitos comerciais completos
  • Arquitetura de ruminação para raciocínio profundo

Contras

  • 754B parâmetros requer infraestrutura substancial de GPU para auto-hospedagem
  • Inglês mais fraco em comparação com modelos fechados de fronteira em tarefas generalistas
  • Sem visão no modelo base

Desempenho

Velocidade de saída~40 tok/s
Limite de taxa3,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU (CN)
91.2%
C-Eval
93.5%
SWE-Verified
78.6%
CMMLU
92.1%

GLM-4.6

Flagship

Tarefas em chinês, IA empresarial

Preços Oficiais

Quando usar: Aplicações empresariais em chinês, chatbots de atendimento ao cliente e geração de conteúdo voltada para o mercado chinês.

Destaques da Atualização

  • NLU e geração de chinês de alto nível — supera GPT-4 em benchmarks chineses
  • Contexto de 128K com saída máxima de 16K — maior saída da classe
  • Chamada de função completa para fluxos de agente
  • Ajuste fino disponível para adaptação de domínio
  • $0.50/$2.00 — competitivo com GPT-4o pela metade do preço
Preço de Entrada
$0.500
per 1M tokens
Preço de Saída
$2.00
per 1M tokens
Entrada em Cache
$0.100
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 128K
Saída Máxima: 16,000 tokens
Corte de Conhecimento: 2025-03
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • Melhor desempenho em chinês
  • Contexto de 128K, saída de 16K
  • Chamada de função forte
  • Suporte a ajuste fino

Contras

  • Inglês mais fraco que GPT-4
  • Sem visão no modelo base
  • Ecossistema menor

Desempenho

Velocidade de saída~60 tok/s
Limite de taxa5,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU (CN)
84.5%
C-Eval
89.2%
CMMLU
88.7%

GLM-4.5

Mid-tier

Tarefas equilibradas em chinês/inglês

Preços Oficiais

Quando usar: Aplicações bilíngues que precisam de bom chinês e inglês com preço médio.

Destaques da Atualização

  • Bilíngue forte: competitivo tanto em chinês quanto em inglês
  • Contexto de 128K a $0,30/1M — contexto longo acessível
  • Saída máxima de 16K para geração de texto longo
  • Suporte a fine-tuning para personalização
Preço de Entrada
$0.300
per 1M tokens
Preço de Saída
$1.20
per 1M tokens
Entrada em Cache
$0.080
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 128K
Saída Máxima: 16,000 tokens
Corte de Conhecimento: 2025-03
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • Desempenho bilíngue forte
  • Contexto de 128K
  • Saída máxima de 16K
  • Custo-benefício

Contras

  • Menos capaz que o GLM-4.6
  • Sem visão
  • Ecossistema de modelo menor

Desempenho

Velocidade de saída~75 tok/s
Limite de taxa8,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU
76.8%
C-Eval
83.1%

GLM-4-Plus

Mid-tier

Uso geral, integração de API

Preços Oficiais

Quando usar: Integração de API de uso geral, chatbots e geração de conteúdo com preços acessíveis.

Destaques da Atualização

  • Modelo versátil de nível médio para a maioria dos casos de uso
  • Contexto de 128K por apenas $0,20/1M de entrada
  • Chamada de funções completa para uso de ferramentas
  • Ajuste fino disponível
Preço de Entrada
$0.200
per 1M tokens
Preço de Saída
$0.800
per 1M tokens
Entrada em Cache
$0.050
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 128K
Saída Máxima: 8,192 tokens
Corte de Conhecimento: 2025-03
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • Bom para tudo
  • Contexto de 128K
  • Preço acessível
  • Chamada de funções

Contras

  • Máximo de 8K de saída
  • Sem visão
  • Mais fraco em raciocínio complexo

Desempenho

Velocidade de saída~85 tok/s
Limite de taxa10,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU
73.5%
C-Eval
79.8%

GLM-4-Flash

Lite

Tarefas de alto rendimento e baixa latência

Preços Oficiais

Quando usar: Tarefas de alto volume como classificação, sumarização e perguntas e respostas simples, onde velocidade e custo importam.

Destaques da Atualização

  • Modelo GLM mais rápido — otimizado para rendimento
  • $0.05/1M de entrada — ultra econômico
  • Contexto de 128K apesar da camada leve
  • Camada gratuita: 1M tokens/dia para desenvolvimento
Preço de Entrada
$0.050
per 1M tokens
Preço de Saída
$0.200
per 1M tokens
Entrada em Cache
$0.010
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 128K
Saída Máxima: 8,192 tokens
Corte de Conhecimento: 2025-03
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • Inferência extremamente rápida
  • Contexto de 128K
  • Custo muito baixo
  • Camada gratuita disponível

Contras

  • Raciocínio básico apenas
  • Sem ajuste fino
  • Sem visão

Desempenho

Velocidade de saída~200 tok/s
Limite de taxa30,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMLU
65.2%
C-Eval
72.1%

GLM-4V-Plus

Mid-tier

Multimodal chinês, IA documental

Preços Oficiais

Quando usar: Análise de documentos chineses, processamento de recibos/faturas e Q&A visual para mercados chineses.

Destaques da Atualização

  • Multimodal nativo com OCR chinês forte
  • IA documental: recibos, faturas, formulários
  • Q&A visual otimizado para conteúdo chinês
  • Chamada de funções para fluxos de trabalho de agente multimodal
Preço de Entrada
$0.300
per 1M tokens
Preço de Saída
$1.20
per 1M tokens
Entrada em Cache
$0.080
per 1M tokens
Entrada em Lote
per 1M tokens
Janela de Contexto: 8K
Saída Máxima: 4,096 tokens
Corte de Conhecimento: 2025-03
VisãoChamada de FunçãoAjuste FinoModo JSONNível Gratuito

Prós

  • Visão-linguagem nativa
  • OCR chinês forte
  • Compreensão de documentos e gráficos
  • Chamada de funções

Contras

  • Apenas contexto de 8K
  • Máximo de saída de 4K
  • Sem ajuste fino

Desempenho

Velocidade de saída~50 tok/s
Limite de taxa3,000 RPM

Multimodal

Entrada de imagemSaída de imagemEntrada de áudioSaída de áudio

Benchmarks

MMMU (CN)
62.8%
DocVQA
85.3%

Comparação Lado a Lado

ModeloNívelEntradaSaídaContexto
GLM-5.1Flagship$0.830$3.311M
GLM-4.6Flagship$0.500$2.00128K
GLM-4.5Mid-tier$0.300$1.20128K
GLM-4-PlusMid-tier$0.200$0.800128K
GLM-4-FlashLite$0.050$0.200128K
GLM-4V-PlusMid-tier$0.300$1.208K