Zhipu AI Modelos

Explora todos los 6 modelos de Zhipu AI con precios detallados, ventajas y desventajas, y recomendaciones para desarrolladores.

Modelos

$0.050

Entrada Más Baja

Contexto Máximo

Niveles de Calidad

Recomendaciones Rápidas

Mejor Relación Calidad-Precio: GLM-4-Flash ($0.050/1M)

Mejor Calidad: GLM-5.1

GLM-5.1

Flagship

Codificación compleja, tareas agénticas de largo plazo, despliegue open-source

Precios Oficiales

Cuándo usar: Asistente de codificación open-source, herramientas de desarrollo internas, flujos de trabajo de codificación agénticos, y equipos que necesitan modelos fronterizos autoalojados.

Mejoras clave

◆754B MoE open-weight — licencia MIT, uso comercial completo
◆SWE-bench iguala a GPT-5.4 — rendimiento de codificación fronterizo
◆Ejecución autónoma de tareas durante 8 horas en un solo problema
◆Rumiación: razonamiento interno iterativo para corrección
◆Autoalojamiento en tus propias GPU — sin dependencia de proveedor

Precio de Entrada

$0.830

per 1M tokens

Precio de Salida

$3.31

per 1M tokens

Entrada en Caché

$0.170

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 1M

Salida Máxima: 16,384 tokens

Fecha de Corte de Conocimiento: 2026-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

754B MoE open-weight (licencia MIT)
Iguala a GPT-5.4 en SWE-bench de codificación
Ejecución autónoma de tareas durante 8 horas
Autoalojable con derechos comerciales completos
Arquitectura de rumiación para razonamiento profundo

Desventajas

754B parámetros requiere infraestructura GPU sustancial para autoalojarse
Inglés más débil que los modelos fronterizos cerrados en tareas generalistas
Sin visión en el modelo base

Rendimiento

Velocidad de salida~40 tok/s

Límite de tasa3,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU (CN)

91.2%

C-Eval

93.5%

SWE-Verified

78.6%

CMMLU

92.1%

GLM-4.6

Flagship

Tareas en idioma chino, IA empresarial

Precios Oficiales

Cuándo usar: Aplicaciones empresariales en idioma chino, chatbots de atención al cliente y generación de contenido dirigido a mercados chinos.

Mejoras clave

◆NLU y generación chinas de primer nivel — supera a GPT-4 en benchmarks chinos
◆Contexto de 128K con salida máxima de 16K — salida más larga en su clase
◆Llamada a función completa para flujos de trabajo de agentes
◆Ajuste fino disponible para adaptación a dominio
◆$0.50/$2.00 — competitivo con GPT-4o a la mitad del precio

Precio de Entrada

$0.500

per 1M tokens

Precio de Salida

$2.00

per 1M tokens

Entrada en Caché

$0.100

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 128K

Salida Máxima: 16,000 tokens

Fecha de Corte de Conocimiento: 2025-03

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Mejor rendimiento en idioma chino
Contexto de 128K, salida de 16K
Llamada a función potente
Soporte de ajuste fino

Desventajas

Inglés más débil que GPT-4
Sin visión en el modelo base
Ecosistema más pequeño

Rendimiento

Velocidad de salida~60 tok/s

Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU (CN)

84.5%

C-Eval

89.2%

CMMLU

88.7%

GLM-4.5

Mid-tier

Tareas equilibradas chino/inglés

Precios Oficiales

Cuándo usar: Aplicaciones bilingües que necesiten buen chino e inglés a precio medio.

Mejoras clave

◆Bilingüe sólido: competitivo tanto en chino como en inglés
◆Contexto 128K a $0.30/1M — contexto largo asequible
◆Salida máxima 16K para generación de texto largo
◆Soporte de fine-tuning para personalización

Precio de Entrada

$0.300

per 1M tokens

Precio de Salida

$1.20

per 1M tokens

Entrada en Caché

$0.080

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 128K

Salida Máxima: 16,000 tokens

Fecha de Corte de Conocimiento: 2025-03

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Rendimiento bilingüe sólido
Contexto 128K
Salida máxima 16K
Rentable

Desventajas

Menos capaz que GLM-4.6
Sin visión
Ecosistema de modelos más pequeño

Rendimiento

Velocidad de salida~75 tok/s

Límite de tasa8,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

76.8%

C-Eval

83.1%

GLM-4-Plus

Mid-tier

Uso general, integración API

Precios Oficiales

Cuándo usar: Integración API de uso general, chatbots y generación de contenido a un precio económico.

Mejoras clave

◆Modelo versátil de gama media para la mayoría de los casos de uso
◆Contexto 128K por solo $0.20/1M de entrada
◆Llamada a funciones completa para uso de herramientas
◆Ajuste fino disponible

Precio de Entrada

$0.200

per 1M tokens

Precio de Salida

$0.800

per 1M tokens

Entrada en Caché

$0.050

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 128K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-03

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Buen todoterreno
Contexto 128K
Precio asequible
Llamada a funciones

Desventajas

Salida máxima de 8K
Sin visión
Más débil en razonamiento complejo

Rendimiento

Velocidad de salida~85 tok/s

Límite de tasa10,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

73.5%

C-Eval

79.8%

GLM-4-Flash

Lite

Tareas de alto rendimiento y baja latencia

Precios Oficiales

Cuándo usar: Tareas de alto volumen como clasificación, resumen y preguntas y respuestas simples donde la velocidad y el costo importan.

Mejoras clave

◆Modelo GLM más rápido — optimizado para rendimiento
◆$0.05/1M de entrada — ultra económico
◆Contexto de 128K a pesar del nivel ligero
◆Nivel gratuito: 1M de tokens/día para desarrollo

Precio de Entrada

$0.050

per 1M tokens

Precio de Salida

$0.200

per 1M tokens

Entrada en Caché

$0.010

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 128K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-03

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Inferencia extremadamente rápida
Contexto de 128K
Costo muy bajo
Nivel gratuito disponible

Desventajas

Razonamiento básico solamente
Sin ajuste fino
Sin visión

Rendimiento

Velocidad de salida~200 tok/s

Límite de tasa30,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

65.2%

C-Eval

72.1%

GLM-4V-Plus

Mid-tier

Multimodal chino, IA documental

Precios Oficiales

Cuándo usar: Análisis de documentos chinos, procesamiento de recibos/facturas y Q&A visual para mercados chinos.

Mejoras clave

◆Multimodal nativo con OCR chino potente
◆IA documental: recibos, facturas, formularios
◆Q&A visual optimizada para contenido chino
◆Llamada a funciones para flujos de trabajo de agentes multimodales

Precio de Entrada

$0.300

per 1M tokens

Precio de Salida

$1.20

per 1M tokens

Entrada en Caché

$0.080

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 8K

Salida Máxima: 4,096 tokens

Fecha de Corte de Conocimiento: 2025-03

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Visión-lenguaje nativo
OCR chino potente
Comprensión de documentos y gráficos
Llamada a funciones

Desventajas

Contexto de solo 8K
Salida máxima de 4K
Sin ajuste fino

Rendimiento

Velocidad de salida~50 tok/s

Límite de tasa3,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMMU (CN)

62.8%

DocVQA

85.3%

Comparación Lado a Lado

Modelo	Nivel	Entrada	Salida	En Caché	Contexto	Salida Máxima
GLM-5.1	Flagship	$0.830	$3.31	$0.170	1M	16,384
GLM-4.6	Flagship	$0.500	$2.00	$0.100	128K	16,000
GLM-4.5	Mid-tier	$0.300	$1.20	$0.080	128K	16,000
GLM-4-Plus	Mid-tier	$0.200	$0.800	$0.050	128K	8,192
GLM-4-Flash	Lite	$0.050	$0.200	$0.010	128K	8,192
GLM-4V-Plus	Mid-tier	$0.300	$1.20	$0.080	8K	4,096