Zhipu AI Modèles

Explorez les 6 modèles de Zhipu AI avec des prix détaillés, avantages et inconvénients, et recommandations pour développeurs.

Modèles

$0.050

Entrée la moins chère

Contexte max

Niveaux de qualité

Recommandations rapides

Meilleur rapport qualité-prix: GLM-4-Flash ($0.050/1M)

Meilleure qualité: GLM-5.1

GLM-5.1

Flagship

Codage complexe, tâches agentiques à long horizon, déploiement open-source

Tarifs officiels

Quand l'utiliser: Assistant de codage open-source, outils de développement internes, workflows de codage agentiques, et équipes ayant besoin de modèles frontaliers auto-hébergés.

Points clés de la mise à niveau

◆754B MoE open-weight — licence MIT, usage commercial complet
◆SWE-bench égal à GPT-5.4 — performance de codage frontalière
◆Exécution autonome de tâches pendant 8 heures sur un seul problème
◆Rumination : raisonnement interne itératif pour la correction
◆Auto-hébergement sur vos propres GPU — pas de dépendance envers un fournisseur

Prix d'entrée

$0.830

per 1M tokens

Prix de sortie

$3.31

per 1M tokens

Entrée en cache

$0.170

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 1M

Sortie max: 16,384 tokens

Date de coupure des connaissances: 2026-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

754B MoE open-weight (licence MIT)
Égal à GPT-5.4 sur SWE-bench en codage
Exécution autonome de tâches pendant 8 heures
Auto-hébergement avec droits commerciaux complets
Architecture de rumination pour un raisonnement profond

Inconvénients

754B paramètres nécessite une infrastructure GPU conséquente pour l'auto-hébergement
Anglais moins performant que les modèles frontaliers fermés sur les tâches généralistes
Pas de vision sur le modèle de base

Performance

Vitesse de sortie~40 tok/s

Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU (CN)

91.2%

C-Eval

93.5%

SWE-Verified

78.6%

CMMLU

92.1%

GLM-4.6

Flagship

Tâches en langue chinoise, IA d'entreprise

Tarifs officiels

Quand l'utiliser: Applications d'entreprise en langue chinoise, chatbots de service client et génération de contenu ciblant les marchés chinois.

Points clés de la mise à niveau

◆NLU et génération chinoises de premier ordre — bat GPT-4 sur les benchmarks chinois
◆Contexte de 128K avec sortie max de 16K — sortie la plus longue de sa catégorie
◆Appel de fonction complet pour les workflows d'agents
◆Réglage fin disponible pour l'adaptation au domaine
◆0,50 $/2,00 $ — compétitif avec GPT-4o à moitié prix

Prix d'entrée

$0.500

per 1M tokens

Prix de sortie

$2.00

per 1M tokens

Entrée en cache

$0.100

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 128K

Sortie max: 16,000 tokens

Date de coupure des connaissances: 2025-03

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Meilleure performance en langue chinoise
Contexte de 128K, sortie de 16K
Appel de fonction puissant
Support de réglage fin

Inconvénients

Anglais plus faible que GPT-4
Pas de vision sur le modèle de base
Écosystème plus petit

Performance

Vitesse de sortie~60 tok/s

Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU (CN)

84.5%

C-Eval

89.2%

CMMLU

88.7%

GLM-4.5

Mid-tier

Tâches équilibrées chinois/anglais

Tarifs officiels

Quand l'utiliser: Applications bilingues nécessitant un bon chinois et anglais à un prix milieu de gamme.

Points clés de la mise à niveau

◆Bilingue solide : compétitif en chinois et en anglais
◆Contexte 128K à 0,30 $/1M — contexte long abordable
◆Sortie max 16K pour génération longue
◆Support de fine-tuning pour personnalisation

Prix d'entrée

$0.300

per 1M tokens

Prix de sortie

$1.20

per 1M tokens

Entrée en cache

$0.080

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 128K

Sortie max: 16,000 tokens

Date de coupure des connaissances: 2025-03

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Performances bilingues solides
Contexte 128K
Sortie max 16K
Rentable

Inconvénients

Moins performant que GLM-4.6
Pas de vision
Écosystème de modèles plus restreint

Performance

Vitesse de sortie~75 tok/s

Limite de débit8,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

76.8%

C-Eval

83.1%

GLM-4-Plus

Mid-tier

Usage général, intégration API

Tarifs officiels

Quand l'utiliser: Intégration API polyvalente, chatbots et génération de contenu à un prix économique.

Points clés de la mise à niveau

◆Modèle intermédiaire polyvalent pour la plupart des cas d'utilisation
◆Contexte 128K à seulement 0,20 $/1M d'entrée
◆Appel de fonctions complet pour l'utilisation d'outils
◆Ajustement fin disponible

Prix d'entrée

$0.200

per 1M tokens

Prix de sortie

$0.800

per 1M tokens

Entrée en cache

$0.050

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 128K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-03

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Bon polyvalent
Contexte 128K
Prix abordable
Appel de fonctions

Inconvénients

Sortie max 8K
Pas de vision
Plus faible en raisonnement complexe

Performance

Vitesse de sortie~85 tok/s

Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

73.5%

C-Eval

79.8%

GLM-4-Flash

Lite

Tâches à haut débit et faible latence

Tarifs officiels

Quand l'utiliser: Tâches à volume élevé comme la classification, la synthèse et les Q&A simples où la vitesse et le coût comptent.

Points clés de la mise à niveau

◆Modèle GLM le plus rapide — optimisé pour le débit
◆0,05 $/1M d’entrées — ultra économique
◆Contexte de 128K malgré le niveau léger
◆Niveau gratuit : 1M de tokens/jour pour le développement

Prix d'entrée

$0.050

per 1M tokens

Prix de sortie

$0.200

per 1M tokens

Entrée en cache

$0.010

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 128K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-03

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Inférence extrêmement rapide
Contexte de 128K
Coût très bas
Niveau gratuit disponible

Inconvénients

Raisonnement basique uniquement
Pas de fine-tuning
Pas de vision

Performance

Vitesse de sortie~200 tok/s

Limite de débit30,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

65.2%

C-Eval

72.1%

GLM-4V-Plus

Mid-tier

Multimodal chinois, IA documentaire

Tarifs officiels

Quand l'utiliser: Analyse de documents chinois, traitement de reçus/factures et Q&A visuelle pour les marchés chinois.

Points clés de la mise à niveau

◆Multimodal natif avec OCR chinois performant
◆IA documentaire : reçus, factures, formulaires
◆Q&A visuelle optimisée pour le contenu chinois
◆Appel de fonctions pour workflows agents multimodaux

Prix d'entrée

$0.300

per 1M tokens

Prix de sortie

$1.20

per 1M tokens

Entrée en cache

$0.080

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 8K

Sortie max: 4,096 tokens

Date de coupure des connaissances: 2025-03

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Vision-langage natif
OCR chinois performant
Compréhension de documents et graphiques
Appel de fonctions

Inconvénients

Contexte limité à 8K
Sortie max 4K
Pas de fine-tuning

Performance

Vitesse de sortie~50 tok/s

Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMMU (CN)

62.8%

DocVQA

85.3%

Comparaison côte à côte

Modèle	Niveau	Entrée	Sortie	En cache	Contexte	Sortie max
GLM-5.1	Flagship	$0.830	$3.31	$0.170	1M	16,384
GLM-4.6	Flagship	$0.500	$2.00	$0.100	128K	16,000
GLM-4.5	Mid-tier	$0.300	$1.20	$0.080	128K	16,000
GLM-4-Plus	Mid-tier	$0.200	$0.800	$0.050	128K	8,192
GLM-4-Flash	Lite	$0.050	$0.200	$0.010	128K	8,192
GLM-4V-Plus	Mid-tier	$0.300	$1.20	$0.080	8K	4,096