Retour à l'espace développeur

Zhipu AI Modèles

Explorez les 6 modèles de Zhipu AI avec des prix détaillés, avantages et inconvénients, et recommandations pour développeurs.

6
Modèles
$0.050
Entrée la moins chère
1M
Contexte max
3
Niveaux de qualité

Recommandations rapides

Meilleur rapport qualité-prix: GLM-4-Flash ($0.050/1M)
Meilleure qualité: GLM-5.1

GLM-5.1

Flagship

Codage complexe, tâches agentiques à long horizon, déploiement open-source

Tarifs officiels

Quand l'utiliser: Assistant de codage open-source, outils de développement internes, workflows de codage agentiques, et équipes ayant besoin de modèles frontaliers auto-hébergés.

Points clés de la mise à niveau

  • 754B MoE open-weight — licence MIT, usage commercial complet
  • SWE-bench égal à GPT-5.4 — performance de codage frontalière
  • Exécution autonome de tâches pendant 8 heures sur un seul problème
  • Rumination : raisonnement interne itératif pour la correction
  • Auto-hébergement sur vos propres GPU — pas de dépendance envers un fournisseur
Prix d'entrée
$0.830
per 1M tokens
Prix de sortie
$3.31
per 1M tokens
Entrée en cache
$0.170
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 1M
Sortie max: 16,384 tokens
Date de coupure des connaissances: 2026-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • 754B MoE open-weight (licence MIT)
  • Égal à GPT-5.4 sur SWE-bench en codage
  • Exécution autonome de tâches pendant 8 heures
  • Auto-hébergement avec droits commerciaux complets
  • Architecture de rumination pour un raisonnement profond

Inconvénients

  • 754B paramètres nécessite une infrastructure GPU conséquente pour l'auto-hébergement
  • Anglais moins performant que les modèles frontaliers fermés sur les tâches généralistes
  • Pas de vision sur le modèle de base

Performance

Vitesse de sortie~40 tok/s
Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU (CN)
91.2%
C-Eval
93.5%
SWE-Verified
78.6%
CMMLU
92.1%

GLM-4.6

Flagship

Tâches en langue chinoise, IA d'entreprise

Tarifs officiels

Quand l'utiliser: Applications d'entreprise en langue chinoise, chatbots de service client et génération de contenu ciblant les marchés chinois.

Points clés de la mise à niveau

  • NLU et génération chinoises de premier ordre — bat GPT-4 sur les benchmarks chinois
  • Contexte de 128K avec sortie max de 16K — sortie la plus longue de sa catégorie
  • Appel de fonction complet pour les workflows d'agents
  • Réglage fin disponible pour l'adaptation au domaine
  • 0,50 $/2,00 $ — compétitif avec GPT-4o à moitié prix
Prix d'entrée
$0.500
per 1M tokens
Prix de sortie
$2.00
per 1M tokens
Entrée en cache
$0.100
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 128K
Sortie max: 16,000 tokens
Date de coupure des connaissances: 2025-03
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Meilleure performance en langue chinoise
  • Contexte de 128K, sortie de 16K
  • Appel de fonction puissant
  • Support de réglage fin

Inconvénients

  • Anglais plus faible que GPT-4
  • Pas de vision sur le modèle de base
  • Écosystème plus petit

Performance

Vitesse de sortie~60 tok/s
Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU (CN)
84.5%
C-Eval
89.2%
CMMLU
88.7%

GLM-4.5

Mid-tier

Tâches équilibrées chinois/anglais

Tarifs officiels

Quand l'utiliser: Applications bilingues nécessitant un bon chinois et anglais à un prix milieu de gamme.

Points clés de la mise à niveau

  • Bilingue solide : compétitif en chinois et en anglais
  • Contexte 128K à 0,30 $/1M — contexte long abordable
  • Sortie max 16K pour génération longue
  • Support de fine-tuning pour personnalisation
Prix d'entrée
$0.300
per 1M tokens
Prix de sortie
$1.20
per 1M tokens
Entrée en cache
$0.080
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 128K
Sortie max: 16,000 tokens
Date de coupure des connaissances: 2025-03
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Performances bilingues solides
  • Contexte 128K
  • Sortie max 16K
  • Rentable

Inconvénients

  • Moins performant que GLM-4.6
  • Pas de vision
  • Écosystème de modèles plus restreint

Performance

Vitesse de sortie~75 tok/s
Limite de débit8,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
76.8%
C-Eval
83.1%

GLM-4-Plus

Mid-tier

Usage général, intégration API

Tarifs officiels

Quand l'utiliser: Intégration API polyvalente, chatbots et génération de contenu à un prix économique.

Points clés de la mise à niveau

  • Modèle intermédiaire polyvalent pour la plupart des cas d'utilisation
  • Contexte 128K à seulement 0,20 $/1M d'entrée
  • Appel de fonctions complet pour l'utilisation d'outils
  • Ajustement fin disponible
Prix d'entrée
$0.200
per 1M tokens
Prix de sortie
$0.800
per 1M tokens
Entrée en cache
$0.050
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 128K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-03
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Bon polyvalent
  • Contexte 128K
  • Prix abordable
  • Appel de fonctions

Inconvénients

  • Sortie max 8K
  • Pas de vision
  • Plus faible en raisonnement complexe

Performance

Vitesse de sortie~85 tok/s
Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
73.5%
C-Eval
79.8%

GLM-4-Flash

Lite

Tâches à haut débit et faible latence

Tarifs officiels

Quand l'utiliser: Tâches à volume élevé comme la classification, la synthèse et les Q&A simples où la vitesse et le coût comptent.

Points clés de la mise à niveau

  • Modèle GLM le plus rapide — optimisé pour le débit
  • 0,05 $/1M d’entrées — ultra économique
  • Contexte de 128K malgré le niveau léger
  • Niveau gratuit : 1M de tokens/jour pour le développement
Prix d'entrée
$0.050
per 1M tokens
Prix de sortie
$0.200
per 1M tokens
Entrée en cache
$0.010
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 128K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-03
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Inférence extrêmement rapide
  • Contexte de 128K
  • Coût très bas
  • Niveau gratuit disponible

Inconvénients

  • Raisonnement basique uniquement
  • Pas de fine-tuning
  • Pas de vision

Performance

Vitesse de sortie~200 tok/s
Limite de débit30,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
65.2%
C-Eval
72.1%

GLM-4V-Plus

Mid-tier

Multimodal chinois, IA documentaire

Tarifs officiels

Quand l'utiliser: Analyse de documents chinois, traitement de reçus/factures et Q&A visuelle pour les marchés chinois.

Points clés de la mise à niveau

  • Multimodal natif avec OCR chinois performant
  • IA documentaire : reçus, factures, formulaires
  • Q&A visuelle optimisée pour le contenu chinois
  • Appel de fonctions pour workflows agents multimodaux
Prix d'entrée
$0.300
per 1M tokens
Prix de sortie
$1.20
per 1M tokens
Entrée en cache
$0.080
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 8K
Sortie max: 4,096 tokens
Date de coupure des connaissances: 2025-03
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Vision-langage natif
  • OCR chinois performant
  • Compréhension de documents et graphiques
  • Appel de fonctions

Inconvénients

  • Contexte limité à 8K
  • Sortie max 4K
  • Pas de fine-tuning

Performance

Vitesse de sortie~50 tok/s
Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMMU (CN)
62.8%
DocVQA
85.3%

Comparaison côte à côte

ModèleNiveauEntréeSortieContexte
GLM-5.1Flagship$0.830$3.311M
GLM-4.6Flagship$0.500$2.00128K
GLM-4.5Mid-tier$0.300$1.20128K
GLM-4-PlusMid-tier$0.200$0.800128K
GLM-4-FlashLite$0.050$0.200128K
GLM-4V-PlusMid-tier$0.300$1.208K