Retour à l'espace développeur

Alibaba Cloud Modèles

Explorez les 11 modèles de Alibaba Cloud avec des prix détaillés, avantages et inconvénients, et recommandations pour développeurs.

11
Modèles
$0.0000
Entrée la moins chère
1M
Contexte max
3
Niveaux de qualité

Recommandations rapides

Meilleur rapport qualité-prix: Qwen-RobotWorld ($0.0000/1M)
Meilleure qualité: Qwen3.7-Max

Qwen3.7-Max

Flagship

Flux de travail d'agents à long terme, agents de codage, raisonnement complexe

Tarifs officiels

Quand l'utiliser: Charges de travail d'agents de pointe nécessitant de longues exécutions autonomes, des tâches de codage complexes en plusieurs étapes et une analyse de recherche approfondie.

Points clés de la mise à niveau

  • Contexte de 1M de tokens — supprime les limites sur le travail d'agent avec documents lourds
  • Sortie maximale de 65K — génération massive en un seul tour
  • Optimisation autonome du noyau de 35 heures (1 158 appels d'outils)
  • SWE-Verified 80.4, LiveCodeBench 91.6 — rivalise avec Claude Opus 4.6
  • Compatible avec les API OpenAI + Anthropic — remplacement direct
Prix d'entrée
$2.50
per 1M tokens
Prix de sortie
$7.50
per 1M tokens
Entrée en cache
$0.250
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 1M
Sortie max: 65,536 tokens
Date de coupure des connaissances: 2026-05
VisionAppel de fonctionAjustement finMode JSON

Avantages

  • Fenêtre de contexte de 1M pour le travail d'agent avec documents lourds
  • Sortie maximale de 65K — la plus longue de la famille Qwen
  • Compatibilité multi-harnais (Claude Code, OpenClaw, Qwen Code)
  • Exécution autonome de 35 heures
  • Compétitif avec Claude Opus 4.6 sur les benchmarks de codage

Inconvénients

  • Propriétaire — pas de poids ouverts ni d'auto-hébergement
  • Coût plus élevé que la gamme Qwen 3.6
  • Pas de support visuel
  • Accès uniquement par API

Performance

Vitesse de sortie~55 tok/s
Limite de débit2,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU-Pro
89.6%
LiveCodeBench
91.6%
SWE-Verified
80.4%
GPQA Diamond
92.4%

Agents utilisant ce modèle

3

Qwen3.7-Plus

Mid-tier

Tâches multimodales, déploiement d'agents rentable

Tarifs officiels

Quand l'utiliser: Déploiements multimodaux rentables nécessitant la compréhension de vidéos et d'images en plus du texte, avec des exigences de contexte long.

Points clés de la mise à niveau

  • Entrée multimodale : texte + vidéo + image dans un seul modèle
  • Contexte de 1M à 0,40 $/1M — 6 fois moins cher que Qwen3.7-Max
  • Capacité d'agent solide à un coût intermédiaire
  • API compatible OpenAI
Prix d'entrée
$0.400
per 1M tokens
Prix de sortie
$1.60
per 1M tokens
Entrée en cache
$0.100
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 1M
Sortie max: 16,384 tokens
Date de coupure des connaissances: 2026-05
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Contexte de 1M à un prix intermédiaire
  • Multimodal : entrée texte, vidéo et image
  • Bon équilibre vitesse-capacité
  • Propriétaire mais très abordable

Inconvénients

  • Propriétaire — pas d'auto-hébergement
  • Moins performant que Qwen3.7-Max pour le raisonnement complexe
  • Sortie max de 16K

Performance

Vitesse de sortie~80 tok/s
Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU-Pro
84.2%
LiveCodeBench
78.5%
MMMU
72.1%

Qwen3-235B-A22B

Flagship

Raisonnement complexe, tâches multilingues

Tarifs officiels

Quand l'utiliser: Meilleur rapport qualité-prix pour les charges de travail multilingues, le raisonnement complexe et les déploiements de production sensibles aux coûts.

Points clés de la mise à niveau

  • Architecture MoE : 235B paramètres, seulement 22B actifs — classe GPT-4 à 1/10 du prix
  • Contexte 131K — gère les longs documents et les bases de code
  • Support de 100+ langues — meilleur de sa catégorie pour les tâches non anglaises
  • Open-source : poids complets sur HuggingFace pour auto-hébergement
  • 0,40 $ / 1,20 $ par million de tokens — sous-cote GPT-4o de 90 %
Prix d'entrée
$0.400
per 1M tokens
Prix de sortie
$1.20
per 1M tokens
Entrée en cache
$0.100
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • MoE 235B total / 22B actif — performances de pointe à faible coût
  • Fenêtre de contexte de 131K
  • Multilingue puissant (100+ langues)
  • Poids open-source disponibles

Inconvénients

  • Pas de support visuel
  • Sortie max de 8K tokens
  • Moins d'intégration écosystème que GPT-4

Performance

Vitesse de sortie~70 tok/s
Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
86.8%
LiveCodeBench
63.7%
IFEval
86.2%

Agents utilisant ce modèle

2

Qwen3-30B-A3B

Mid-tier

Inférence multilingue efficace

Tarifs officiels

Quand l'utiliser: Tâches multilingues à haut débit où le rapport coût-efficacité est primordial.

Points clés de la mise à niveau

  • Seulement 3B paramètres actifs — fonctionne sur GPU grand public
  • Contexte 131K à 0,15 $/1M d'entrée — option la moins chère pour longs contextes
  • Open-source pour une personnalisation complète
  • Forte capacité d'appel de fonctions pour workflows d'agents
Prix d'entrée
$0.150
per 1M tokens
Prix de sortie
$0.600
per 1M tokens
Entrée en cache
$0.040
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • MoE 30B total / 3B actif — ultra-efficace
  • Contexte 131K
  • Excellent rapport qualité-prix
  • Open-source

Inconvénients

  • Paramètres actifs plus petits limitent le raisonnement complexe
  • Pas de vision
  • Sortie max 8K

Performance

Vitesse de sortie~120 tok/s
Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
78.5%
LiveCodeBench
48.2%

Qwen3-32B

Mid-tier

Performance et coût équilibrés

Tarifs officiels

Quand l'utiliser: Quand vous avez besoin de performances fiables d'un modèle dense pour le codage et les tâches générales.

Points clés de la mise à niveau

  • Architecture Dense 32B — pas de surcharge de routage MoE
  • Contexte 131K pour le contenu long
  • Codage solide : LiveCodeBench 55,3%
  • Open-source avec support complet HuggingFace
Prix d'entrée
$0.200
per 1M tokens
Prix de sortie
$0.600
per 1M tokens
Entrée en cache
$0.050
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Dense 32B — performances constantes
  • Contexte 131K
  • Forte capacité de codage
  • Open-source

Inconvénients

  • Pas de vision
  • Sortie max 8K
  • Latence plus élevée que les variantes MoE

Performance

Vitesse de sortie~65 tok/s
Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
83.2%
LiveCodeBench
55.3%

Qwen3-14B

Lite

Tâches générales légères

Tarifs officiels

Quand l'utiliser: Option économique pour la synthèse, la traduction et les questions-réponses simples.

Points clés de la mise à niveau

  • 14B dense — tient sur un seul GPU
  • Contexte de 131K à seulement 0,10 $/1M d'entrée
  • Assez bon pour la plupart des tâches quotidiennes
  • Open-source pour le fine-tuning
Prix d'entrée
$0.100
per 1M tokens
Prix de sortie
$0.300
per 1M tokens
Entrée en cache
$0.030
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Modèle dense compact de 14B
  • Contexte de 131K
  • Coût très bas
  • Open-source

Inconvénients

  • Raisonnement complexe limité
  • Pas de vision
  • Sortie max de 8K

Performance

Vitesse de sortie~90 tok/s
Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
77.1%
LiveCodeBench
42.8%

Qwen3-8B

Lite

Déploiement en périphérie, tâches simples

Tarifs officiels

Quand l'utiliser: Appareils en périphérie, déploiement local ou traitement par lots à très faible coût.

Points clés de la mise à niveau

  • Paramètres 8B — fonctionne sur RTX 3060 ou équivalent
  • 0,05 $/1M d'entrée — parmi les moins chers disponibles
  • Contexte 131K malgré la petite taille
  • Idéal pour le déploiement local/hors ligne
Prix d'entrée
$0.050
per 1M tokens
Prix de sortie
$0.150
per 1M tokens
Entrée en cache
$0.010
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Petit 8B — fonctionne sur GPU d'ordinateur portable
  • Contexte 131K
  • Extrêmement bon marché
  • Open-source

Inconvénients

  • Raisonnement basique uniquement
  • Pas de vision
  • Sortie max 8K

Performance

Vitesse de sortie~150 tok/s
Limite de débit20,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU
71.5%
LiveCodeBench
33.1%

Qwen-VL-Plus

Mid-tier

Compréhension multimodale, analyse de documents

Tarifs officiels

Quand l'utiliser: Analyse de documents, légendes d'images, Q&A visuel et pipelines RAG multimodaux.

Points clés de la mise à niveau

  • Multimodal natif — traite images et texte ensemble
  • Contexte 131K pour documents multi-pages
  • OCR puissant : compréhension de graphiques, tableaux et diagrammes
  • VQA multilingue dans plus de 100 langues
Prix d'entrée
$0.200
per 1M tokens
Prix de sortie
$0.800
per 1M tokens
Entrée en cache
$0.050
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 131K
Sortie max: 8,192 tokens
Date de coupure des connaissances: 2025-04
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Modèle natif vision-langage
  • Contexte 131K avec images
  • Forte OCR et compréhension de graphiques
  • VQA multilingue

Inconvénients

  • Pas de fine-tuning
  • Sortie max 8K
  • Coût plus élevé que Qwen3 text-only

Performance

Vitesse de sortie~55 tok/s
Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMMU
68.2%
MathVista
62.5%

Qwen-RobotManip

Flagship

Manipulation robotique, contrôle de main dextre

Tarifs officiels

Quand l'utiliser: Pour les tâches de manipulation robotique : préhension, assemblage et contrôle de main dextre dans des contextes de recherche et industriels.

Points clés de la mise à niveau

  • Premier modèle de manipulation VLA Qwen-Robot
  • Plus de 38 100 heures de données d'entraînement open-source
  • Espace d'état-action unifié entre les types de robots
  • Contrôle de pose incrémentiel de l'effecteur final dans le repère caméra
  • Fait partie de la suite complète Qwen-Robot (Manip + Nav + World)
Prix d'entrée
$0.0000
per 1M tokens
Prix de sortie
$0.0000
per 1M tokens
Entrée en cache
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 0
Sortie max: 0 tokens
Date de coupure des connaissances: 2026-06
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Modèle VLA pour une manipulation robotique précise
  • Plus de 38 100 heures d'entraînement à partir de données open-source
  • Support multi-types de robots via un espace d'action unifié
  • Open-source sous licence Apache 2.0

Inconvénients

  • Spécialisé pour la robotique — pas un LLM général
  • Nécessite du matériel robotique ou un simulateur pour le déploiement
  • Pas de capacités de génération de texte
  • Très récent — adoption communautaire limitée

Performance

Vitesse de sortie
Limite de débit

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Qwen-RobotNav

Flagship

Navigation robotique, planification de trajectoire, mobilité autonome

Tarifs officiels

Quand l'utiliser: Pour la navigation de robots mobiles : suivi d'instructions, navigation par point, suivi d'objets et tâches de conduite autonome.

Points clés de la mise à niveau

  • Modèle VLN : navigation vision-langage pour agents physiques
  • Unifie 4 types de tâches : instruction, point/objectif, suivi, conduite
  • Encodage d'observation contrôlé + interface d'outils
  • Open-source : poids complets pour personnalisation
  • Partie de la suite complète Qwen-Robot (Manip + Nav + World)
Prix d'entrée
$0.0000
per 1M tokens
Prix de sortie
$0.0000
per 1M tokens
Entrée en cache
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 0
Sortie max: 0 tokens
Date de coupure des connaissances: 2026-06
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Modèle VLN unifiant 4 types de tâches de navigation
  • Encodage d'observation contrôlé pour la conscience spatiale 3D
  • Couvre le suivi d'instructions, la navigation par point/objectif, le suivi et la conduite
  • Open-source sous licence Apache 2.0

Inconvénients

  • Spécialisé uniquement pour la navigation robotique
  • Nécessite du matériel robotique ou un simulateur
  • Pas de génération de texte
  • Très récent — validation réelle limitée

Performance

Vitesse de sortie
Limite de débit

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Qwen-RobotWorld

Flagship

Prédiction du monde physique, planification robotique

Tarifs officiels

Quand l'utiliser: Pour la planification robotique et la simulation du monde : prédire les résultats des actions dans des scénarios de manipulation, conduite et navigation.

Points clés de la mise à niveau

  • Modèle du monde : prédit des futurs physiquement plausibles
  • Trans-scène : fonctionne en manipulation, conduite, navigation
  • Interface d'action en langage naturel
  • Open-source : poids complets pour la recherche et le déploiement
  • Partie de la suite complète Qwen-Robot (Manip + Nav + World)
Prix d'entrée
$0.0000
per 1M tokens
Prix de sortie
$0.0000
per 1M tokens
Entrée en cache
per 1M tokens
Entrée batch
per 1M tokens
Fenêtre de contexte: 0
Sortie max: 0 tokens
Date de coupure des connaissances: 2026-06
VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

  • Modèle du monde pour prédire des futurs physiquement plausibles
  • Trans-scène : manipulation, conduite et navigation
  • Interface d'action en langage naturel pour un contrôle intuitif
  • Open-source sous licence Apache 2.0

Inconvénients

  • Spécialisé uniquement pour la simulation du monde
  • Pas de génération de texte ni de contrôle robotique
  • Nécessite une intégration avec Manip/Nav pour une pile complète
  • Très récent — peu de benchmarks disponibles

Performance

Vitesse de sortie
Limite de débit

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Comparaison côte à côte

ModèleNiveauEntréeSortieContexte
Qwen3.7-MaxFlagship$2.50$7.501M
Qwen3.7-PlusMid-tier$0.400$1.601M
Qwen3-235B-A22BFlagship$0.400$1.20131K
Qwen3-30B-A3BMid-tier$0.150$0.600131K
Qwen3-32BMid-tier$0.200$0.600131K
Qwen3-14BLite$0.100$0.300131K
Qwen3-8BLite$0.050$0.150131K
Qwen-VL-PlusMid-tier$0.200$0.800131K
Qwen-RobotManipFlagship$0.0000$0.00000
Qwen-RobotNavFlagship$0.0000$0.00000
Qwen-RobotWorldFlagship$0.0000$0.00000