Alibaba Cloud Modèles

Explorez les 11 modèles de Alibaba Cloud avec des prix détaillés, avantages et inconvénients, et recommandations pour développeurs.

Modèles

$0.0000

Entrée la moins chère

Contexte max

Niveaux de qualité

Recommandations rapides

Meilleur rapport qualité-prix: Qwen-RobotWorld ($0.0000/1M)

Meilleure qualité: Qwen3.7-Max

Qwen3.7-Max

Flagship

Flux de travail d'agents à long terme, agents de codage, raisonnement complexe

Tarifs officiels

Quand l'utiliser: Charges de travail d'agents de pointe nécessitant de longues exécutions autonomes, des tâches de codage complexes en plusieurs étapes et une analyse de recherche approfondie.

Points clés de la mise à niveau

◆Contexte de 1M de tokens — supprime les limites sur le travail d'agent avec documents lourds
◆Sortie maximale de 65K — génération massive en un seul tour
◆Optimisation autonome du noyau de 35 heures (1 158 appels d'outils)
◆SWE-Verified 80.4, LiveCodeBench 91.6 — rivalise avec Claude Opus 4.6
◆Compatible avec les API OpenAI + Anthropic — remplacement direct

Prix d'entrée

$2.50

per 1M tokens

Prix de sortie

$7.50

per 1M tokens

Entrée en cache

$0.250

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 1M

Sortie max: 65,536 tokens

Date de coupure des connaissances: 2026-05

VisionAppel de fonctionAjustement finMode JSON

Avantages

Fenêtre de contexte de 1M pour le travail d'agent avec documents lourds
Sortie maximale de 65K — la plus longue de la famille Qwen
Compatibilité multi-harnais (Claude Code, OpenClaw, Qwen Code)
Exécution autonome de 35 heures
Compétitif avec Claude Opus 4.6 sur les benchmarks de codage

Inconvénients

Propriétaire — pas de poids ouverts ni d'auto-hébergement
Coût plus élevé que la gamme Qwen 3.6
Pas de support visuel
Accès uniquement par API

Performance

Vitesse de sortie~55 tok/s

Limite de débit2,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU-Pro

89.6%

LiveCodeBench

91.6%

SWE-Verified

80.4%

GPQA Diamond

92.4%

Agents utilisant ce modèle

QoderWork Qoder Cloud Agents JVS Agent Suite

Qwen3.7-Plus

Mid-tier

Tâches multimodales, déploiement d'agents rentable

Tarifs officiels

Quand l'utiliser: Déploiements multimodaux rentables nécessitant la compréhension de vidéos et d'images en plus du texte, avec des exigences de contexte long.

Points clés de la mise à niveau

◆Entrée multimodale : texte + vidéo + image dans un seul modèle
◆Contexte de 1M à 0,40 $/1M — 6 fois moins cher que Qwen3.7-Max
◆Capacité d'agent solide à un coût intermédiaire
◆API compatible OpenAI

Prix d'entrée

$0.400

per 1M tokens

Prix de sortie

$1.60

per 1M tokens

Entrée en cache

$0.100

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 1M

Sortie max: 16,384 tokens

Date de coupure des connaissances: 2026-05

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Contexte de 1M à un prix intermédiaire
Multimodal : entrée texte, vidéo et image
Bon équilibre vitesse-capacité
Propriétaire mais très abordable

Inconvénients

Propriétaire — pas d'auto-hébergement
Moins performant que Qwen3.7-Max pour le raisonnement complexe
Sortie max de 16K

Performance

Vitesse de sortie~80 tok/s

Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU-Pro

84.2%

LiveCodeBench

78.5%

MMMU

72.1%

Qwen3-235B-A22B

Flagship

Raisonnement complexe, tâches multilingues

Tarifs officiels

Quand l'utiliser: Meilleur rapport qualité-prix pour les charges de travail multilingues, le raisonnement complexe et les déploiements de production sensibles aux coûts.

Points clés de la mise à niveau

◆Architecture MoE : 235B paramètres, seulement 22B actifs — classe GPT-4 à 1/10 du prix
◆Contexte 131K — gère les longs documents et les bases de code
◆Support de 100+ langues — meilleur de sa catégorie pour les tâches non anglaises
◆Open-source : poids complets sur HuggingFace pour auto-hébergement
◆0,40 $ / 1,20 $ par million de tokens — sous-cote GPT-4o de 90 %

Prix d'entrée

$0.400

per 1M tokens

Prix de sortie

$1.20

per 1M tokens

Entrée en cache

$0.100

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

MoE 235B total / 22B actif — performances de pointe à faible coût
Fenêtre de contexte de 131K
Multilingue puissant (100+ langues)
Poids open-source disponibles

Inconvénients

Pas de support visuel
Sortie max de 8K tokens
Moins d'intégration écosystème que GPT-4

Performance

Vitesse de sortie~70 tok/s

Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

86.8%

LiveCodeBench

63.7%

IFEval

86.2%

Agents utilisant ce modèle

Smolagents Dify

Qwen3-30B-A3B

Mid-tier

Inférence multilingue efficace

Tarifs officiels

Quand l'utiliser: Tâches multilingues à haut débit où le rapport coût-efficacité est primordial.

Points clés de la mise à niveau

◆Seulement 3B paramètres actifs — fonctionne sur GPU grand public
◆Contexte 131K à 0,15 $/1M d'entrée — option la moins chère pour longs contextes
◆Open-source pour une personnalisation complète
◆Forte capacité d'appel de fonctions pour workflows d'agents

Prix d'entrée

$0.150

per 1M tokens

Prix de sortie

$0.600

per 1M tokens

Entrée en cache

$0.040

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

MoE 30B total / 3B actif — ultra-efficace
Contexte 131K
Excellent rapport qualité-prix
Open-source

Inconvénients

Paramètres actifs plus petits limitent le raisonnement complexe
Pas de vision
Sortie max 8K

Performance

Vitesse de sortie~120 tok/s

Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

78.5%

LiveCodeBench

48.2%

Qwen3-32B

Mid-tier

Performance et coût équilibrés

Tarifs officiels

Quand l'utiliser: Quand vous avez besoin de performances fiables d'un modèle dense pour le codage et les tâches générales.

Points clés de la mise à niveau

◆Architecture Dense 32B — pas de surcharge de routage MoE
◆Contexte 131K pour le contenu long
◆Codage solide : LiveCodeBench 55,3%
◆Open-source avec support complet HuggingFace

Prix d'entrée

$0.200

per 1M tokens

Prix de sortie

$0.600

per 1M tokens

Entrée en cache

$0.050

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Dense 32B — performances constantes
Contexte 131K
Forte capacité de codage
Open-source

Inconvénients

Pas de vision
Sortie max 8K
Latence plus élevée que les variantes MoE

Performance

Vitesse de sortie~65 tok/s

Limite de débit5,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

83.2%

LiveCodeBench

55.3%

Qwen3-14B

Lite

Tâches générales légères

Tarifs officiels

Quand l'utiliser: Option économique pour la synthèse, la traduction et les questions-réponses simples.

Points clés de la mise à niveau

◆14B dense — tient sur un seul GPU
◆Contexte de 131K à seulement 0,10 $/1M d'entrée
◆Assez bon pour la plupart des tâches quotidiennes
◆Open-source pour le fine-tuning

Prix d'entrée

$0.100

per 1M tokens

Prix de sortie

$0.300

per 1M tokens

Entrée en cache

$0.030

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Modèle dense compact de 14B
Contexte de 131K
Coût très bas
Open-source

Inconvénients

Raisonnement complexe limité
Pas de vision
Sortie max de 8K

Performance

Vitesse de sortie~90 tok/s

Limite de débit10,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

77.1%

LiveCodeBench

42.8%

Qwen3-8B

Lite

Déploiement en périphérie, tâches simples

Tarifs officiels

Quand l'utiliser: Appareils en périphérie, déploiement local ou traitement par lots à très faible coût.

Points clés de la mise à niveau

◆Paramètres 8B — fonctionne sur RTX 3060 ou équivalent
◆0,05 $/1M d'entrée — parmi les moins chers disponibles
◆Contexte 131K malgré la petite taille
◆Idéal pour le déploiement local/hors ligne

Prix d'entrée

$0.050

per 1M tokens

Prix de sortie

$0.150

per 1M tokens

Entrée en cache

$0.010

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Petit 8B — fonctionne sur GPU d'ordinateur portable
Contexte 131K
Extrêmement bon marché
Open-source

Inconvénients

Raisonnement basique uniquement
Pas de vision
Sortie max 8K

Performance

Vitesse de sortie~150 tok/s

Limite de débit20,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMLU

71.5%

LiveCodeBench

33.1%

Qwen-VL-Plus

Mid-tier

Compréhension multimodale, analyse de documents

Tarifs officiels

Quand l'utiliser: Analyse de documents, légendes d'images, Q&A visuel et pipelines RAG multimodaux.

Points clés de la mise à niveau

◆Multimodal natif — traite images et texte ensemble
◆Contexte 131K pour documents multi-pages
◆OCR puissant : compréhension de graphiques, tableaux et diagrammes
◆VQA multilingue dans plus de 100 langues

Prix d'entrée

$0.200

per 1M tokens

Prix de sortie

$0.800

per 1M tokens

Entrée en cache

$0.050

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 131K

Sortie max: 8,192 tokens

Date de coupure des connaissances: 2025-04

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Modèle natif vision-langage
Contexte 131K avec images
Forte OCR et compréhension de graphiques
VQA multilingue

Inconvénients

Pas de fine-tuning
Sortie max 8K
Coût plus élevé que Qwen3 text-only

Performance

Vitesse de sortie~55 tok/s

Limite de débit3,000 RPM

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Benchmarks

MMMU

68.2%

MathVista

62.5%

Qwen-RobotManip

Flagship

Manipulation robotique, contrôle de main dextre

Tarifs officiels

Quand l'utiliser: Pour les tâches de manipulation robotique : préhension, assemblage et contrôle de main dextre dans des contextes de recherche et industriels.

Points clés de la mise à niveau

◆Premier modèle de manipulation VLA Qwen-Robot
◆Plus de 38 100 heures de données d'entraînement open-source
◆Espace d'état-action unifié entre les types de robots
◆Contrôle de pose incrémentiel de l'effecteur final dans le repère caméra
◆Fait partie de la suite complète Qwen-Robot (Manip + Nav + World)

Prix d'entrée

$0.0000

per 1M tokens

Prix de sortie

$0.0000

per 1M tokens

Entrée en cache

—

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 0

Sortie max: 0 tokens

Date de coupure des connaissances: 2026-06

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Modèle VLA pour une manipulation robotique précise
Plus de 38 100 heures d'entraînement à partir de données open-source
Support multi-types de robots via un espace d'action unifié
Open-source sous licence Apache 2.0

Inconvénients

Spécialisé pour la robotique — pas un LLM général
Nécessite du matériel robotique ou un simulateur pour le déploiement
Pas de capacités de génération de texte
Très récent — adoption communautaire limitée

Performance

Vitesse de sortie—

Limite de débit—

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Qwen-RobotNav

Flagship

Navigation robotique, planification de trajectoire, mobilité autonome

Tarifs officiels

Quand l'utiliser: Pour la navigation de robots mobiles : suivi d'instructions, navigation par point, suivi d'objets et tâches de conduite autonome.

Points clés de la mise à niveau

◆Modèle VLN : navigation vision-langage pour agents physiques
◆Unifie 4 types de tâches : instruction, point/objectif, suivi, conduite
◆Encodage d'observation contrôlé + interface d'outils
◆Open-source : poids complets pour personnalisation
◆Partie de la suite complète Qwen-Robot (Manip + Nav + World)

Prix d'entrée

$0.0000

per 1M tokens

Prix de sortie

$0.0000

per 1M tokens

Entrée en cache

—

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 0

Sortie max: 0 tokens

Date de coupure des connaissances: 2026-06

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Modèle VLN unifiant 4 types de tâches de navigation
Encodage d'observation contrôlé pour la conscience spatiale 3D
Couvre le suivi d'instructions, la navigation par point/objectif, le suivi et la conduite
Open-source sous licence Apache 2.0

Inconvénients

Spécialisé uniquement pour la navigation robotique
Nécessite du matériel robotique ou un simulateur
Pas de génération de texte
Très récent — validation réelle limitée

Performance

Vitesse de sortie—

Limite de débit—

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Qwen-RobotWorld

Flagship

Prédiction du monde physique, planification robotique

Tarifs officiels

Quand l'utiliser: Pour la planification robotique et la simulation du monde : prédire les résultats des actions dans des scénarios de manipulation, conduite et navigation.

Points clés de la mise à niveau

◆Modèle du monde : prédit des futurs physiquement plausibles
◆Trans-scène : fonctionne en manipulation, conduite, navigation
◆Interface d'action en langage naturel
◆Open-source : poids complets pour la recherche et le déploiement
◆Partie de la suite complète Qwen-Robot (Manip + Nav + World)

Prix d'entrée

$0.0000

per 1M tokens

Prix de sortie

$0.0000

per 1M tokens

Entrée en cache

—

per 1M tokens

Entrée batch

—

per 1M tokens

Fenêtre de contexte: 0

Sortie max: 0 tokens

Date de coupure des connaissances: 2026-06

VisionAppel de fonctionAjustement finMode JSONNiveau gratuit

Avantages

Modèle du monde pour prédire des futurs physiquement plausibles
Trans-scène : manipulation, conduite et navigation
Interface d'action en langage naturel pour un contrôle intuitif
Open-source sous licence Apache 2.0

Inconvénients

Spécialisé uniquement pour la simulation du monde
Pas de génération de texte ni de contrôle robotique
Nécessite une intégration avec Manip/Nav pour une pile complète
Très récent — peu de benchmarks disponibles

Performance

Vitesse de sortie—

Limite de débit—

Multimodal

Entrée imageSortie imageEntrée audioSortie audio

Comparaison côte à côte

Modèle	Niveau	Entrée	Sortie	En cache	Contexte	Sortie max
Qwen3.7-Max	Flagship	$2.50	$7.50	$0.250	1M	65,536
Qwen3.7-Plus	Mid-tier	$0.400	$1.60	$0.100	1M	16,384
Qwen3-235B-A22B	Flagship	$0.400	$1.20	$0.100	131K	8,192
Qwen3-30B-A3B	Mid-tier	$0.150	$0.600	$0.040	131K	8,192
Qwen3-32B	Mid-tier	$0.200	$0.600	$0.050	131K	8,192
Qwen3-14B	Lite	$0.100	$0.300	$0.030	131K	8,192
Qwen3-8B	Lite	$0.050	$0.150	$0.010	131K	8,192
Qwen-VL-Plus	Mid-tier	$0.200	$0.800	$0.050	131K	8,192
Qwen-RobotManip	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotNav	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotWorld	Flagship	$0.0000	$0.0000	—	0	0