Alibaba Cloud Modelos

Explora todos los 11 modelos de Alibaba Cloud con precios detallados, ventajas y desventajas, y recomendaciones para desarrolladores.

Modelos

$0.0000

Entrada Más Baja

Contexto Máximo

Niveles de Calidad

Recomendaciones Rápidas

Mejor Relación Calidad-Precio: Qwen-RobotWorld ($0.0000/1M)

Mejor Calidad: Qwen3.7-Max

Qwen3.7-Max

Flagship

Flujos de trabajo de agentes a largo plazo, agentes de codificación, razonamiento complejo

Precios Oficiales

Cuándo usar: Cargas de trabajo de agentes de frontera que requieren largas ejecuciones autónomas, tareas de codificación complejas de múltiples pasos y análisis de investigación profunda.

Mejoras clave

◆Contexto de 1M de tokens — elimina los límites en el trabajo de agente con documentos pesados
◆Salida máxima de 65K — generación masiva en un solo turno
◆Optimización autónoma del núcleo de 35 horas (1,158 llamadas a herramientas)
◆SWE-Verified 80.4, LiveCodeBench 91.6 — rivaliza con Claude Opus 4.6
◆Compatible con las API de OpenAI + Anthropic — reemplazo directo

Precio de Entrada

$2.50

per 1M tokens

Precio de Salida

$7.50

per 1M tokens

Entrada en Caché

$0.250

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 1M

Salida Máxima: 65,536 tokens

Fecha de Corte de Conocimiento: 2026-05

VisiónLlamada a FunciónAjuste FinoModo JSON

Ventajas

Ventana de contexto de 1M para trabajo de agente con documentos pesados
Salida máxima de 65K — la más larga de la familia Qwen
Compatibilidad multi-arness (Claude Code, OpenClaw, Qwen Code)
Ejecución autónoma de 35 horas
Competitivo con Claude Opus 4.6 en benchmarks de codificación

Desventajas

Propietario — sin pesos abiertos ni autoalojamiento
Costo más alto que la línea Qwen 3.6
Sin soporte de visión
Acceso solo por API

Rendimiento

Velocidad de salida~55 tok/s

Límite de tasa2,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU-Pro

89.6%

LiveCodeBench

91.6%

SWE-Verified

80.4%

GPQA Diamond

92.4%

Agentes que usan este modelo

QoderWork Qoder Cloud Agents JVS Agent Suite

Qwen3.7-Plus

Mid-tier

Tareas multimodales, implementación rentable de agentes

Precios Oficiales

Cuándo usar: Implementaciones multimodales rentables que necesitan comprensión de video e imagen junto con texto, con requisitos de contexto largo.

Mejoras clave

◆Entrada multimodal: texto + video + imagen en un solo modelo
◆Contexto de 1M a $0.40/1M — 6 veces más barato que Qwen3.7-Max
◆Fuerte capacidad de agente a costo de gama media
◆API compatible con OpenAI

Precio de Entrada

$0.400

per 1M tokens

Precio de Salida

$1.60

per 1M tokens

Entrada en Caché

$0.100

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 1M

Salida Máxima: 16,384 tokens

Fecha de Corte de Conocimiento: 2026-05

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Contexto de 1M a precio de gama media
Multimodal: entrada de texto, video e imagen
Fuerte equilibrio velocidad-capacidad
Propietario pero muy asequible

Desventajas

Propietario — sin autoalojamiento
Menos capaz que Qwen3.7-Max en razonamiento complejo
Salida máxima de 16K

Rendimiento

Velocidad de salida~80 tok/s

Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU-Pro

84.2%

LiveCodeBench

78.5%

MMMU

72.1%

Qwen3-235B-A22B

Flagship

Razonamiento complejo, tareas multilingües

Precios Oficiales

Cuándo usar: Mejor valor insignia para cargas de trabajo multilingües, razonamiento complejo y despliegues de producción sensibles al costo.

Mejoras clave

◆Arquitectura MoE: 235B parámetros, solo 22B activos — clase GPT-4 a 1/10 del precio
◆Contexto 131K — maneja documentos largos y bases de código
◆Soporte de 100+ idiomas — mejor de su clase para tareas no inglesas
◆Código abierto: pesos completos en HuggingFace para autoalojamiento
◆$0.40/$1.20 por 1M tokens — subcotiza a GPT-4o en un 90%

Precio de Entrada

$0.400

per 1M tokens

Precio de Salida

$1.20

per 1M tokens

Entrada en Caché

$0.100

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

MoE 235B total / 22B activo — rendimiento insignia a bajo costo
Ventana de contexto de 131K
Multilingüe potente (100+ idiomas)
Pesos de código abierto disponibles

Desventajas

Sin soporte de visión
Salida máxima de 8K tokens
Menos integración de ecosistema que GPT-4

Rendimiento

Velocidad de salida~70 tok/s

Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

86.8%

LiveCodeBench

63.7%

IFEval

86.2%

Agentes que usan este modelo

Smolagents Dify

Qwen3-30B-A3B

Mid-tier

Inferencia multilingüe eficiente

Precios Oficiales

Cuándo usar: Tareas multilingües de alto rendimiento donde la eficiencia de costos es lo más importante.

Mejoras clave

◆Solo 3B parámetros activos — funciona en GPU de consumo
◆Contexto 131K a $0.15/1M de entrada — opción más barata para contexto largo
◆Código abierto para personalización total
◆Fuerte llamada a funciones para flujos de trabajo de agentes

Precio de Entrada

$0.150

per 1M tokens

Precio de Salida

$0.600

per 1M tokens

Entrada en Caché

$0.040

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

MoE 30B total / 3B activo — ultraeficiente
Contexto 131K
Excelente relación costo-rendimiento
Código abierto

Desventajas

Parámetros activos más pequeños limitan el razonamiento complejo
Sin visión
Salida máxima de 8K

Rendimiento

Velocidad de salida~120 tok/s

Límite de tasa10,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

78.5%

LiveCodeBench

48.2%

Qwen3-32B

Mid-tier

Rendimiento y costo equilibrados

Precios Oficiales

Cuándo usar: Cuando necesitas un rendimiento confiable de modelo denso para codificación y tareas generales.

Mejoras clave

◆Arquitectura Densa 32B — sin sobrecarga de enrutamiento MoE
◆Contexto 131K para contenido extenso
◆Codificación sólida: LiveCodeBench 55,3%
◆Open-source con soporte completo de HuggingFace

Precio de Entrada

$0.200

per 1M tokens

Precio de Salida

$0.600

per 1M tokens

Entrada en Caché

$0.050

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Denso 32B — rendimiento consistente
Contexto 131K
Fuerte capacidad de codificación
Open-source

Desventajas

Sin visión
Salida máxima de 8K
Latencia más alta que las variantes MoE

Rendimiento

Velocidad de salida~65 tok/s

Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

83.2%

LiveCodeBench

55.3%

Qwen3-14B

Lite

Tareas generales ligeras

Precios Oficiales

Cuándo usar: Opción económica para resumen, traducción y preguntas y respuestas simples.

Mejoras clave

◆14B denso — cabe en una sola GPU
◆Contexto de 131K por solo $0.10/1M de entrada
◆Suficientemente bueno para la mayoría de las tareas diarias
◆Código abierto para ajuste fino

Precio de Entrada

$0.100

per 1M tokens

Precio de Salida

$0.300

per 1M tokens

Entrada en Caché

$0.030

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Modelo denso compacto de 14B
Contexto de 131K
Costo muy bajo
Código abierto

Desventajas

Razonamiento complejo limitado
Sin visión
Salida máxima de 8K

Rendimiento

Velocidad de salida~90 tok/s

Límite de tasa10,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

77.1%

LiveCodeBench

42.8%

Qwen3-8B

Lite

Implementación en el borde, tareas simples

Precios Oficiales

Cuándo usar: Dispositivos en el borde, implementación local o procesamiento por lotes de costo ultrabajo.

Mejoras clave

◆Parámetros 8B — funciona en RTX 3060 o equivalente
◆$0.05/1M de entrada — entre los más baratos disponibles
◆Contexto 131K a pesar del tamaño pequeño
◆Ideal para implementación local/fuera de línea

Precio de Entrada

$0.050

per 1M tokens

Precio de Salida

$0.150

per 1M tokens

Entrada en Caché

$0.010

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Pequeño 8B — funciona en GPU de portátil
Contexto 131K
Extremadamente barato
Código abierto

Desventajas

Razonamiento básico solamente
Sin visión
Salida máxima de 8K

Rendimiento

Velocidad de salida~150 tok/s

Límite de tasa20,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU

71.5%

LiveCodeBench

33.1%

Qwen-VL-Plus

Mid-tier

Comprensión multimodal, análisis de documentos

Precios Oficiales

Cuándo usar: Análisis de documentos, subtitulado de imágenes, preguntas y respuestas visuales y pipelines RAG multimodales.

Mejoras clave

◆Multimodal nativo — procesa imágenes y texto juntos
◆Contexto 131K para documentos de varias páginas
◆OCR potente: comprensión de gráficos, tablas y diagramas
◆VQA multilingüe en más de 100 idiomas

Precio de Entrada

$0.200

per 1M tokens

Precio de Salida

$0.800

per 1M tokens

Entrada en Caché

$0.050

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 131K

Salida Máxima: 8,192 tokens

Fecha de Corte de Conocimiento: 2025-04

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Modelo nativo visión-lenguaje
Contexto 131K con imágenes
Fuerte OCR y comprensión de gráficos
VQA multilingüe

Desventajas

Sin ajuste fino
Salida máxima de 8K
Costo más alto que Qwen3 solo texto

Rendimiento

Velocidad de salida~55 tok/s

Límite de tasa3,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMMU

68.2%

MathVista

62.5%

Qwen-RobotManip

Flagship

Manipulación robótica, control de mano diestra

Precios Oficiales

Cuándo usar: Para tareas de manipulación robótica: agarre, ensamblaje y control de mano diestra en entornos de investigación e industriales.

Mejoras clave

◆Primer modelo de manipulación VLA Qwen-Robot
◆Más de 38 100 horas de datos de entrenamiento de código abierto
◆Espacio de estado-acción unificado entre tipos de robot
◆Control de pose incremental del efector final en el marco de la cámara
◆Parte del conjunto completo Qwen-Robot Suite (Manip + Nav + World)

Precio de Entrada

$0.0000

per 1M tokens

Precio de Salida

$0.0000

per 1M tokens

Entrada en Caché

—

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 0

Salida Máxima: 0 tokens

Fecha de Corte de Conocimiento: 2026-06

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Modelo VLA para manipulación robótica precisa
Más de 38 100 horas de entrenamiento con datos de código abierto
Soporte multi-tipo de robot mediante espacio de acción unificado
Código abierto bajo licencia Apache 2.0

Desventajas

Especializado en robótica — no es un LLM general
Requiere hardware robótico o un simulador para su implementación
Sin capacidades de generación de texto
Muy nuevo — adopción comunitaria limitada

Rendimiento

Velocidad de salida—

Límite de tasa—

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Qwen-RobotNav

Flagship

Navegación robótica, planificación de rutas, movilidad autónoma

Precios Oficiales

Cuándo usar: Para navegación de robots móviles: seguimiento de instrucciones, navegación por punto, seguimiento de objetos y tareas de conducción autónoma.

Mejoras clave

◆Modelo VLN: navegación visión-lenguaje para agentes físicos
◆Unifica 4 tipos de tareas: instrucción, punto/objetivo, seguimiento, conducción
◆Codificación de observación controlada + interfaz de herramientas
◆Código abierto: pesos completos para personalización
◆Parte del conjunto completo Qwen-Robot (Manip + Nav + World)

Precio de Entrada

$0.0000

per 1M tokens

Precio de Salida

$0.0000

per 1M tokens

Entrada en Caché

—

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 0

Salida Máxima: 0 tokens

Fecha de Corte de Conocimiento: 2026-06

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Modelo VLN que unifica 4 tipos de tareas de navegación
Codificación de observación controlada para conciencia espacial 3D
Cubre seguimiento de instrucciones, navegación por punto/objetivo, seguimiento y conducción
Código abierto bajo Apache 2.0

Desventajas

Especializado solo para navegación robótica
Requiere hardware robótico o simulador
Sin generación de texto
Muy nuevo — validación real limitada

Rendimiento

Velocidad de salida—

Límite de tasa—

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Qwen-RobotWorld

Flagship

Predicción del mundo físico, planificación robótica

Precios Oficiales

Cuándo usar: Para planificación robótica y simulación del mundo: predecir resultados de acciones en escenarios de manipulación, conducción y navegación.

Mejoras clave

◆Modelo del mundo: predice futuros físicamente plausibles
◆Trans-escena: funciona en manipulación, conducción, navegación
◆Interfaz de acción en lenguaje natural
◆Código abierto: pesos completos para investigación e implementación
◆Parte del conjunto completo Qwen-Robot (Manip + Nav + World)

Precio de Entrada

$0.0000

per 1M tokens

Precio de Salida

$0.0000

per 1M tokens

Entrada en Caché

—

per 1M tokens

Entrada por Lote

—

per 1M tokens

Ventana de Contexto: 0

Salida Máxima: 0 tokens

Fecha de Corte de Conocimiento: 2026-06

VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

Modelo del mundo para predecir futuros físicamente plausibles
Trans-escena: manipulación, conducción y navegación
Interfaz de acción en lenguaje natural para control intuitivo
Código abierto bajo Apache 2.0

Desventajas

Especializado solo para simulación del mundo
Sin generación de texto ni control robótico
Requiere integración con Manip/Nav para pila completa
Muy nuevo — benchmarks limitados disponibles

Rendimiento

Velocidad de salida—

Límite de tasa—

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Comparación Lado a Lado

Modelo	Nivel	Entrada	Salida	En Caché	Contexto	Salida Máxima
Qwen3.7-Max	Flagship	$2.50	$7.50	$0.250	1M	65,536
Qwen3.7-Plus	Mid-tier	$0.400	$1.60	$0.100	1M	16,384
Qwen3-235B-A22B	Flagship	$0.400	$1.20	$0.100	131K	8,192
Qwen3-30B-A3B	Mid-tier	$0.150	$0.600	$0.040	131K	8,192
Qwen3-32B	Mid-tier	$0.200	$0.600	$0.050	131K	8,192
Qwen3-14B	Lite	$0.100	$0.300	$0.030	131K	8,192
Qwen3-8B	Lite	$0.050	$0.150	$0.010	131K	8,192
Qwen-VL-Plus	Mid-tier	$0.200	$0.800	$0.050	131K	8,192
Qwen-RobotManip	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotNav	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotWorld	Flagship	$0.0000	$0.0000	—	0	0