Volver a la Zona de Desarrolladores

Alibaba Cloud Modelos

Explora todos los 11 modelos de Alibaba Cloud con precios detallados, ventajas y desventajas, y recomendaciones para desarrolladores.

11
Modelos
$0.0000
Entrada Más Baja
1M
Contexto Máximo
3
Niveles de Calidad

Recomendaciones Rápidas

Mejor Relación Calidad-Precio: Qwen-RobotWorld ($0.0000/1M)
Mejor Calidad: Qwen3.7-Max

Qwen3.7-Max

Flagship

Flujos de trabajo de agentes a largo plazo, agentes de codificación, razonamiento complejo

Precios Oficiales

Cuándo usar: Cargas de trabajo de agentes de frontera que requieren largas ejecuciones autónomas, tareas de codificación complejas de múltiples pasos y análisis de investigación profunda.

Mejoras clave

  • Contexto de 1M de tokens — elimina los límites en el trabajo de agente con documentos pesados
  • Salida máxima de 65K — generación masiva en un solo turno
  • Optimización autónoma del núcleo de 35 horas (1,158 llamadas a herramientas)
  • SWE-Verified 80.4, LiveCodeBench 91.6 — rivaliza con Claude Opus 4.6
  • Compatible con las API de OpenAI + Anthropic — reemplazo directo
Precio de Entrada
$2.50
per 1M tokens
Precio de Salida
$7.50
per 1M tokens
Entrada en Caché
$0.250
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 1M
Salida Máxima: 65,536 tokens
Fecha de Corte de Conocimiento: 2026-05
VisiónLlamada a FunciónAjuste FinoModo JSON

Ventajas

  • Ventana de contexto de 1M para trabajo de agente con documentos pesados
  • Salida máxima de 65K — la más larga de la familia Qwen
  • Compatibilidad multi-arness (Claude Code, OpenClaw, Qwen Code)
  • Ejecución autónoma de 35 horas
  • Competitivo con Claude Opus 4.6 en benchmarks de codificación

Desventajas

  • Propietario — sin pesos abiertos ni autoalojamiento
  • Costo más alto que la línea Qwen 3.6
  • Sin soporte de visión
  • Acceso solo por API

Rendimiento

Velocidad de salida~55 tok/s
Límite de tasa2,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU-Pro
89.6%
LiveCodeBench
91.6%
SWE-Verified
80.4%
GPQA Diamond
92.4%

Agentes que usan este modelo

3

Qwen3.7-Plus

Mid-tier

Tareas multimodales, implementación rentable de agentes

Precios Oficiales

Cuándo usar: Implementaciones multimodales rentables que necesitan comprensión de video e imagen junto con texto, con requisitos de contexto largo.

Mejoras clave

  • Entrada multimodal: texto + video + imagen en un solo modelo
  • Contexto de 1M a $0.40/1M — 6 veces más barato que Qwen3.7-Max
  • Fuerte capacidad de agente a costo de gama media
  • API compatible con OpenAI
Precio de Entrada
$0.400
per 1M tokens
Precio de Salida
$1.60
per 1M tokens
Entrada en Caché
$0.100
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 1M
Salida Máxima: 16,384 tokens
Fecha de Corte de Conocimiento: 2026-05
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Contexto de 1M a precio de gama media
  • Multimodal: entrada de texto, video e imagen
  • Fuerte equilibrio velocidad-capacidad
  • Propietario pero muy asequible

Desventajas

  • Propietario — sin autoalojamiento
  • Menos capaz que Qwen3.7-Max en razonamiento complejo
  • Salida máxima de 16K

Rendimiento

Velocidad de salida~80 tok/s
Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU-Pro
84.2%
LiveCodeBench
78.5%
MMMU
72.1%

Qwen3-235B-A22B

Flagship

Razonamiento complejo, tareas multilingües

Precios Oficiales

Cuándo usar: Mejor valor insignia para cargas de trabajo multilingües, razonamiento complejo y despliegues de producción sensibles al costo.

Mejoras clave

  • Arquitectura MoE: 235B parámetros, solo 22B activos — clase GPT-4 a 1/10 del precio
  • Contexto 131K — maneja documentos largos y bases de código
  • Soporte de 100+ idiomas — mejor de su clase para tareas no inglesas
  • Código abierto: pesos completos en HuggingFace para autoalojamiento
  • $0.40/$1.20 por 1M tokens — subcotiza a GPT-4o en un 90%
Precio de Entrada
$0.400
per 1M tokens
Precio de Salida
$1.20
per 1M tokens
Entrada en Caché
$0.100
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • MoE 235B total / 22B activo — rendimiento insignia a bajo costo
  • Ventana de contexto de 131K
  • Multilingüe potente (100+ idiomas)
  • Pesos de código abierto disponibles

Desventajas

  • Sin soporte de visión
  • Salida máxima de 8K tokens
  • Menos integración de ecosistema que GPT-4

Rendimiento

Velocidad de salida~70 tok/s
Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU
86.8%
LiveCodeBench
63.7%
IFEval
86.2%

Agentes que usan este modelo

2

Qwen3-30B-A3B

Mid-tier

Inferencia multilingüe eficiente

Precios Oficiales

Cuándo usar: Tareas multilingües de alto rendimiento donde la eficiencia de costos es lo más importante.

Mejoras clave

  • Solo 3B parámetros activos — funciona en GPU de consumo
  • Contexto 131K a $0.15/1M de entrada — opción más barata para contexto largo
  • Código abierto para personalización total
  • Fuerte llamada a funciones para flujos de trabajo de agentes
Precio de Entrada
$0.150
per 1M tokens
Precio de Salida
$0.600
per 1M tokens
Entrada en Caché
$0.040
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • MoE 30B total / 3B activo — ultraeficiente
  • Contexto 131K
  • Excelente relación costo-rendimiento
  • Código abierto

Desventajas

  • Parámetros activos más pequeños limitan el razonamiento complejo
  • Sin visión
  • Salida máxima de 8K

Rendimiento

Velocidad de salida~120 tok/s
Límite de tasa10,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU
78.5%
LiveCodeBench
48.2%

Qwen3-32B

Mid-tier

Rendimiento y costo equilibrados

Precios Oficiales

Cuándo usar: Cuando necesitas un rendimiento confiable de modelo denso para codificación y tareas generales.

Mejoras clave

  • Arquitectura Densa 32B — sin sobrecarga de enrutamiento MoE
  • Contexto 131K para contenido extenso
  • Codificación sólida: LiveCodeBench 55,3%
  • Open-source con soporte completo de HuggingFace
Precio de Entrada
$0.200
per 1M tokens
Precio de Salida
$0.600
per 1M tokens
Entrada en Caché
$0.050
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Denso 32B — rendimiento consistente
  • Contexto 131K
  • Fuerte capacidad de codificación
  • Open-source

Desventajas

  • Sin visión
  • Salida máxima de 8K
  • Latencia más alta que las variantes MoE

Rendimiento

Velocidad de salida~65 tok/s
Límite de tasa5,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU
83.2%
LiveCodeBench
55.3%

Qwen3-14B

Lite

Tareas generales ligeras

Precios Oficiales

Cuándo usar: Opción económica para resumen, traducción y preguntas y respuestas simples.

Mejoras clave

  • 14B denso — cabe en una sola GPU
  • Contexto de 131K por solo $0.10/1M de entrada
  • Suficientemente bueno para la mayoría de las tareas diarias
  • Código abierto para ajuste fino
Precio de Entrada
$0.100
per 1M tokens
Precio de Salida
$0.300
per 1M tokens
Entrada en Caché
$0.030
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Modelo denso compacto de 14B
  • Contexto de 131K
  • Costo muy bajo
  • Código abierto

Desventajas

  • Razonamiento complejo limitado
  • Sin visión
  • Salida máxima de 8K

Rendimiento

Velocidad de salida~90 tok/s
Límite de tasa10,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU
77.1%
LiveCodeBench
42.8%

Qwen3-8B

Lite

Implementación en el borde, tareas simples

Precios Oficiales

Cuándo usar: Dispositivos en el borde, implementación local o procesamiento por lotes de costo ultrabajo.

Mejoras clave

  • Parámetros 8B — funciona en RTX 3060 o equivalente
  • $0.05/1M de entrada — entre los más baratos disponibles
  • Contexto 131K a pesar del tamaño pequeño
  • Ideal para implementación local/fuera de línea
Precio de Entrada
$0.050
per 1M tokens
Precio de Salida
$0.150
per 1M tokens
Entrada en Caché
$0.010
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Pequeño 8B — funciona en GPU de portátil
  • Contexto 131K
  • Extremadamente barato
  • Código abierto

Desventajas

  • Razonamiento básico solamente
  • Sin visión
  • Salida máxima de 8K

Rendimiento

Velocidad de salida~150 tok/s
Límite de tasa20,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMLU
71.5%
LiveCodeBench
33.1%

Qwen-VL-Plus

Mid-tier

Comprensión multimodal, análisis de documentos

Precios Oficiales

Cuándo usar: Análisis de documentos, subtitulado de imágenes, preguntas y respuestas visuales y pipelines RAG multimodales.

Mejoras clave

  • Multimodal nativo — procesa imágenes y texto juntos
  • Contexto 131K para documentos de varias páginas
  • OCR potente: comprensión de gráficos, tablas y diagramas
  • VQA multilingüe en más de 100 idiomas
Precio de Entrada
$0.200
per 1M tokens
Precio de Salida
$0.800
per 1M tokens
Entrada en Caché
$0.050
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 131K
Salida Máxima: 8,192 tokens
Fecha de Corte de Conocimiento: 2025-04
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Modelo nativo visión-lenguaje
  • Contexto 131K con imágenes
  • Fuerte OCR y comprensión de gráficos
  • VQA multilingüe

Desventajas

  • Sin ajuste fino
  • Salida máxima de 8K
  • Costo más alto que Qwen3 solo texto

Rendimiento

Velocidad de salida~55 tok/s
Límite de tasa3,000 RPM

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Benchmarks

MMMU
68.2%
MathVista
62.5%

Qwen-RobotManip

Flagship

Manipulación robótica, control de mano diestra

Precios Oficiales

Cuándo usar: Para tareas de manipulación robótica: agarre, ensamblaje y control de mano diestra en entornos de investigación e industriales.

Mejoras clave

  • Primer modelo de manipulación VLA Qwen-Robot
  • Más de 38 100 horas de datos de entrenamiento de código abierto
  • Espacio de estado-acción unificado entre tipos de robot
  • Control de pose incremental del efector final en el marco de la cámara
  • Parte del conjunto completo Qwen-Robot Suite (Manip + Nav + World)
Precio de Entrada
$0.0000
per 1M tokens
Precio de Salida
$0.0000
per 1M tokens
Entrada en Caché
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 0
Salida Máxima: 0 tokens
Fecha de Corte de Conocimiento: 2026-06
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Modelo VLA para manipulación robótica precisa
  • Más de 38 100 horas de entrenamiento con datos de código abierto
  • Soporte multi-tipo de robot mediante espacio de acción unificado
  • Código abierto bajo licencia Apache 2.0

Desventajas

  • Especializado en robótica — no es un LLM general
  • Requiere hardware robótico o un simulador para su implementación
  • Sin capacidades de generación de texto
  • Muy nuevo — adopción comunitaria limitada

Rendimiento

Velocidad de salida
Límite de tasa

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Qwen-RobotNav

Flagship

Navegación robótica, planificación de rutas, movilidad autónoma

Precios Oficiales

Cuándo usar: Para navegación de robots móviles: seguimiento de instrucciones, navegación por punto, seguimiento de objetos y tareas de conducción autónoma.

Mejoras clave

  • Modelo VLN: navegación visión-lenguaje para agentes físicos
  • Unifica 4 tipos de tareas: instrucción, punto/objetivo, seguimiento, conducción
  • Codificación de observación controlada + interfaz de herramientas
  • Código abierto: pesos completos para personalización
  • Parte del conjunto completo Qwen-Robot (Manip + Nav + World)
Precio de Entrada
$0.0000
per 1M tokens
Precio de Salida
$0.0000
per 1M tokens
Entrada en Caché
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 0
Salida Máxima: 0 tokens
Fecha de Corte de Conocimiento: 2026-06
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Modelo VLN que unifica 4 tipos de tareas de navegación
  • Codificación de observación controlada para conciencia espacial 3D
  • Cubre seguimiento de instrucciones, navegación por punto/objetivo, seguimiento y conducción
  • Código abierto bajo Apache 2.0

Desventajas

  • Especializado solo para navegación robótica
  • Requiere hardware robótico o simulador
  • Sin generación de texto
  • Muy nuevo — validación real limitada

Rendimiento

Velocidad de salida
Límite de tasa

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Qwen-RobotWorld

Flagship

Predicción del mundo físico, planificación robótica

Precios Oficiales

Cuándo usar: Para planificación robótica y simulación del mundo: predecir resultados de acciones en escenarios de manipulación, conducción y navegación.

Mejoras clave

  • Modelo del mundo: predice futuros físicamente plausibles
  • Trans-escena: funciona en manipulación, conducción, navegación
  • Interfaz de acción en lenguaje natural
  • Código abierto: pesos completos para investigación e implementación
  • Parte del conjunto completo Qwen-Robot (Manip + Nav + World)
Precio de Entrada
$0.0000
per 1M tokens
Precio de Salida
$0.0000
per 1M tokens
Entrada en Caché
per 1M tokens
Entrada por Lote
per 1M tokens
Ventana de Contexto: 0
Salida Máxima: 0 tokens
Fecha de Corte de Conocimiento: 2026-06
VisiónLlamada a FunciónAjuste FinoModo JSONNivel Gratuito

Ventajas

  • Modelo del mundo para predecir futuros físicamente plausibles
  • Trans-escena: manipulación, conducción y navegación
  • Interfaz de acción en lenguaje natural para control intuitivo
  • Código abierto bajo Apache 2.0

Desventajas

  • Especializado solo para simulación del mundo
  • Sin generación de texto ni control robótico
  • Requiere integración con Manip/Nav para pila completa
  • Muy nuevo — benchmarks limitados disponibles

Rendimiento

Velocidad de salida
Límite de tasa

Multimodal

Entrada de imagenSalida de imagenEntrada de audioSalida de audio

Comparación Lado a Lado

ModeloNivelEntradaSalidaContexto
Qwen3.7-MaxFlagship$2.50$7.501M
Qwen3.7-PlusMid-tier$0.400$1.601M
Qwen3-235B-A22BFlagship$0.400$1.20131K
Qwen3-30B-A3BMid-tier$0.150$0.600131K
Qwen3-32BMid-tier$0.200$0.600131K
Qwen3-14BLite$0.100$0.300131K
Qwen3-8BLite$0.050$0.150131K
Qwen-VL-PlusMid-tier$0.200$0.800131K
Qwen-RobotManipFlagship$0.0000$0.00000
Qwen-RobotNavFlagship$0.0000$0.00000
Qwen-RobotWorldFlagship$0.0000$0.00000