Alibaba Cloud 模型

探索 Alibaba Cloud 的所有 11 个模型，包括详细定价、优缺点和开发者推荐。

模型

$0.0000

最低输入价格

最大上下文

质量层级

快速推荐

最佳性价比: Qwen-RobotWorld ($0.0000/1M)

最佳质量: Qwen3.7-Max

Qwen3.7-Max

Flagship

长期代理工作流、编码代理、复杂推理

官方定价

适用场景: 前沿代理工作负载，需要长时间自主运行、复杂多步编码任务和深度研究分析。

核心升级

◆1M令牌上下文——消除文档密集型代理工作的限制
◆65K最大输出——大规模单次生成
◆持续35小时自主内核优化（1158次工具调用）
◆SWE-Verified 80.4，LiveCodeBench 91.6——与Claude Opus 4.6竞争
◆兼容OpenAI + Anthropic API——即插即用

输入价格

$2.50

per 1M tokens

输出价格

$7.50

per 1M tokens

缓存输入

$0.250

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 1M

最大输出: 65,536 tokens

知识截止日期: 2026-05

视觉函数调用微调JSON 模式

优点

1M上下文窗口，适用于文档密集型代理工作
65K最大输出——Qwen系列中最长
跨平台兼容性（Claude Code、OpenClaw、Qwen Code）
35小时持续自主执行
在编码基准测试上与Claude Opus 4.6竞争

缺点

专有——无开放权重或自托管
成本高于Qwen 3.6系列
不支持视觉
仅API访问

性能

输出速度~55 tok/s

速率限制2,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU-Pro

89.6%

LiveCodeBench

91.6%

SWE-Verified

80.4%

GPQA Diamond

92.4%

使用此模型的智能体

QoderWork Qoder Cloud Agents JVS Agent Suite

Qwen3.7-Plus

Mid-tier

多模态任务，经济高效的代理部署

官方定价

适用场景: 需要视频和图像理解以及文本的经济高效多模态部署，且具有长上下文要求。

核心升级

◆多模态输入：同一模型中的文本+视频+图像
◆100万上下文，每100万$0.40——比Qwen3.7-Max便宜6倍
◆中等价位下强大的代理能力
◆兼容OpenAI的API

输入价格

$0.400

per 1M tokens

输出价格

$1.60

per 1M tokens

缓存输入

$0.100

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 1M

最大输出: 16,384 tokens

知识截止日期: 2026-05

视觉函数调用微调JSON 模式免费层级

优点

中等价位下的100万上下文
多模态：文本、视频和图像输入
强大的速度与能力平衡
专有但非常实惠

缺点

专有——无法自行托管
在复杂推理上不如Qwen3.7-Max
最大输出16K

性能

输出速度~80 tok/s

速率限制5,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU-Pro

84.2%

LiveCodeBench

78.5%

MMMU

72.1%

Qwen3-235B-A22B

Flagship

复杂推理、多语言任务

官方定价

适用场景: 多语言工作负载、复杂推理和成本敏感型生产部署的最佳性价比旗舰产品。

核心升级

◆MoE 架构：235B 参数，仅 22B 激活 — GPT-4 级别性能，价格仅为其 1/10
◆131K 上下文 — 处理长文档和代码库
◆支持 100+ 种语言 — 非英语任务中同类最佳
◆开源：HuggingFace 上提供完整权重，可自行托管
◆每 1M 令牌 $0.40/$1.20 — 比 GPT-4o 便宜 90%

输入价格

$0.400

per 1M tokens

输出价格

$1.20

per 1M tokens

缓存输入

$0.100

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

MoE 235B 总参数量 / 22B 激活参数 — 旗舰性能，低成本
131K 上下文窗口
强大的多语言能力（100+ 种语言）
开源权重可用

缺点

不支持视觉
最大输出 8K 令牌
生态系统集成度低于 GPT-4

性能

输出速度~70 tok/s

速率限制5,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

86.8%

LiveCodeBench

63.7%

IFEval

86.2%

使用此模型的智能体

Smolagents Dify

Qwen3-30B-A3B

Mid-tier

高效的多语言推理

官方定价

适用场景: 高吞吐量的多语言任务，成本效率至关重要。

核心升级

◆仅 3B 激活参数 — 可在消费级 GPU 上运行
◆131K 上下文，每 1M 输入仅 $0.15 — 最便宜的长上下文选项
◆开源，可完全定制
◆强大的函数调用，支持代理工作流

输入价格

$0.150

per 1M tokens

输出价格

$0.600

per 1M tokens

缓存输入

$0.040

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

MoE 30B 总量 / 3B 激活 — 超高效
131K 上下文
出色的性价比
开源

缺点

较小的激活参数限制了复杂推理
无视觉功能
最大输出 8K

性能

输出速度~120 tok/s

速率限制10,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

78.5%

LiveCodeBench

48.2%

Qwen3-32B

Mid-tier

平衡性能与成本

官方定价

适用场景: 当您需要可靠的密集模型性能用于编码和通用任务时。

核心升级

◆密集32B架构 — 无MoE路由开销
◆131K上下文用于长文本内容
◆强大编码：LiveCodeBench 55.3%
◆开源，完全支持HuggingFace

输入价格

$0.200

per 1M tokens

输出价格

$0.600

per 1M tokens

缓存输入

$0.050

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

密集32B — 稳定性能
131K上下文
强大的编码能力
开源

缺点

无视觉功能
最大输出8K
延迟高于MoE变体

性能

输出速度~65 tok/s

速率限制5,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

83.2%

LiveCodeBench

55.3%

Qwen3-14B

Lite

轻量级通用任务

官方定价

适用场景: 预算友好型选项，适用于摘要、翻译和简单问答。

核心升级

◆14B密集模型——可单GPU运行
◆131K上下文仅需$0.10/1M输入
◆足以应对大多数日常任务
◆开源可微调

输入价格

$0.100

per 1M tokens

输出价格

$0.300

per 1M tokens

缓存输入

$0.030

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

紧凑型14B密集模型
131K上下文
极低成本
开源

缺点

复杂推理能力有限
无视觉功能
最大输出8K

性能

输出速度~90 tok/s

速率限制10,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

77.1%

LiveCodeBench

42.8%

Qwen3-8B

Lite

边缘部署，简单任务

官方定价

适用场景: 边缘设备、本地部署或超低成本批量处理。

核心升级

◆8B参数——可在RTX 3060或同等设备上运行
◆$0.05/1M输入——最便宜的之一
◆尽管体积小，但拥有131K上下文
◆适合本地/离线部署

输入价格

$0.050

per 1M tokens

输出价格

$0.150

per 1M tokens

缓存输入

$0.010

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

微型8B——可在笔记本GPU上运行
131K上下文
极其便宜
开源

缺点

仅基础推理
无视觉能力
最大输出8K

性能

输出速度~150 tok/s

速率限制20,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMLU

71.5%

LiveCodeBench

33.1%

Qwen-VL-Plus

Mid-tier

多模态理解、文档分析

官方定价

适用场景: 文档分析、图像描述、视觉问答以及多模态RAG流程。

核心升级

◆原生多模态——同时处理图像和文本
◆131K上下文可处理多页文档
◆强大的OCR：图表、表格和示意图理解
◆支持100多种语言的多语言VQA

输入价格

$0.200

per 1M tokens

输出价格

$0.800

per 1M tokens

缓存输入

$0.050

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 131K

最大输出: 8,192 tokens

知识截止日期: 2025-04

视觉函数调用微调JSON 模式免费层级

优点

原生视觉语言模型
131K上下文（含图像）
强大的文档OCR和图表理解
多语言VQA

缺点

不支持微调
最大输出8K
成本高于纯文本Qwen3

性能

输出速度~55 tok/s

速率限制3,000 RPM

多模态能力

图像输入图像输出音频输入音频输出

基准测试

MMMU

68.2%

MathVista

62.5%

Qwen-RobotManip

Flagship

机器人操作，灵巧手控制

官方定价

适用场景: 用于机器人操作任务：在研究和工业环境中的抓取、组装和灵巧手控制。

核心升级

◆首个Qwen-Robot VLA操作模型
◆38,100+小时的开源训练数据
◆跨机器人类型的统一状态-动作空间
◆相机帧末端执行器增量姿态控制
◆属于完整Qwen-Robot套件（操作+导航+世界）的一部分

输入价格

$0.0000

per 1M tokens

输出价格

$0.0000

per 1M tokens

缓存输入

—

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 0

最大输出: 0 tokens

知识截止日期: 2026-06

视觉函数调用微调JSON 模式免费层级

优点

用于精确机器人操作的VLA模型
38,100+小时的开源数据训练
通过统一动作空间支持多种机器人类型
基于Apache 2.0开源

缺点

专为机器人设计——不是通用LLM
需要机器人硬件或模拟器进行部署
不具备文本生成能力
非常新——社区采用有限

性能

输出速度—

速率限制—

多模态能力

图像输入图像输出音频输入音频输出

Qwen-RobotNav

Flagship

机器人导航、路径规划、自主移动

官方定价

适用场景: 用于移动机器人导航：指令跟随、点导航、目标跟踪和自动驾驶任务。

核心升级

◆VLN模型：面向物理体的视觉语言导航
◆统一4种任务类型：指令、点/目标、跟踪、驾驶
◆受控观察编码+工具接口
◆开源：完整权重可定制
◆属于完整Qwen-Robot套件（操作+导航+世界）的一部分

输入价格

$0.0000

per 1M tokens

输出价格

$0.0000

per 1M tokens

缓存输入

—

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 0

最大输出: 0 tokens

知识截止日期: 2026-06

视觉函数调用微调JSON 模式免费层级

优点

统一4种导航任务类型的VLN模型
受控观察编码实现3D空间感知
涵盖指令跟随、点/目标导航、跟踪、驾驶
基于Apache 2.0开源

缺点

仅专用于机器人导航
需要机器人硬件或模拟器
不支持文本生成
非常新——实际验证有限

性能

输出速度—

速率限制—

多模态能力

图像输入图像输出音频输入音频输出

Qwen-RobotWorld

Flagship

物理世界预测、机器人规划

官方定价

适用场景: 用于机器人规划和世界模拟：预测操作、驾驶和导航场景中动作的结果。

核心升级

◆世界模型：预测物理上合理的未来
◆跨场景：适用于操作、驾驶、导航
◆自然语言动作界面
◆开源：提供完整权重用于研究和部署
◆属于完整Qwen-Robot Suite（Manip + Nav + World）的一部分

输入价格

$0.0000

per 1M tokens

输出价格

$0.0000

per 1M tokens

缓存输入

—

per 1M tokens

批量输入

—

per 1M tokens

上下文窗口: 0

最大输出: 0 tokens

知识截止日期: 2026-06

视觉函数调用微调JSON 模式免费层级

优点

用于预测物理上合理未来的世界模型
跨场景：操作、驾驶和导航
自然语言动作界面，实现直观控制
基于Apache 2.0开源

缺点

仅专用于世界模拟
无文本生成或机器人控制功能
需要与Manip/Nav集成才能实现完整堆栈
非常新——可用基准测试有限

性能

输出速度—

速率限制—

多模态能力

图像输入图像输出音频输入音频输出

并排比较

模型	层级	输入	输出	缓存	上下文	最大输出
Qwen3.7-Max	Flagship	$2.50	$7.50	$0.250	1M	65,536
Qwen3.7-Plus	Mid-tier	$0.400	$1.60	$0.100	1M	16,384
Qwen3-235B-A22B	Flagship	$0.400	$1.20	$0.100	131K	8,192
Qwen3-30B-A3B	Mid-tier	$0.150	$0.600	$0.040	131K	8,192
Qwen3-32B	Mid-tier	$0.200	$0.600	$0.050	131K	8,192
Qwen3-14B	Lite	$0.100	$0.300	$0.030	131K	8,192
Qwen3-8B	Lite	$0.050	$0.150	$0.010	131K	8,192
Qwen-VL-Plus	Mid-tier	$0.200	$0.800	$0.050	131K	8,192
Qwen-RobotManip	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotNav	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotWorld	Flagship	$0.0000	$0.0000	—	0	0