Alibaba Cloud Modelle

Entdecken Sie alle 11 Modelle von Alibaba Cloud mit detaillierten Preisen, Vor- und Nachteilen sowie Entwicklerempfehlungen.

Modelle

$0.0000

Niedrigster Input

Max. Kontext

Qualitätsstufen

Schnellempfehlungen

Bestes Preis-Leistungs-Verhältnis: Qwen-RobotWorld ($0.0000/1M)

Beste Qualität: Qwen3.7-Max

Qwen3.7-Max

Flagship

Langfristige Agenten-Workflows, Codierungsagenten, komplexes Denken

Offizielle Preise

Wann verwenden: Frontier-Agenten-Workloads, die lange autonome Läufe, komplexe mehrstufige Codierungsaufgaben und tiefgehende Rechercheanalyse erfordern.

Upgrade-Highlights

◆1M-Token-Kontext — beseitigt Grenzen bei dokumentenintensiver Agentenarbeit
◆65K maximale Ausgabe — massive Einzelgenerierung
◆Anhaltende 35-stündige autonome Kernel-Optimierung (1.158 Tool-Aufrufe)
◆SWE-Verified 80.4, LiveCodeBench 91.6 — konkurriert mit Claude Opus 4.6
◆Kompatibel mit OpenAI + Anthropic API — direkter Ersatz

Input-Preis

$2.50

per 1M tokens

Output-Preis

$7.50

per 1M tokens

Cached Input

$0.250

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 1M

Max. Output: 65,536 tokens

Wissensstand: 2026-05

VisionFunktionsaufrufFeinabstimmungJSON-Modus

Vorteile

1M-Kontextfenster für dokumentenintensive Agentenarbeit
65K maximale Ausgabe — die längste in der Qwen-Familie
Cross-Harness-Kompatibilität (Claude Code, OpenClaw, Qwen Code)
35-stündige autonome Ausführung
Wettbewerbsfähig mit Claude Opus 4.6 bei Codierungs-Benchmarks

Nachteile

Proprietär — keine offenen Gewichte oder Selbsthosting
Höhere Kosten als die Qwen 3.6-Reihe
Keine Bildunterstützung
Nur API-Zugriff

Leistung

Ausgabegeschwindigkeit~55 tok/s

Rate-Limit2,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU-Pro

89.6%

LiveCodeBench

91.6%

SWE-Verified

80.4%

GPQA Diamond

92.4%

Agenten die dieses Modell verwenden

QoderWork Qoder Cloud Agents JVS Agent Suite

Qwen3.7-Plus

Mid-tier

Multimodale Aufgaben, kosteneffizienter Agenteneinsatz

Offizielle Preise

Wann verwenden: Kosteneffiziente multimodale Bereitstellungen, die Video- und Bildverständnis zusammen mit Text und lange Kontextanforderungen benötigen.

Upgrade-Highlights

◆Multimodale Eingabe: Text + Video + Bild in einem Modell
◆1M Kontext für $0,40/1M — 6x günstiger als Qwen3.7-Max
◆Starke Agentenfähigkeit zu mittleren Kosten
◆OpenAI-kompatible API

Input-Preis

$0.400

per 1M tokens

Output-Preis

$1.60

per 1M tokens

Cached Input

$0.100

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 1M

Max. Output: 16,384 tokens

Wissensstand: 2026-05

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

1M Kontext zu mittleren Preisen
Multimodal: Text-, Video- und Bildeingabe
Starkes Gleichgewicht zwischen Geschwindigkeit und Leistung
Proprietär, aber sehr erschwinglich

Nachteile

Proprietär — kein Self-Hosting
Weniger leistungsfähig als Qwen3.7-Max bei komplexem Denken
Maximal 16K Ausgabe

Leistung

Ausgabegeschwindigkeit~80 tok/s

Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU-Pro

84.2%

LiveCodeBench

78.5%

MMMU

72.1%

Qwen3-235B-A22B

Flagship

Komplexes Denken, mehrsprachige Aufgaben

Offizielle Preise

Wann verwenden: Bestes Preis-Leistungs-Flaggschiff für mehrsprachige Workloads, komplexes Denken und kostenbewusste Produktionsbereitstellungen.

Upgrade-Highlights

◆MoE-Architektur: 235B Parameter, nur 22B aktiv — GPT-4-Klasse zu 1/10 des Preises
◆131K Kontext — verarbeitet lange Dokumente und Codebasen
◆Unterstützung für über 100 Sprachen — branchenführend für nicht-englische Aufgaben
◆Open-Source: vollständige Gewichte auf HuggingFace für Self-Hosting
◆$0,40/$1,20 pro 1M Tokens — 90% günstiger als GPT-4o

Input-Preis

$0.400

per 1M tokens

Output-Preis

$1.20

per 1M tokens

Cached Input

$0.100

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

MoE 235B gesamt / 22B aktiv — Flaggschiff-Leistung zu niedrigen Kosten
131K Kontextfenster
Stark mehrsprachig (100+ Sprachen)
Open-Source-Gewichte verfügbar

Nachteile

No vision support
Max output 8K tokens
Less ecosystem integration than GPT-4

Leistung

Ausgabegeschwindigkeit~70 tok/s

Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU

86.8%

LiveCodeBench

63.7%

IFEval

86.2%

Agenten die dieses Modell verwenden

Smolagents Dify

Qwen3-30B-A3B

Mid-tier

Effiziente mehrsprachige Inferenz

Offizielle Preise

Wann verwenden: Hochdurchsatz-mehrsprachige Aufgaben, bei denen Kosteneffizienz am wichtigsten ist.

Upgrade-Highlights

◆Nur 3B aktive Parameter — läuft auf Consumer-GPUs
◆131K Kontext für $0,15/1M Eingabe — günstigste Option für langen Kontext
◆Open-Source für vollständige Anpassung
◆Starke Funktionsaufrufe für Agent-Workflows

Input-Preis

$0.150

per 1M tokens

Output-Preis

$0.600

per 1M tokens

Cached Input

$0.040

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

MoE 30B gesamt / 3B aktiv — ultraeffizient
131K Kontext
Hervorragendes Preis-Leistungs-Verhältnis
Open-Source

Nachteile

Weniger aktive Parameter schränken komplexes Denken ein
Keine Bildverarbeitung
Max. 8K Ausgabe

Leistung

Ausgabegeschwindigkeit~120 tok/s

Rate-Limit10,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU

78.5%

LiveCodeBench

48.2%

Qwen3-32B

Mid-tier

Ausgewogene Leistung und Kosten

Offizielle Preise

Wann verwenden: Wenn Sie zuverlässige dichte Modellleistung für Programmier- und allgemeine Aufgaben benötigen.

Upgrade-Highlights

◆Dichte 32B-Architektur — kein MoE-Routing-Overhead
◆131K Kontext für lange Inhalte
◆Starke Programmierung: LiveCodeBench 55,3%
◆Open-Source mit vollständiger HuggingFace-Unterstützung

Input-Preis

$0.200

per 1M tokens

Output-Preis

$0.600

per 1M tokens

Cached Input

$0.050

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

Dichtes 32B — konsistente Leistung
131K Kontext
Starke Programmierfähigkeit
Open-Source

Nachteile

Keine Bildverarbeitung
Max. 8K Ausgabe
Höhere Latenz als MoE-Varianten

Leistung

Ausgabegeschwindigkeit~65 tok/s

Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU

83.2%

LiveCodeBench

55.3%

Qwen3-14B

Lite

Leichte allgemeine Aufgaben

Offizielle Preise

Wann verwenden: Budgetfreundliche Option für Zusammenfassung, Übersetzung und einfache Frage-Antwort-Aufgaben.

Upgrade-Highlights

◆14B dicht — passt auf eine einzelne GPU
◆131K Kontext für nur $0,10/1M Eingabe
◆Gut genug für die meisten alltäglichen Aufgaben
◆Open-Source für Feintuning

Input-Preis

$0.100

per 1M tokens

Output-Preis

$0.300

per 1M tokens

Cached Input

$0.030

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

Kompaktes 14B dichtes Modell
131K Kontext
Sehr niedrige Kosten
Open-Source

Nachteile

Begrenztes komplexes Denken
Keine Bildverarbeitung
Maximal 8K Ausgabe

Leistung

Ausgabegeschwindigkeit~90 tok/s

Rate-Limit10,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU

77.1%

LiveCodeBench

42.8%

Qwen3-8B

Lite

Edge-Bereitstellung, einfache Aufgaben

Offizielle Preise

Wann verwenden: Edge-Geräte, lokale Bereitstellung oder extrem kostengünstige Stapelverarbeitung.

Upgrade-Highlights

◆8B Parameter — läuft auf RTX 3060 oder gleichwertig
◆$0,05/1M Eingabe — einer der günstigsten verfügbaren
◆131K Kontext trotz kleiner Größe
◆Ideal für lokale/Offline-Bereitstellung

Input-Preis

$0.050

per 1M tokens

Output-Preis

$0.150

per 1M tokens

Cached Input

$0.010

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

Klein 8B — läuft auf Laptop-GPUs
131K Kontext
Extrem günstig
Open-Source

Nachteile

Nur grundlegendes Denken
Keine Bildverarbeitung
8K maximale Ausgabe

Leistung

Ausgabegeschwindigkeit~150 tok/s

Rate-Limit20,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU

71.5%

LiveCodeBench

33.1%

Qwen-VL-Plus

Mid-tier

Multimodales Verständnis, Dokumentenanalyse

Offizielle Preise

Wann verwenden: Dokumentenanalyse, Bildbeschriftung, visuelle Q&A und multimodale RAG-Pipelines.

Upgrade-Highlights

◆Nativ multimodal — verarbeitet Bilder und Text gemeinsam
◆131K Kontext für mehrseitige Dokumente
◆Starkes OCR: Diagramm-, Tabellen- und Schaubildverständnis
◆Mehrsprachige VQA in über 100 Sprachen

Input-Preis

$0.200

per 1M tokens

Output-Preis

$0.800

per 1M tokens

Cached Input

$0.050

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 131K

Max. Output: 8,192 tokens

Wissensstand: 2025-04

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

Natives Vision-Sprachmodell
131K Kontext mit Bildern
Starkes Dokumenten-OCR und Diagrammverständnis
Mehrsprachige VQA

Nachteile

Kein Feintuning
8K maximale Ausgabe
Höhere Kosten als textbasiertes Qwen3

Leistung

Ausgabegeschwindigkeit~55 tok/s

Rate-Limit3,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMMU

68.2%

MathVista

62.5%

Qwen-RobotManip

Flagship

Robotermanipulation, geschickte Handsteuerung

Offizielle Preise

Wann verwenden: Für Robotermanipulationsaufgaben: Greifen, Montage und geschickte Handsteuerung in Forschung und Industrie.

Upgrade-Highlights

◆Erstes Qwen-Robot VLA-Manipulationsmodell
◆Über 38.100 Stunden Open-Source-Trainingsdaten
◆Einheitlicher Zustands-Aktionsraum über Robotertypen hinweg
◆Inkrementelle Positionssteuerung des Endeffektors im Kamerarahmen
◆Teil der vollständigen Qwen-Robot Suite (Manip + Nav + World)

Input-Preis

$0.0000

per 1M tokens

Output-Preis

$0.0000

per 1M tokens

Cached Input

—

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 0

Max. Output: 0 tokens

Wissensstand: 2026-06

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

VLA-Modell für präzise Robotermanipulation
Über 38.100 Stunden Training mit Open-Source-Daten
Unterstützung mehrerer Robotertypen durch einheitlichen Aktionsraum
Open-Source unter Apache 2.0

Nachteile

Specialized for robotics — not a general LLM
Requires robot hardware or simulator for deployment
No text generation capabilities
Very new — limited community adoption

Leistung

Ausgabegeschwindigkeit—

Rate-Limit—

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Qwen-RobotNav

Flagship

Roboternavigation, Pfadplanung, autonome Mobilität

Offizielle Preise

Wann verwenden: Für mobile Roboternavigation: Anweisungsbefolgung, Punktnavigation, Objektverfolgung und autonome Fahraufgaben.

Upgrade-Highlights

◆VLN-Modell: Vision-Language-Navigation für physische Agenten
◆Vereint 4 Aufgabentypen: Anweisung, Punkt/Ziel, Verfolgung, Fahren
◆Kontrollierte Beobachtungscodierung + Tool-Schnittstelle
◆Open-Source: vollständige Gewichte zur Anpassung
◆Teil der kompletten Qwen-Robot-Suite (Manip + Nav + World)

Input-Preis

$0.0000

per 1M tokens

Output-Preis

$0.0000

per 1M tokens

Cached Input

—

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 0

Max. Output: 0 tokens

Wissensstand: 2026-06

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

VLN-Modell, das 4 Navigationsaufgabentypen vereint
Kontrollierte Beobachtungscodierung für 3D-Raumbewusstsein
Umfasst Anweisungsbefolgung, Punkt-/Zielnavigation, Verfolgung und Fahren
Open-Source unter Apache 2.0

Nachteile

Nur auf Roboternavigation spezialisiert
Erfordert Roboterhardware oder Simulator
Keine Textgenerierung
Sehr neu — begrenzte reale Validierung

Leistung

Ausgabegeschwindigkeit—

Rate-Limit—

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Qwen-RobotWorld

Flagship

Vorhersage der physischen Welt, Roboterplanung

Offizielle Preise

Wann verwenden: Für Roboterplanung und Weltsimulation: Vorhersage von Aktionsergebnissen in Manipulations-, Fahr- und Navigationsszenarien.

Upgrade-Highlights

◆Weltmodell: sagt physikalisch plausible Zukünfte voraus
◆Szenenübergreifend: funktioniert bei Manipulation, Fahren und Navigation
◆Natürlichsprachliche Aktionsschnittstelle
◆Open-Source: vollständige Gewichte für Forschung und Bereitstellung
◆Teil der vollständigen Qwen-Robot-Suite (Manip + Nav + World)

Input-Preis

$0.0000

per 1M tokens

Output-Preis

$0.0000

per 1M tokens

Cached Input

—

per 1M tokens

Batch-Input

—

per 1M tokens

Kontextfenster: 0

Max. Output: 0 tokens

Wissensstand: 2026-06

VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

Weltmodell zur Vorhersage physikalisch plausibler Zukünfte
Szenenübergreifend: Manipulation, Fahren und Navigation
Natürlichsprachliche Aktionsschnittstelle für intuitive Steuerung
Open-Source unter Apache 2.0

Nachteile

Nur auf Weltsimulation spezialisiert
Keine Textgenerierung oder Robotersteuerung
Erfordert Integration mit Manip/Nav für den vollständigen Stack
Sehr neu — nur begrenzte Benchmarks verfügbar

Leistung

Ausgabegeschwindigkeit—

Rate-Limit—

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Nebeneinander-Vergleich

Modell	Stufe	Input	Output	Cached	Kontext	Max. Output
Qwen3.7-Max	Flagship	$2.50	$7.50	$0.250	1M	65,536
Qwen3.7-Plus	Mid-tier	$0.400	$1.60	$0.100	1M	16,384
Qwen3-235B-A22B	Flagship	$0.400	$1.20	$0.100	131K	8,192
Qwen3-30B-A3B	Mid-tier	$0.150	$0.600	$0.040	131K	8,192
Qwen3-32B	Mid-tier	$0.200	$0.600	$0.050	131K	8,192
Qwen3-14B	Lite	$0.100	$0.300	$0.030	131K	8,192
Qwen3-8B	Lite	$0.050	$0.150	$0.010	131K	8,192
Qwen-VL-Plus	Mid-tier	$0.200	$0.800	$0.050	131K	8,192
Qwen-RobotManip	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotNav	Flagship	$0.0000	$0.0000	—	0	0
Qwen-RobotWorld	Flagship	$0.0000	$0.0000	—	0	0