Zurück zur Entwicklerzone

Alibaba Cloud Modelle

Entdecken Sie alle 11 Modelle von Alibaba Cloud mit detaillierten Preisen, Vor- und Nachteilen sowie Entwicklerempfehlungen.

11
Modelle
$0.0000
Niedrigster Input
1M
Max. Kontext
3
Qualitätsstufen

Schnellempfehlungen

Bestes Preis-Leistungs-Verhältnis: Qwen-RobotWorld ($0.0000/1M)
Beste Qualität: Qwen3.7-Max

Qwen3.7-Max

Flagship

Langfristige Agenten-Workflows, Codierungsagenten, komplexes Denken

Offizielle Preise

Wann verwenden: Frontier-Agenten-Workloads, die lange autonome Läufe, komplexe mehrstufige Codierungsaufgaben und tiefgehende Rechercheanalyse erfordern.

Upgrade-Highlights

  • 1M-Token-Kontext — beseitigt Grenzen bei dokumentenintensiver Agentenarbeit
  • 65K maximale Ausgabe — massive Einzelgenerierung
  • Anhaltende 35-stündige autonome Kernel-Optimierung (1.158 Tool-Aufrufe)
  • SWE-Verified 80.4, LiveCodeBench 91.6 — konkurriert mit Claude Opus 4.6
  • Kompatibel mit OpenAI + Anthropic API — direkter Ersatz
Input-Preis
$2.50
per 1M tokens
Output-Preis
$7.50
per 1M tokens
Cached Input
$0.250
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 1M
Max. Output: 65,536 tokens
Wissensstand: 2026-05
VisionFunktionsaufrufFeinabstimmungJSON-Modus

Vorteile

  • 1M-Kontextfenster für dokumentenintensive Agentenarbeit
  • 65K maximale Ausgabe — die längste in der Qwen-Familie
  • Cross-Harness-Kompatibilität (Claude Code, OpenClaw, Qwen Code)
  • 35-stündige autonome Ausführung
  • Wettbewerbsfähig mit Claude Opus 4.6 bei Codierungs-Benchmarks

Nachteile

  • Proprietär — keine offenen Gewichte oder Selbsthosting
  • Höhere Kosten als die Qwen 3.6-Reihe
  • Keine Bildunterstützung
  • Nur API-Zugriff

Leistung

Ausgabegeschwindigkeit~55 tok/s
Rate-Limit2,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU-Pro
89.6%
LiveCodeBench
91.6%
SWE-Verified
80.4%
GPQA Diamond
92.4%

Agenten die dieses Modell verwenden

3

Qwen3.7-Plus

Mid-tier

Multimodale Aufgaben, kosteneffizienter Agenteneinsatz

Offizielle Preise

Wann verwenden: Kosteneffiziente multimodale Bereitstellungen, die Video- und Bildverständnis zusammen mit Text und lange Kontextanforderungen benötigen.

Upgrade-Highlights

  • Multimodale Eingabe: Text + Video + Bild in einem Modell
  • 1M Kontext für $0,40/1M — 6x günstiger als Qwen3.7-Max
  • Starke Agentenfähigkeit zu mittleren Kosten
  • OpenAI-kompatible API
Input-Preis
$0.400
per 1M tokens
Output-Preis
$1.60
per 1M tokens
Cached Input
$0.100
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 1M
Max. Output: 16,384 tokens
Wissensstand: 2026-05
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • 1M Kontext zu mittleren Preisen
  • Multimodal: Text-, Video- und Bildeingabe
  • Starkes Gleichgewicht zwischen Geschwindigkeit und Leistung
  • Proprietär, aber sehr erschwinglich

Nachteile

  • Proprietär — kein Self-Hosting
  • Weniger leistungsfähig als Qwen3.7-Max bei komplexem Denken
  • Maximal 16K Ausgabe

Leistung

Ausgabegeschwindigkeit~80 tok/s
Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU-Pro
84.2%
LiveCodeBench
78.5%
MMMU
72.1%

Qwen3-235B-A22B

Flagship

Komplexes Denken, mehrsprachige Aufgaben

Offizielle Preise

Wann verwenden: Bestes Preis-Leistungs-Flaggschiff für mehrsprachige Workloads, komplexes Denken und kostenbewusste Produktionsbereitstellungen.

Upgrade-Highlights

  • MoE-Architektur: 235B Parameter, nur 22B aktiv — GPT-4-Klasse zu 1/10 des Preises
  • 131K Kontext — verarbeitet lange Dokumente und Codebasen
  • Unterstützung für über 100 Sprachen — branchenführend für nicht-englische Aufgaben
  • Open-Source: vollständige Gewichte auf HuggingFace für Self-Hosting
  • $0,40/$1,20 pro 1M Tokens — 90% günstiger als GPT-4o
Input-Preis
$0.400
per 1M tokens
Output-Preis
$1.20
per 1M tokens
Cached Input
$0.100
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • MoE 235B gesamt / 22B aktiv — Flaggschiff-Leistung zu niedrigen Kosten
  • 131K Kontextfenster
  • Stark mehrsprachig (100+ Sprachen)
  • Open-Source-Gewichte verfügbar

Nachteile

  • No vision support
  • Max output 8K tokens
  • Less ecosystem integration than GPT-4

Leistung

Ausgabegeschwindigkeit~70 tok/s
Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU
86.8%
LiveCodeBench
63.7%
IFEval
86.2%

Agenten die dieses Modell verwenden

2

Qwen3-30B-A3B

Mid-tier

Effiziente mehrsprachige Inferenz

Offizielle Preise

Wann verwenden: Hochdurchsatz-mehrsprachige Aufgaben, bei denen Kosteneffizienz am wichtigsten ist.

Upgrade-Highlights

  • Nur 3B aktive Parameter — läuft auf Consumer-GPUs
  • 131K Kontext für $0,15/1M Eingabe — günstigste Option für langen Kontext
  • Open-Source für vollständige Anpassung
  • Starke Funktionsaufrufe für Agent-Workflows
Input-Preis
$0.150
per 1M tokens
Output-Preis
$0.600
per 1M tokens
Cached Input
$0.040
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • MoE 30B gesamt / 3B aktiv — ultraeffizient
  • 131K Kontext
  • Hervorragendes Preis-Leistungs-Verhältnis
  • Open-Source

Nachteile

  • Weniger aktive Parameter schränken komplexes Denken ein
  • Keine Bildverarbeitung
  • Max. 8K Ausgabe

Leistung

Ausgabegeschwindigkeit~120 tok/s
Rate-Limit10,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU
78.5%
LiveCodeBench
48.2%

Qwen3-32B

Mid-tier

Ausgewogene Leistung und Kosten

Offizielle Preise

Wann verwenden: Wenn Sie zuverlässige dichte Modellleistung für Programmier- und allgemeine Aufgaben benötigen.

Upgrade-Highlights

  • Dichte 32B-Architektur — kein MoE-Routing-Overhead
  • 131K Kontext für lange Inhalte
  • Starke Programmierung: LiveCodeBench 55,3%
  • Open-Source mit vollständiger HuggingFace-Unterstützung
Input-Preis
$0.200
per 1M tokens
Output-Preis
$0.600
per 1M tokens
Cached Input
$0.050
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • Dichtes 32B — konsistente Leistung
  • 131K Kontext
  • Starke Programmierfähigkeit
  • Open-Source

Nachteile

  • Keine Bildverarbeitung
  • Max. 8K Ausgabe
  • Höhere Latenz als MoE-Varianten

Leistung

Ausgabegeschwindigkeit~65 tok/s
Rate-Limit5,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU
83.2%
LiveCodeBench
55.3%

Qwen3-14B

Lite

Leichte allgemeine Aufgaben

Offizielle Preise

Wann verwenden: Budgetfreundliche Option für Zusammenfassung, Übersetzung und einfache Frage-Antwort-Aufgaben.

Upgrade-Highlights

  • 14B dicht — passt auf eine einzelne GPU
  • 131K Kontext für nur $0,10/1M Eingabe
  • Gut genug für die meisten alltäglichen Aufgaben
  • Open-Source für Feintuning
Input-Preis
$0.100
per 1M tokens
Output-Preis
$0.300
per 1M tokens
Cached Input
$0.030
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • Kompaktes 14B dichtes Modell
  • 131K Kontext
  • Sehr niedrige Kosten
  • Open-Source

Nachteile

  • Begrenztes komplexes Denken
  • Keine Bildverarbeitung
  • Maximal 8K Ausgabe

Leistung

Ausgabegeschwindigkeit~90 tok/s
Rate-Limit10,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU
77.1%
LiveCodeBench
42.8%

Qwen3-8B

Lite

Edge-Bereitstellung, einfache Aufgaben

Offizielle Preise

Wann verwenden: Edge-Geräte, lokale Bereitstellung oder extrem kostengünstige Stapelverarbeitung.

Upgrade-Highlights

  • 8B Parameter — läuft auf RTX 3060 oder gleichwertig
  • $0,05/1M Eingabe — einer der günstigsten verfügbaren
  • 131K Kontext trotz kleiner Größe
  • Ideal für lokale/Offline-Bereitstellung
Input-Preis
$0.050
per 1M tokens
Output-Preis
$0.150
per 1M tokens
Cached Input
$0.010
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • Klein 8B — läuft auf Laptop-GPUs
  • 131K Kontext
  • Extrem günstig
  • Open-Source

Nachteile

  • Nur grundlegendes Denken
  • Keine Bildverarbeitung
  • 8K maximale Ausgabe

Leistung

Ausgabegeschwindigkeit~150 tok/s
Rate-Limit20,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMLU
71.5%
LiveCodeBench
33.1%

Qwen-VL-Plus

Mid-tier

Multimodales Verständnis, Dokumentenanalyse

Offizielle Preise

Wann verwenden: Dokumentenanalyse, Bildbeschriftung, visuelle Q&A und multimodale RAG-Pipelines.

Upgrade-Highlights

  • Nativ multimodal — verarbeitet Bilder und Text gemeinsam
  • 131K Kontext für mehrseitige Dokumente
  • Starkes OCR: Diagramm-, Tabellen- und Schaubildverständnis
  • Mehrsprachige VQA in über 100 Sprachen
Input-Preis
$0.200
per 1M tokens
Output-Preis
$0.800
per 1M tokens
Cached Input
$0.050
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 131K
Max. Output: 8,192 tokens
Wissensstand: 2025-04
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • Natives Vision-Sprachmodell
  • 131K Kontext mit Bildern
  • Starkes Dokumenten-OCR und Diagrammverständnis
  • Mehrsprachige VQA

Nachteile

  • Kein Feintuning
  • 8K maximale Ausgabe
  • Höhere Kosten als textbasiertes Qwen3

Leistung

Ausgabegeschwindigkeit~55 tok/s
Rate-Limit3,000 RPM

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Benchmarks

MMMU
68.2%
MathVista
62.5%

Qwen-RobotManip

Flagship

Robotermanipulation, geschickte Handsteuerung

Offizielle Preise

Wann verwenden: Für Robotermanipulationsaufgaben: Greifen, Montage und geschickte Handsteuerung in Forschung und Industrie.

Upgrade-Highlights

  • Erstes Qwen-Robot VLA-Manipulationsmodell
  • Über 38.100 Stunden Open-Source-Trainingsdaten
  • Einheitlicher Zustands-Aktionsraum über Robotertypen hinweg
  • Inkrementelle Positionssteuerung des Endeffektors im Kamerarahmen
  • Teil der vollständigen Qwen-Robot Suite (Manip + Nav + World)
Input-Preis
$0.0000
per 1M tokens
Output-Preis
$0.0000
per 1M tokens
Cached Input
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 0
Max. Output: 0 tokens
Wissensstand: 2026-06
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • VLA-Modell für präzise Robotermanipulation
  • Über 38.100 Stunden Training mit Open-Source-Daten
  • Unterstützung mehrerer Robotertypen durch einheitlichen Aktionsraum
  • Open-Source unter Apache 2.0

Nachteile

  • Specialized for robotics — not a general LLM
  • Requires robot hardware or simulator for deployment
  • No text generation capabilities
  • Very new — limited community adoption

Leistung

Ausgabegeschwindigkeit
Rate-Limit

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Qwen-RobotNav

Flagship

Roboternavigation, Pfadplanung, autonome Mobilität

Offizielle Preise

Wann verwenden: Für mobile Roboternavigation: Anweisungsbefolgung, Punktnavigation, Objektverfolgung und autonome Fahraufgaben.

Upgrade-Highlights

  • VLN-Modell: Vision-Language-Navigation für physische Agenten
  • Vereint 4 Aufgabentypen: Anweisung, Punkt/Ziel, Verfolgung, Fahren
  • Kontrollierte Beobachtungscodierung + Tool-Schnittstelle
  • Open-Source: vollständige Gewichte zur Anpassung
  • Teil der kompletten Qwen-Robot-Suite (Manip + Nav + World)
Input-Preis
$0.0000
per 1M tokens
Output-Preis
$0.0000
per 1M tokens
Cached Input
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 0
Max. Output: 0 tokens
Wissensstand: 2026-06
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • VLN-Modell, das 4 Navigationsaufgabentypen vereint
  • Kontrollierte Beobachtungscodierung für 3D-Raumbewusstsein
  • Umfasst Anweisungsbefolgung, Punkt-/Zielnavigation, Verfolgung und Fahren
  • Open-Source unter Apache 2.0

Nachteile

  • Nur auf Roboternavigation spezialisiert
  • Erfordert Roboterhardware oder Simulator
  • Keine Textgenerierung
  • Sehr neu — begrenzte reale Validierung

Leistung

Ausgabegeschwindigkeit
Rate-Limit

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Qwen-RobotWorld

Flagship

Vorhersage der physischen Welt, Roboterplanung

Offizielle Preise

Wann verwenden: Für Roboterplanung und Weltsimulation: Vorhersage von Aktionsergebnissen in Manipulations-, Fahr- und Navigationsszenarien.

Upgrade-Highlights

  • Weltmodell: sagt physikalisch plausible Zukünfte voraus
  • Szenenübergreifend: funktioniert bei Manipulation, Fahren und Navigation
  • Natürlichsprachliche Aktionsschnittstelle
  • Open-Source: vollständige Gewichte für Forschung und Bereitstellung
  • Teil der vollständigen Qwen-Robot-Suite (Manip + Nav + World)
Input-Preis
$0.0000
per 1M tokens
Output-Preis
$0.0000
per 1M tokens
Cached Input
per 1M tokens
Batch-Input
per 1M tokens
Kontextfenster: 0
Max. Output: 0 tokens
Wissensstand: 2026-06
VisionFunktionsaufrufFeinabstimmungJSON-ModusKostenlose Stufe

Vorteile

  • Weltmodell zur Vorhersage physikalisch plausibler Zukünfte
  • Szenenübergreifend: Manipulation, Fahren und Navigation
  • Natürlichsprachliche Aktionsschnittstelle für intuitive Steuerung
  • Open-Source unter Apache 2.0

Nachteile

  • Nur auf Weltsimulation spezialisiert
  • Keine Textgenerierung oder Robotersteuerung
  • Erfordert Integration mit Manip/Nav für den vollständigen Stack
  • Sehr neu — nur begrenzte Benchmarks verfügbar

Leistung

Ausgabegeschwindigkeit
Rate-Limit

Multimodal

BildeingabeBildausgabeAudioeingabeAudioausgabe

Nebeneinander-Vergleich

ModellStufeInputOutputKontext
Qwen3.7-MaxFlagship$2.50$7.501M
Qwen3.7-PlusMid-tier$0.400$1.601M
Qwen3-235B-A22BFlagship$0.400$1.20131K
Qwen3-30B-A3BMid-tier$0.150$0.600131K
Qwen3-32BMid-tier$0.200$0.600131K
Qwen3-14BLite$0.100$0.300131K
Qwen3-8BLite$0.050$0.150131K
Qwen-VL-PlusMid-tier$0.200$0.800131K
Qwen-RobotManipFlagship$0.0000$0.00000
Qwen-RobotNavFlagship$0.0000$0.00000
Qwen-RobotWorldFlagship$0.0000$0.00000