Verteilte Inferenz (verteiltes Schließen)#

Einige Sprachmodelle, darunter DeepSeek V3, DeepSeek R1 usw., sind zu groß, um auf die GPU einer einzelnen Maschine zu passen. Xinference unterstützt den Betrieb dieser Modelle auf mehreren Maschinen.

Added in version v1.3.0.

Unterstützte Engine#

Nun unterstützt Xinference die folgenden Engines zum Ausführen von Modellen auf mehreren Workern.

SGLang (unterstützt in v1.3.0)
vLLM (Unterstützung in v1.4.1)
MLX (seit v1.7.1 unterstützt) wird im verteilten Modus derzeit nicht von allen Modellen unterstützt. Folgende Modelltypen werden aktuell unterstützt. Falls Sie weitere Anforderungen haben, reichen Sie bitte ein GitHub-Issue unter xorbitsai/inference#issues ein, um Unterstützung anzufragen.
- DeepSeek v3 und R1
- Qwen2.5-instruct und andere Modelle mit derselben Modellarchitektur.
- Qwen3 und andere Modelle mit derselben Architektur.
- Qwen3-moe und andere Modelle mit derselben Modellarchitektur.

Nutzen#

Zunächst benötigen Sie mindestens 2 Worker-Knoten zur Unterstützung von verteiltem Inferenz. Siehe Ausführen von Xinference in einem Cluster zur Erstellung eines Xinference-Clusters, der einen Supervisor-Knoten und Worker-Knoten umfasst.

vLLM (v0.11.0+) Hinweis: Ab Version v0.11.0 von vLLM erfordert die verteilte Bereitstellung mit vLLM Xinference >= Version v1.17.1. Zusätzlich zur ursprünglichen --n-worker-Parametereinstellung müssen beim Starten des Modells auch die Parameter tensor_parallel_size (auf Anzahl der GPUs setzen) und pipeline_parallel_size=1 angegeben werden.

Wenn Sie die Weboberfläche verwenden, wählen Sie in den optionalen Konfigurationen die gewünschte Anzahl an Rechnern als worker count aus. Falls Sie die Befehlszeile verwenden, fügen Sie beim Starten des Modells --n-worker <Anzahl der Rechner> hinzu. Das Modell wird dann entsprechend auf mehreren Arbeitsknoten gestartet.

Bei verteiltem Inferieren steht GPU count in der Web-Benutzeroberfläche oder --n-gpu in der Befehlszeile nun für die Anzahl der GPUs pro Arbeitsknoten.