Installation#

Xinference kann unter Linux, Windows und MacOS über pip installiert werden. Wenn Sie Xinference für Modellinferenz verwenden möchten, können Sie je nach Modell unterschiedliche Engines festlegen.

Wenn du alle unterstützten Modelle verwenden möchtest, kannst du mit folgendem Befehl alle erforderlichen Abhängigkeiten installieren:

pip install "xinference[all]"

Geändert in Version v1.8.1: Da vllm und sglang in Bezug auf Paketabhängigkeiten nicht kompatibel sind, haben wir sglang aus dem all-Paket entfernt. Wenn Sie sglang verwenden möchten, nutzen Sie bitte pip install 'xinference[sglang]'.

Einige Nutzungsszenarien erfordern besondere Aufmerksamkeit.

GGUF-Format in Kombination mit der llama.cpp-Engine

In diesem Fall wird empfohlen, die Abhängigkeiten basierend auf Ihren Hardwarespezifikationen manuell zu installieren, um die Beschleunigung zu aktivieren. Weitere Details finden Sie im Abschnitt Llama.cpp Engine.

AWQ- oder GPTQ-Format in Verbindung mit transformers-Engine verwenden

Der Inhalt dieses Abschnitts wurde in v1.6.0 hinzugefügt.

Dies liegt daran, dass die Abhängigkeiten in dieser Phase spezielle Optionen erfordern und schwer zu installieren sind. Bitte führen Sie die folgenden Befehle vorab aus:

pip install "xinference[transformers_quantization]" --no-build-isolation

Bestimmte Abhängigkeiten, wie transformers, könnten herabgestuft werden. Sie können später pip install "xinference[all]" ausführen.

Wenn Sie nur die erforderlichen Abhängigkeiten installieren möchten, finden Sie hier die detaillierten Schritte zur Vorgehensweise.

Transformers-Engine#

Der PyTorch(transformers) Engine unterstützt nahezu alle neuesten Modelle. Dies ist die standardmäßig verwendete Engine für PyTorch-Modelle:

pip install "xinference[transformers]"

Hinweis:

  • Die Transformers-Engine unterstützt die Formate pytorch / gptq / awq / bnb / fp4.

  • FP4-Format benötigt die transformers-Bibliothek, die FPQuantConfig unterstützt. Falls ein Importfehler auftritt, aktualisieren Sie bitte transformers auf eine neuere Version.

vLLM-Engine#

vLLM ist eine leistungsstarke Inferenz-Engine für große Modelle, die hohe Parallelität unterstützt. Wenn die folgenden Bedingungen erfüllt sind, wählt Xinference automatisch vLLM als Engine aus, um einen höheren Durchsatz zu erreichen:

  • Das Modellformat ist pytorchgptqawqfp4fp8 oder bnb

  • Wenn das Modellformat pytorch ist, muss die Quantisierungsoption none sein.

  • Wenn das Modellformat awq ist, muss die Quantisierungsoption Int4 sein.

  • Wenn das Modellformat gptq ist, müssen die Quantisierungsoptionen Int3, Int4 oder Int8 sein.

  • Das Betriebssystem ist Linux und es gibt mindestens ein Gerät, das CUDA unterstützt.

  • Das Feld model_family für benutzerdefinierte Modelle und das Feld model_name für integrierte Modelle befinden sich in der Unterstützungsliste von vLLM.

Derzeit umfassen die unterstützten Modelle:

  • code-llama, code-llama-instruct, code-llama-python, deepseek, deepseek-chat, deepseek-coder, deepseek-coder-instruct, deepseek-r1-distill-llama, gorilla-openfunctions-v2, HuatuoGPT-o1-LLaMA-3.1, llama-2, llama-2-chat, llama-3, llama-3-instruct, llama-3.1, llama-3.1-instruct, llama-3.3-instruct, minicpm5-1b, tiny-llama, wizardcoder-python-v1.0, wizardmath-v1.0, Yi, Yi-1.5, Yi-1.5-chat, Yi-1.5-chat-16k, Yi-200k, Yi-chat

  • codestral-v0.1, mistral-instruct-v0.1, mistral-instruct-v0.2, mistral-instruct-v0.3, mistral-large-instruct, mistral-nemo-instruct, mistral-v0.1, openhermes-2.5, seallm_v2

  • Baichuan-M2, codeqwen1.5, codeqwen1.5-chat, deepseek-r1-distill-qwen, DianJin-R1, fin-r1, HuatuoGPT-o1-Qwen2.5, KAT-V1, marco-o1, qwen1.5-chat, qwen2-instruct, qwen2.5, qwen2.5-coder, qwen2.5-coder-instruct, qwen2.5-instruct, qwen2.5-instruct-1m, qwenLong-l1, QwQ-32B, QwQ-32B-Preview, seallms-v3, skywork-or1, skywork-or1-preview, XiYanSQL-QwenCoder-2504

  • llama-3.2-vision, llama-3.2-vision-instruct

  • baichuan-2, baichuan-2-chat

  • InternLM2ForCausalLM

  • qwen-chat

  • mixtral-8x22B-instruct-v0.1, mixtral-instruct-v0.1, mixtral-v0.1

  • cogagent

  • glm-edge-chat, glm4-chat, glm4-chat-1m

  • codegeex4, glm-4v

  • seallm_v2.5

  • orion-chat

  • qwen1.5-moe-chat, qwen2-moe-instruct

  • CohereForCausalLM

  • deepseek-v2-chat, deepseek-v2-chat-0628, deepseek-v2.5, deepseek-vl2

  • deepseek-prover-v2, deepseek-r1, deepseek-r1-0528, deepseek-v3, deepseek-v3-0324, Deepseek-V3.1, moonlight-16b-a3b-instruct

  • deepseek-r1-0528-qwen3, qwen3

  • minicpm3-4b

  • internlm3-instruct

  • gemma-3-1b-it

  • glm4-0414

  • minicpm-2b-dpo-bf16, minicpm-2b-dpo-fp16, minicpm-2b-dpo-fp32, minicpm-2b-sft-bf16, minicpm-2b-sft-fp32, minicpm4

  • Ernie4.5

  • Qwen3-Coder, Qwen3-Instruct, Qwen3-Thinking

  • glm-4.5, GLM-4.6, GLM-4.7

  • gpt-oss

  • seed-oss

  • Qwen3-Next-Instruct, Qwen3-Next-Thinking

  • DeepSeek-V3.2, DeepSeek-V3.2-Exp

  • MiniMax-M2, MiniMax-M2.5, MiniMax-M2.7

  • GLM-4.7-Flash

  • glm-5, glm-5.1

  • DeepSeek-V4-Flash, DeepSeek-V4-Pro

Installiere xinference und vLLM:

pip install "xinference[vllm]"

# FlashInfer is optional but required for specific functionalities such as sliding window attention with Gemma 2.
# For CUDA 12.4 & torch 2.4 to support sliding window attention for gemma 2 and llama 3.1 style rope
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html

Llama.cpp Engine#

Xinference unterstützt Modelle im GGUF-Format über xllamacpp. xllamacpp wird vom Xinference-Team entwickelt und ist seit v1.6.0 das einzige Backend von llama.cpp.

Warnung

Seit Xinference v1.5.0 ist llama-cpp-python veraltet; seit Xinference v1.6.0 wurde dieses Backend entfernt.

Erste Schritte:

pip install "xinference[llama_cpp]"

Weitere Installationsanleitungen für xllamacpp zur Aktivierung der GPU-Beschleunigung finden Sie unter: xorbitsai/xllamacpp

SGLang-Engine#

SGLang besitzt eine leistungsstarke Inferenz-Laufzeitumgebung basierend auf RadixAttention. Sie beschleunigt die Ausführung komplexer LLM-Programme erheblich, indem sie den KV-Cache automatisch über mehrere Aufrufe hinweg wiederverwendet. Sie unterstützt zudem andere gängige Inferenztechniken wie kontinuierliches Batching und Tensor-Parallelverarbeitung.

Erste Schritte:

pip install "xinference[sglang]"

MLX-Engine#

MLX-lm wird verwendet, um effiziente LLM-Inferenz auf Apple-Silicon-Chips bereitzustellen.

Erste Schritte:

pip install "xinference[mlx]"

Andere Plattformen#