Installation#
Xinference kann unter Linux, Windows und MacOS über pip installiert werden. Wenn Sie Xinference für Modellinferenz verwenden möchten, können Sie je nach Modell unterschiedliche Engines festlegen.
Wenn du alle unterstützten Modelle verwenden möchtest, kannst du mit folgendem Befehl alle erforderlichen Abhängigkeiten installieren:
pip install "xinference[all]"
Geändert in Version v1.8.1: Da vllm und sglang in Bezug auf Paketabhängigkeiten nicht kompatibel sind, haben wir sglang aus dem all-Paket entfernt. Wenn Sie sglang verwenden möchten, nutzen Sie bitte pip install 'xinference[sglang]'.
Einige Nutzungsszenarien erfordern besondere Aufmerksamkeit.
GGUF-Format in Kombination mit der llama.cpp-Engine
In diesem Fall wird empfohlen, die Abhängigkeiten basierend auf Ihren Hardwarespezifikationen manuell zu installieren, um die Beschleunigung zu aktivieren. Weitere Details finden Sie im Abschnitt Llama.cpp Engine.
AWQ- oder GPTQ-Format in Verbindung mit transformers-Engine verwenden
Der Inhalt dieses Abschnitts wurde in v1.6.0 hinzugefügt.
Dies liegt daran, dass die Abhängigkeiten in dieser Phase spezielle Optionen erfordern und schwer zu installieren sind. Bitte führen Sie die folgenden Befehle vorab aus:
pip install "xinference[transformers_quantization]" --no-build-isolation
Bestimmte Abhängigkeiten, wie transformers, könnten herabgestuft werden. Sie können später pip install "xinference[all]" ausführen.
Wenn Sie nur die erforderlichen Abhängigkeiten installieren möchten, finden Sie hier die detaillierten Schritte zur Vorgehensweise.
Transformers-Engine#
Der PyTorch(transformers) Engine unterstützt nahezu alle neuesten Modelle. Dies ist die standardmäßig verwendete Engine für PyTorch-Modelle:
pip install "xinference[transformers]"
Hinweis:
Die Transformers-Engine unterstützt die Formate
pytorch/gptq/awq/bnb/fp4.FP4-Format benötigt die transformers-Bibliothek, die FPQuantConfig unterstützt. Falls ein Importfehler auftritt, aktualisieren Sie bitte transformers auf eine neuere Version.
vLLM-Engine#
vLLM ist eine leistungsstarke Inferenz-Engine für große Modelle, die hohe Parallelität unterstützt. Wenn die folgenden Bedingungen erfüllt sind, wählt Xinference automatisch vLLM als Engine aus, um einen höheren Durchsatz zu erreichen:
Das Modellformat ist
pytorch,gptq,awq,fp4,fp8oderbnb。Wenn das Modellformat
pytorchist, muss die Quantisierungsoptionnonesein.Wenn das Modellformat
awqist, muss die QuantisierungsoptionInt4sein.Wenn das Modellformat
gptqist, müssen die QuantisierungsoptionenInt3,Int4oderInt8sein.Das Betriebssystem ist Linux und es gibt mindestens ein Gerät, das CUDA unterstützt.
Das Feld
model_familyfür benutzerdefinierte Modelle und das Feldmodel_namefür integrierte Modelle befinden sich in der Unterstützungsliste von vLLM.
Derzeit umfassen die unterstützten Modelle:
code-llama,code-llama-instruct,code-llama-python,deepseek,deepseek-chat,deepseek-coder,deepseek-coder-instruct,deepseek-r1-distill-llama,gorilla-openfunctions-v2,HuatuoGPT-o1-LLaMA-3.1,llama-2,llama-2-chat,llama-3,llama-3-instruct,llama-3.1,llama-3.1-instruct,llama-3.3-instruct,minicpm5-1b,tiny-llama,wizardcoder-python-v1.0,wizardmath-v1.0,Yi,Yi-1.5,Yi-1.5-chat,Yi-1.5-chat-16k,Yi-200k,Yi-chatcodestral-v0.1,mistral-instruct-v0.1,mistral-instruct-v0.2,mistral-instruct-v0.3,mistral-large-instruct,mistral-nemo-instruct,mistral-v0.1,openhermes-2.5,seallm_v2Baichuan-M2,codeqwen1.5,codeqwen1.5-chat,deepseek-r1-distill-qwen,DianJin-R1,fin-r1,HuatuoGPT-o1-Qwen2.5,KAT-V1,marco-o1,qwen1.5-chat,qwen2-instruct,qwen2.5,qwen2.5-coder,qwen2.5-coder-instruct,qwen2.5-instruct,qwen2.5-instruct-1m,qwenLong-l1,QwQ-32B,QwQ-32B-Preview,seallms-v3,skywork-or1,skywork-or1-preview,XiYanSQL-QwenCoder-2504llama-3.2-vision,llama-3.2-vision-instructbaichuan-2,baichuan-2-chatInternLM2ForCausalLMqwen-chatmixtral-8x22B-instruct-v0.1,mixtral-instruct-v0.1,mixtral-v0.1cogagentglm-edge-chat,glm4-chat,glm4-chat-1mcodegeex4,glm-4vseallm_v2.5orion-chatqwen1.5-moe-chat,qwen2-moe-instructCohereForCausalLMdeepseek-v2-chat,deepseek-v2-chat-0628,deepseek-v2.5,deepseek-vl2deepseek-prover-v2,deepseek-r1,deepseek-r1-0528,deepseek-v3,deepseek-v3-0324,Deepseek-V3.1,moonlight-16b-a3b-instructdeepseek-r1-0528-qwen3,qwen3minicpm3-4binternlm3-instructgemma-3-1b-itglm4-0414minicpm-2b-dpo-bf16,minicpm-2b-dpo-fp16,minicpm-2b-dpo-fp32,minicpm-2b-sft-bf16,minicpm-2b-sft-fp32,minicpm4Ernie4.5Qwen3-Coder,Qwen3-Instruct,Qwen3-Thinkingglm-4.5,GLM-4.6,GLM-4.7gpt-ossseed-ossQwen3-Next-Instruct,Qwen3-Next-ThinkingDeepSeek-V3.2,DeepSeek-V3.2-ExpMiniMax-M2,MiniMax-M2.5,MiniMax-M2.7GLM-4.7-Flashglm-5,glm-5.1DeepSeek-V4-Flash,DeepSeek-V4-Pro
Installiere xinference und vLLM:
pip install "xinference[vllm]"
# FlashInfer is optional but required for specific functionalities such as sliding window attention with Gemma 2.
# For CUDA 12.4 & torch 2.4 to support sliding window attention for gemma 2 and llama 3.1 style rope
pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4
# For other CUDA & torch versions, please check https://docs.flashinfer.ai/installation.html
Llama.cpp Engine#
Xinference unterstützt Modelle im GGUF-Format über xllamacpp. xllamacpp wird vom Xinference-Team entwickelt und ist seit v1.6.0 das einzige Backend von llama.cpp.
Warnung
Seit Xinference v1.5.0 ist llama-cpp-python veraltet; seit Xinference v1.6.0 wurde dieses Backend entfernt.
Erste Schritte:
pip install "xinference[llama_cpp]"
Weitere Installationsanleitungen für xllamacpp zur Aktivierung der GPU-Beschleunigung finden Sie unter: xorbitsai/xllamacpp
SGLang-Engine#
SGLang besitzt eine leistungsstarke Inferenz-Laufzeitumgebung basierend auf RadixAttention. Sie beschleunigt die Ausführung komplexer LLM-Programme erheblich, indem sie den KV-Cache automatisch über mehrere Aufrufe hinweg wiederverwendet. Sie unterstützt zudem andere gängige Inferenztechniken wie kontinuierliches Batching und Tensor-Parallelverarbeitung.
Erste Schritte:
pip install "xinference[sglang]"
MLX-Engine#
MLX-lm wird verwendet, um effiziente LLM-Inferenz auf Apple-Silicon-Chips bereitzustellen.
Erste Schritte:
pip install "xinference[mlx]"