Erste Schritte#
- Installation
- verwenden
- Protokoll
- Docker-Image
- In einem Kubernetes-Cluster Xinference installieren.
- Fehlerbehebung
- Keine Berechtigung für das Huggingface-Repository.
- NVIDIA-Treiber und PyTorch-Version sind nicht kompatibel.
- Externe Systeme können nicht über
<IP>:9997auf den Xinference-Dienst zugreifen. - Das Starten des integrierten Modells dauert sehr lange, und das Modell schlägt manchmal beim Herunterladen fehl.
- Bei Verwendung des offiziellen Docker-Images stirbt RayWorkerVllm aufgrund von OOM, sodass das Modell nicht geladen werden kann.
- Fehlender Parameter
model_enginebeim Laden des LLM-Modells - Behebung des MKL-Thread-Schichtkonflikts
- Konfigurieren Sie den PyPI-Spiegel, um die Paketinstallationsgeschwindigkeit zu erhöhen.
- Die Installation von Xinference 1.12.0 mit uv ist fehlgeschlagen (Stand November 2025).
- vLLM + Torch + Xinference Kompatibilitätsproblem (Segmentation Fault)
- Umgebungsvariable
- XINFERENCE_ENDPOINT
- XINFERENCE_MODEL_SRC
- XINFERENCE_HOME
- XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD
- XINFERENCE_HEALTH_CHECK_INTERVAL
- XINFERENCE_HEALTH_CHECK_TIMEOUT
- XINFERENCE_DISABLE_HEALTH_CHECK
- XINFERENCE_DISABLE_METRICS
- XINFERENCE_DOWNLOAD_MAX_ATTEMPTS
- XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE
- XINFERENCE_SSE_PING_ATTEMPTS_SECONDS
- XINFERENCE_MAX_TOKENS
- XINFERENCE_ALLOWED_IPS
- XINFERENCE_BATCH_SIZE
- XINFERENCE_BATCH_INTERVAL
- XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU
- XINFERENCE_LAUNCH_STRATEGY
- XINFERENCE_MAX_CONCURRENT_LAUNCHES
- XINFERENCE_ENABLE_VIRTUAL_ENV
- XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED
- XINFERENCE_CSG_TOKEN
- XINFERENCE_CSG_ENDPOINT
- XINFERENCE_QWEN3_RERANK_TEMPLATE
- XINFERENCE_LAUNCH_HISTORY_DB_PATH
- Versionshinweise zur Veröffentlichung