Umgebungsvariable#
XINFERENCE_ENDPOINT#
Die Dienstadresse von Xinference, die für die Verbindung mit Xinference verwendet wird. Die Standardadresse ist http://127.0.0.1:9997, diese Adresse kann in den Protokollen gefunden werden.
XINFERENCE_MODEL_SRC#
Konfigurieren Sie das Modell-Download-Repository. Die Standard-Download-Quelle ist „huggingface“, sie kann auch auf „modelscope“ als Download-Quelle gesetzt werden.
XINFERENCE_HOME#
Xinference verwendet standardmäßig <HOME>/.xinference als Standardverzeichnis zum Speichern von Modellen und erforderlichen Dateien wie Logs. <HOME> ist dabei das Home-Verzeichnis des aktuellen Benutzers. Das Standardverzeichnis kann durch Konfiguration dieser Umgebungsvariablen geändert werden.
XINFERENCE_HEALTH_CHECK_FAILURE_THRESHOLD#
Maximale Anzahl zulässiger fehlgeschlagener Health-Checks beim Start von Xinference. Standardwert ist 5.
XINFERENCE_HEALTH_CHECK_INTERVAL#
Gesundheitscheck-Intervall beim Start von Xinference (in Sekunden). Der Standardwert beträgt 5.
XINFERENCE_HEALTH_CHECK_TIMEOUT#
Xinference-Start Healthcheck-Timeout (Sekunden). Standardwert ist 10.
XINFERENCE_DISABLE_HEALTH_CHECK#
Wenn die Bedingungen erfüllt sind, meldet Xinference automatisch den Worker-Status. Setzen Sie diese Umgebungsvariable auf 1, um die Gesundheitsprüfung zu deaktivieren.
XINFERENCE_DISABLE_METRICS#
Xinference aktiviert standardmäßig den Metrics-Exporter auf Supervisor und Worker. Durch Setzen der Umgebungsvariable auf 1 kann der /metrics-Endpunkt auf dem Supervisor deaktiviert und der HTTP-Dienst (der nur den /metrics-Endpunkt bereitstellt) auf dem Worker deaktiviert werden.
XINFERENCE_DOWNLOAD_MAX_ATTEMPTS#
Die maximale Anzahl der Download-Wiederholungen für Modelldateien. Der Standardwert ist 3.
XINFERENCE_TEXT_TO_IMAGE_BATCHING_SIZE#
Aktivieren Sie kontinuierliches Batch-Verarbeitung für das Text-zu-Bild-Modell durch Angabe der Zielbildgröße (z. B. 1024*1024). Standardmäßig nicht gesetzt.
XINFERENCE_SSE_PING_ATTEMPTS_SECONDS#
Server-Sent-Events Keep-Alive-Ping-Intervall (Sekunden). Standardwert ist 600.
XINFERENCE_MAX_TOKENS#
Angeforderte globale maximale Token-Begrenzung überschreiben. Standardwert ist nicht festgelegt.
XINFERENCE_ALLOWED_IPS#
Beschränken Sie den Zugriff auf eine bestimmte IP-Adresse oder einen CIDR-Adressblock. Standardmäßig nicht festgelegt (keine Einschränkung).
XINFERENCE_BATCH_SIZE#
Die Standard-Batchgröße, die der Server verwendet, wenn Batchverarbeitung aktiviert ist. Der Standardwert ist 32.
XINFERENCE_BATCH_INTERVAL#
Standardmäßiges Batch-Intervall (Sekunden). Standardwert ist 0,003.
XINFERENCE_ALLOW_MULTI_REPLICA_PER_GPU#
Darf auf einer einzelnen GPU mehr als eine Kopie erstellt werden. Der Standardwert ist 1 (aktiviert).
XINFERENCE_LAUNCH_STRATEGY#
Die GPU-Zuweisungsstrategie für Replikate. Der Standardwert ist IDLE_FIRST_LAUNCH_STRATEGY.
XINFERENCE_MAX_CONCURRENT_LAUNCHES#
Maximum number of model launches that can proceed concurrently on a single worker node. When more replicas are launched than this limit, excess launches queue and proceed as slots free up. This prevents resource exhaustion (fork storms, disk IO saturation, GPU memory contention) that can cause heartbeat timeouts. Default value is 5.
XINFERENCE_ENABLE_VIRTUAL_ENV#
Modell-Virtual-Umgebung global aktivieren. Standardwert ist 1 (aktiviert, gültig ab Version v2.0).
XINFERENCE_VIRTUAL_ENV_SKIP_INSTALLED#
Überspringe beim Erstellen einer virtuellen Umgebung bereits in den systemweiten site-packages vorhandene Pakete. Standardwert ist 1.
XINFERENCE_CSG_TOKEN#
CSGHub Modellquellen-Authentifizierungstoken. Standardwert: nicht gesetzt.
XINFERENCE_CSG_ENDPOINT#
CSGHub Modellquell-Endpunkt. Standardwert ist https://hub-stg.opencsg.com/ .
XINFERENCE_QWEN3_RERANK_TEMPLATE#
Enable template for Qwen3 rerank model family (0.6B, 4B, 8B,etc) globally. Default value is 1.
XINFERENCE_LAUNCH_HISTORY_DB_PATH#
Path to the SQLite database that stores the model launch configuration history
shown in the „Launch Model“ drawer of the Web UI. This store is shared across
all clients so the history is available from any browser or machine, and it is
independent of the authentication database. When authentication is enabled, each
record keeps the creator’s username (created_by).
Default value is <XINFERENCE_HOME>/launch_history.db.