Benutzerhandbuch# Inferenz-Engine llama.cpp transformers vLLM SGLang MLX Client-API LLM Embedding Bild Audio Rerank OAuth2-System (experimentell) Berechtigung Erste Schritte Benutzen HTTP-Statuscode Achtung Modell-Ladeanleitung Kopie Gemischte Verteilungsstrategie Setzen Sie die Umgebungsvariable. Konfiguration des virtuellen Modellraums Batch / Sequential Batch Processing Denkmodus Metrics Supervisor Metrics Worker Metrics Verteilte Inferenz (verteiltes Schließen) Unterstützte Engine Nutzen Chargenweise Stapelverarbeitung Verwendung Anfrage abbrechen Hinweise Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten Verwenden Einschränkung