Zum Hauptinhalt springen
Ctrl+K
Xinference Xinference
  • Erste Schritte
  • Modell
  • Benutzerhandbuch
    • Beispiel
    • API-Leitfaden
    • Entwicklungsleitfaden
    • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter
  • Erste Schritte
  • Modell
  • Benutzerhandbuch
  • Beispiel
  • API-Leitfaden
  • Entwicklungsleitfaden
  • Official Site
  • GitHub
  • Telegram
  • Discord
  • Twitter

Abschnitt Navigation

  • Inferenz-Engine
  • Client-API
  • OAuth2-System (experimentell)
  • Modell-Ladeanleitung
  • Metrics
  • Verteilte Inferenz (verteiltes Schließen)
  • Chargenweise Stapelverarbeitung
  • Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten
  • Benutzerhandbuch

Benutzerhandbuch#

  • Inferenz-Engine
    • llama.cpp
    • transformers
    • vLLM
    • SGLang
    • MLX
  • Client-API
    • LLM
    • Embedding
    • Bild
    • Audio
    • Rerank
  • OAuth2-System (experimentell)
    • Berechtigung
    • Erste Schritte
    • Benutzen
    • HTTP-Statuscode
    • Achtung
  • Modell-Ladeanleitung
    • Kopie
    • Gemischte Verteilungsstrategie
    • Setzen Sie die Umgebungsvariable.
    • Konfiguration des virtuellen Modellraums
    • Batch / Sequential Batch Processing
    • Denkmodus
  • Metrics
    • Supervisor Metrics
    • Worker Metrics
  • Verteilte Inferenz (verteiltes Schließen)
    • Unterstützte Engine
    • Nutzen
  • Chargenweise Stapelverarbeitung
    • Verwendung
    • Anfrage abbrechen
    • Hinweise
  • Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten
    • Verwenden
    • Einschränkung

zurück

Modellspeichernutzung berechnen

weiter

Inferenz-Engine

Quellcode anzeigen

© Copyright 2025, Xorbits Inc.

Erstellt mit Sphinx 8.1.3

Erstellt mit dem PyData Sphinx Theme 0.19.0