Zum Hauptinhalt springen

Ctrl+K

Erste Schritte
Modell
Benutzerhandbuch

GitHub
Telegram
Discord
Twitter

Erste Schritte
Modell
Benutzerhandbuch
Beispiel
API-Leitfaden
Entwicklungsleitfaden
Official Site

GitHub
Telegram
Discord
Twitter

Abschnitt Navigation

Inferenz-Engine
Client-API
OAuth2-System (experimentell)
Modell-Ladeanleitung
Metrics
Verteilte Inferenz (verteiltes Schließen)
Chargenweise Stapelverarbeitung
Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten

Benutzerhandbuch

Benutzerhandbuch#

Inferenz-Engine
- llama.cpp
- transformers
- vLLM
- SGLang
- MLX
Client-API
- LLM
- Embedding
- Bild
- Audio
- Rerank
OAuth2-System (experimentell)
Modell-Ladeanleitung
Metrics
- Supervisor Metrics
- Worker Metrics
Verteilte Inferenz (verteiltes Schließen)
- Unterstützte Engine
- Nutzen
Chargenweise Stapelverarbeitung
Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten
- Verwenden
- Einschränkung

zurück

Modellspeichernutzung berechnen

weiter

Inferenz-Engine

Quellcode anzeigen

© Copyright 2025, Xorbits Inc.

Erstellt mit Sphinx 8.1.3

Erstellt mit dem PyData Sphinx Theme 0.19.0