Modell#

Modelliste#

Sie können alle Modelle eines bestimmten Typs auflisten, die in Xinference gestartet werden können:

xinference registrations --model-type <MODEL_TYPE> \
                         [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

Xinference unterstützt die folgenden MODEL_TYPE:

LLM

Textgenerierungsmodelle oder große Sprachmodelle

Large Language Model
embedding

Text-Einbettungsmodell

Einbettungsmodell
image

Bildgenerierungs- oder -verarbeitungsmodell

Bildmodell
audio

Audio-Modell

Audio-Modell
rerank

Reranking-Modell

Reranking-Modell
video

Video-Modell

Video-Modell
Flex-Modell

Flexible Modell (traditionelles maschinelles Lernmodell)

Traditionelles maschinelles Lernmodell (experimentell)

Unter diesem Link findest du alle integrierten Modelle, die von Xinference unterstützt werden. Falls das benötigte Modell nicht verfügbar ist, ermöglicht dir Xinference auch die Registrierung eigener benutzerdefinierter Modelle.

Modell starten und stoppen#

Jeder laufende Modellinstanz wird eine eindeutige Modell-UID zugewiesen. Standardmäßig entspricht die Modell-UID dem Modellnamen. Diese ID dient als Handle für die spätere Nutzung der Modellinstanz, wobei die Option --model-uid im Startbefehl zur manuellen Festlegung verwendet werden kann.

Sie können ein Modell entweder über die Befehlszeile oder den Python-Client von Xinference starten.

xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

Für den Modelltyp LLM erfordert das Starten des Modells nicht nur die Angabe des Modellnamens, sondern auch die Größe der Parameter, das Modellformat und die Modell-Engine. Bitte lesen Sie die Dokumentation Large Language Model.

Der folgende Befehl listet die in Xinference laufenden Modelle auf:

xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

Wenn Sie das aktuell laufende Modell nicht mehr benötigen, geben Sie die von ihm belegten Ressourcen auf folgende Weise frei:

xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

Bemerkung

Für Modelle, die nicht mehr gewartet werden und auf veraltete Bibliotheken (wie transformers ) angewiesen sind, wird empfohlen, die Funktion Modell-Virtual-Environment zu aktivieren, um sicherzustellen, dass sie in einer kompatiblen Umgebung ordnungsgemäß funktionieren.

Modellverwendung#

Chat & Generierung

Lernen Sie, wie Sie in Xinference mit dem LLM chatten.

Chat & Generieren
Tools

Lerne, wie man LLMs mit externen Werkzeugen verbindet.

Werkzeug
Einbettung

Lerne, wie man Texteinbettungen in Xinference erstellt.

Einbettung
Neuordnung

Erfahren Sie, wie Sie ein Re-Ranking-Modell in Xinference verwenden.

Neuordnung
Bild

Lernen Sie, wie man mit Xinference Bilder generiert.

Bild
multimodal

Lernen Sie, wie Sie LLM zur Verarbeitung von Bildern und Audio verwenden.

multimodal
Audio

Lernen Sie, wie Sie mit Xinference Audio in Text oder Text in Audio umwandeln können.

Audio
Video

Lernen Sie, wie Sie mit Xinference Videos generieren.

Video (experimentell)
Flex-Modell

Erfahren Sie, wie Sie mit Xinference traditionelle Machine-Learning-Modelle inferieren können.

Traditionelles maschinelles Lernmodell (experimentell)