Modell#

Modelliste#

Sie können alle Modelle eines bestimmten Typs auflisten, die in Xinference gestartet werden können:

xinference registrations --model-type <MODEL_TYPE> \
                         [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/model_registrations/<MODEL_TYPE>

from xinference.client import Client
client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_model_registrations(model_type='<MODEL_TYPE>'))

Xinference unterstützt die folgenden MODEL_TYPE:

LLM

Textgenerierungsmodelle oder große Sprachmodelle

Large Language Model

embedding

Text-Einbettungsmodell

Einbettungsmodell

image

Bildgenerierungs- oder -verarbeitungsmodell

Bildmodell

audio

Audio-Modell

rerank

Reranking-Modell

video

Video-Modell

Flex-Modell

Flexible Modell (traditionelles maschinelles Lernmodell)

Traditionelles maschinelles Lernmodell (experimentell)

Unter diesem Link findest du alle integrierten Modelle, die von Xinference unterstützt werden. Falls das benötigte Modell nicht verfügbar ist, ermöglicht dir Xinference auch die Registrierung eigener benutzerdefinierter Modelle.

Modell starten und stoppen#

Jeder laufende Modellinstanz wird eine eindeutige Modell-UID zugewiesen. Standardmäßig entspricht die Modell-UID dem Modellnamen. Diese ID dient als Handle für die spätere Nutzung der Modellinstanz, wobei die Option --model-uid im Startbefehl zur manuellen Festlegung verwendet werden kann.

Sie können ein Modell entweder über die Befehlszeile oder den Python-Client von Xinference starten.

xinference launch --model-name <MODEL_NAME> \
                  [--model-engine <MODEL_ENGINE>] \
                  [--model-type <MODEL_TYPE>] \
                  [--model-uid <MODEL_UID>] \
                  [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"] \

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
model_uid = client.launch_model(
  model_name="<MODEL_NAME>",
  model_engine="<MODEL_ENGINE>",
  model_type="<MODEL_TYPE>"
  model_uid="<MODEL_UID>"
)
print(model_uid)

Für den Modelltyp LLM erfordert das Starten des Modells nicht nur die Angabe des Modellnamens, sondern auch die Größe der Parameter, das Modellformat und die Modell-Engine. Bitte lesen Sie die Dokumentation Large Language Model.

Der folgende Befehl listet die in Xinference laufenden Modelle auf:

xinference list [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
print(client.list_models())

Wenn Sie das aktuell laufende Modell nicht mehr benötigen, geben Sie die von ihm belegten Ressourcen auf folgende Weise frei:

xinference terminate --model-uid "<MODEL_UID>" [--endpoint "http://<XINFERENCE_HOST>:<XINFERENCE_PORT>"]

curl -X DELETE http://<XINFERENCE_HOST>:<XINFERENCE_PORT>/v1/models/<MODEL_UID>

from xinference.client import Client

client = Client("http://<XINFERENCE_HOST>:<XINFERENCE_PORT>")
client.terminate_model(model_uid="<MODEL_UID>")

Bemerkung

Für Modelle, die nicht mehr gewartet werden und auf veraltete Bibliotheken (wie transformers ) angewiesen sind, wird empfohlen, die Funktion Modell-Virtual-Environment zu aktivieren, um sicherzustellen, dass sie in einer kompatiblen Umgebung ordnungsgemäß funktionieren.

Modellverwendung#

Chat & Generierung

Lernen Sie, wie Sie in Xinference mit dem LLM chatten.

Chat & Generieren

Tools

Lerne, wie man LLMs mit externen Werkzeugen verbindet.

Werkzeug

Einbettung

Lerne, wie man Texteinbettungen in Xinference erstellt.

Einbettung

Neuordnung

Erfahren Sie, wie Sie ein Re-Ranking-Modell in Xinference verwenden.

Neuordnung

Bild

Lernen Sie, wie man mit Xinference Bilder generiert.

Bild

multimodal

Lernen Sie, wie Sie LLM zur Verarbeitung von Bildern und Audio verwenden.

multimodal

Audio

Lernen Sie, wie Sie mit Xinference Audio in Text oder Text in Audio umwandeln können.

Audio

Video

Lernen Sie, wie Sie mit Xinference Videos generieren.

Video (experimentell)

Flex-Modell

Erfahren Sie, wie Sie mit Xinference traditionelle Machine-Learning-Modelle inferieren können.

Traditionelles maschinelles Lernmodell (experimentell)