Modellspeichernutzung berechnen#

Um die VRAM-Nutzung besser planen zu können, bietet Xinference ein Werkzeug zur Berechnung des Modell-VRAM-Verbrauchs: cal-model-mem

Der Algorithmus stammt von: RahulSChand/gpu_poor

model_mem, kv_cache, overhead, active_mem

Beispiel: Um den Speicherverbrauch des qwen1.5-chat-Modells zu berechnen, führen Sie den folgenden Beispielbefehl aus:

xinference cal-model-mem -s 7 -q Int4 -f gptq -c 16384 -n qwen1.5-chat

model_name: qwen1.5-chat
kv_cache_dtype: 16
model size: 7.0 B
quant: Int4
context: 16384
gpu mem usage:
  model mem: 4139 MB
  kv_cache: 8192 MB
  overhead: 650 MB
  active: 17024 MB
  total: 30005 MB (30 GB)

Syntax#

–size-in-billions {model_size}
- -s {model_size}
Modellgröße einstellen. Geben Sie die Modellgröße in Milliarden Parametern an. Das Parameterformat akzeptiert Formen wie 1_8 und 1.8. Zum Beispiel steht 7 für eine Modellgröße von 7,0B.
–quantization {precision}
- -q {precision} (optional)
Legen Sie die Quantisierungskonfiguration des Modells fest. Beispiel: Der Parameter Int4 gibt die Verwendung der INT4-Quantisierung an.
–model-name {model_name}
- -n {model_name} (optional)
Geben Sie den Modellnamen an. Wenn dieser Parameter angegeben wird, wird die Modellkonfiguration von huggingface/modelscope abgerufen; wenn nicht angegeben, wird eine grobe Schätzung mit den Standard-Layer-Parametern durchgeführt.
–context-length {context_length}
- -c {context_length}
Maximale Kontextlänge des Modells festlegen.
–model-format {format}
- -f {format}
Das Format des angegebenen Modells, z. B.: pytorch, ggmlv3 usw.

Bemerkung

Mit der Umgebungsvariable HF_ENDPOINT kann der Endpoint des HuggingFace-Servers gesetzt werden. Beispielsweise kann bei schlechtem Netzwerk hf-mirror als Endpoint ausgewählt werden. Weitere Informationen finden Sie in diesem Dokument.