Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten#

Für Szenarien wie lange Dokumentabfragen und mehrrundige Dialoge kann die Berechnung in der Prefill-Phase des Inferenzprozesses besonders aufwändig sein, was den Gesamtdurchsatz und die Latenz einzelner Inferenzen beeinträchtigt. Xinference verbessert die vLLM-Engine durch die Einführung des Xavier-Frameworks, das die gemeinsame Nutzung von KV-Caches zwischen mehreren vLLM-Instanzen unterstützt. Dadurch können die von anderen Replikaten berechneten KV-Caches direkt wiederverwendet werden, was redundante Berechnungen vermeidet.

Verwenden#

Beim Starten des vLLM-Modells setzen Sie die Option enable_xavier=True.

Einschränkung#

  • Xavier erfordert eine vLLM-Version nicht niedriger als 0.7.0. Versionen über 0.11.0 werden vorübergehend nicht unterstützt.

  • Da die zugrunde liegende Kommunikation die Adresse 0.0.0.0 nicht erkennen kann, muss beim Start von xinference eine tatsächliche IP-Adresse konfiguriert werden, z. B.: xinference-local -H 192.168.xx.xx.

  • Xavier unterstützt nur Nvidia-Grafikkarten.