Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten#

Für Szenarien wie lange Dokumentabfragen und mehrrundige Dialoge kann die Berechnung in der Prefill-Phase des Inferenzprozesses besonders aufwändig sein, was den Gesamtdurchsatz und die Latenz einzelner Inferenzen beeinträchtigt. Xinference verbessert die vLLM-Engine durch die Einführung des Xavier-Frameworks, das die gemeinsame Nutzung von KV-Caches zwischen mehreren vLLM-Instanzen unterstützt. Dadurch können die von anderen Replikaten berechneten KV-Caches direkt wiederverwendet werden, was redundante Berechnungen vermeidet.

Verwenden#

Beim Starten des vLLM-Modells setzen Sie die Option enable_xavier=True.

Einschränkung#

Xavier erfordert eine vLLM-Version nicht niedriger als 0.7.0. Versionen über 0.11.0 werden vorübergehend nicht unterstützt.
Da die zugrunde liegende Kommunikation die Adresse 0.0.0.0 nicht erkennen kann, muss beim Start von xinference eine tatsächliche IP-Adresse konfiguriert werden, z. B.: xinference-local -H 192.168.xx.xx.
Xavier unterstützt nur Nvidia-Grafikkarten.