Xavier: Teilen des KV-Cache zwischen mehreren VLLM-Replikaten#
Für Szenarien wie lange Dokumentabfragen und mehrrundige Dialoge kann die Berechnung in der Prefill-Phase des Inferenzprozesses besonders aufwändig sein, was den Gesamtdurchsatz und die Latenz einzelner Inferenzen beeinträchtigt. Xinference verbessert die vLLM-Engine durch die Einführung des Xavier-Frameworks, das die gemeinsame Nutzung von KV-Caches zwischen mehreren vLLM-Instanzen unterstützt. Dadurch können die von anderen Replikaten berechneten KV-Caches direkt wiederverwendet werden, was redundante Berechnungen vermeidet.
Verwenden#
Beim Starten des vLLM-Modells setzen Sie die Option enable_xavier=True.
Einschränkung#
Xavier erfordert eine vLLM-Version nicht niedriger als
0.7.0. Versionen über0.11.0werden vorübergehend nicht unterstützt.Da die zugrunde liegende Kommunikation die Adresse
0.0.0.0nicht erkennen kann, muss beim Start von xinference eine tatsächliche IP-Adresse konfiguriert werden, z. B.:xinference-local -H 192.168.xx.xx.Xavier unterstützt nur Nvidia-Grafikkarten.