如何提高推理速率
#10
by
kevinBusinessGenrator
- opened
1、环境
将模型部署在四卡4090上,启动参数为
--limit-mm-per-prompt image=2,video=0 --tensor-parallel-size 4 --gpu_memory_utilization 0.95 --max-model-len 32768 --enable-prefix-caching --max-num-batched-tokens 32768
--enable-chunked-prefill --trust-remote-code --max-num-seqs 1 --enforce-eager
请求带有提示词和两张图片,实测下来速率为15tokens/s,这个速率是否还有提升空间
提示词2000多个字符,两张图片分辨率都为为2448 × 2048