神秘武器揭秘:UC伯克利推出超高效大语言模型推理引擎vLLM
近期,UC伯克利的研究人员在Chatbot Arena擂台为大语言模型(LLM)组织了一场排位赛。为此,他们开发了世界上最快的LLM推断和服务系统vLLM,并将其开源。vLLM是一个开源的LLM推断和服务引擎,利用全新的注意力算法“PagedAttention”有效地管理注意力键和值。vLLM的性能可以达到HuggingFace Transformers的24倍,且无需进行模型架构更改,被誉为Chatbot Arena背后的秘密武器。
PagedAttention,这一受到操作系统中虚拟内存和分页概念启发的注意力算法,降低了内存浪费,提高了吞吐量。实验中,vLLM的吞吐量比HuggingFace高达24倍,比文本生成推理高3.5倍。
vLLM推出后,相信未来,即使是拥有有限计算资源的小型研究团队也能轻松部署自己的LLM服务。团队已在GitHub仓库中发布vLLM的具体使用方法和相关指南。整个项目地址为:网页链接