最强开源大模型Llama3.1发布英特尔AI解决方案率先实现优化加速

继今年4月推出Llama 3之后，Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1。Llama 3.1涵盖多个不同规模及功能的全新模型，其中包括目前可获取的、最大的开放基础模型—— Llama 3.1 405B（4050亿参数）。Meta表示，作为目前最优秀和最大的开源基础模型（foundation models,FMs）之一， Llama 3.1 405B为生成式AI能力设立了新标准。它特别适用于合成数据生成和模型蒸馏，这能在后续训练中提升较小尺寸Llama模型的性能。同时Llama 3.1 405B还在通用知识、数学、工具使用和多语言翻译方面有出色的表现。

得益于大幅增加的训练数据和规模，所有新的Llama 3.1模型相比之前的版本都有明显改进。这些模型支持128K的上下文长度，相较于Llama3增加了12万个标记（Token），模型容量是上一版本的16倍，并提升了在以下八种语言对话场景中的推理能力，即英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。

Llama 3.1模型还增强对语言细微差别的理解能力，即能更好地理解上下文，并能更有效地处理复杂问题。该模型还可以从长篇文本中获取更多信息，以做出更明智的决策，并利用更丰富的上下文数据生成更加细致和凝练的回应。

就在Llama 3.1发布的当天，英特尔就宣布公司横跨数据中心、边缘以及客户端AI产品已面向Meta最新推出的大语言模型（LLM）Llama 3.1进行了优化，并公布了一系列性能数据。英特尔表示，目前其丰富的AI产品组合已支持上述最新模型，并通过开放生态系统软件实现了针对性优化，涵盖PyTorch及英特尔PyTorch扩展包（Intel Extension for PyTorch）、DeepSpeed、Hugging Face Optimum库和vLLM等。此外，企业AI开放平台（OPEA）亦为这些模型提供支持。作为由LFAI & Data基金会发起的全新开放平台项目，OPEA旨在聚合生态之力，推动创新，构建开放、多供应商的、强大且可组合的生成式AI解决方案。

根据英特尔的官方数据，包括英特尔至强处理器、搭载英特尔酷睿Ultra处理器和英特尔锐炫显卡的AI PC产品都实现了对Llama 3.1的优化支持。

首先是英特尔至强处理器。作为通用计算的基石，英特尔至强处理器为全球用户提供了强大算力，目前第五代至强可扩展处理器已通过各大云服务商面市，至强6能效核处理器也于今年6月份在中国正式发布。英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展（AMX）AI引擎，可将AI性能提升至新水平。根据基准测试，在第五代英特尔至强平台上以1K token输入和128 token输出运行80亿参数的Llama 3.1模型，可以达到每秒176 token的吞吐量，同时保持下一个token延迟小于50毫秒。下图展示了运行支持128k长文本的80亿参数Llama 3.1模型时，下一个token延迟可低于100毫秒。

基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟

由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC则能为客户端和边缘提供卓越的设备端AI推理能力。凭借诸如英特尔酷睿平台上的NPU，以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件，在AI PC上进行轻量级微调和应用定制比以往更加容易。对于本地研发，PyTorch及英特尔PyTorch扩展包等开放生态系统框架可帮助加速。而对于应用部署，用户则可使用英特尔OpenVINO工具包在AI PC上进行高效的模型部署和推理。AI工作负载可无缝部署于CPU、GPU以及NPU上，同时实现性能优化。

在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上，Llama 3.1推理的下一个token延迟

在使用英特尔锐炫A770 16GB限量版显卡的AI PC上，Llama 3.1推理的下一个token延迟

现如今，诸多企业都拥有规模庞大的历史数据，这些数据通常被视作企业的私有财产，因此无法被大模型直接访问，对这些企业而言，部署生成式AI解决方案会带来诸如成本、规模、准确性、开发需求、隐私和可靠性等方面的挑战。作为一种关键的生成式AI工作负载，RAG可以让企业安全地利用专有数据，增强AI产出结果的及时性与可靠性。

为了进一步加快RAG技术部署，推动生成式AI解决方案快速落地，英特尔与行业合作伙伴共同创建了开源、可互操作的解决方案。基于企业AI开放平台（OPEA），该方案是一种以行业需求为导向、开箱即用，且可立即投产的RAG解决方案。该生成式AI一站式解决方案在助力企业便捷地部署数据中心RAG的同时，具备高度的灵活性和可定制性，并集成了多个OEM系统及行业合作伙伴的产品组件。

作为OPEA的发起成员之一，英特尔正帮助引领行业为企业AI打造开放的生态系统，同时，OPEA亦助力Llama 3.1模型实现性能优化。

基于可组合且可配置的多方合作组件，OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线（pipeline）。此次测试中，微服务部署于OPEA蓝图的每一支细分领域中，包括防护（Guardrail）、嵌入（Embedding）、大模型、数据提取及检索。端到端RAG流水线通过Llama 3.1进行大模型的推理及防护，使用BAAI/bge-base-en-v1.5模型进行嵌入，基于Redis向量数据库，并通过Kubernetes（K8s）系统进行编排。

基于Llama 3.1的端到端RAG流水线，由英特尔Gaudi 2加速器和至强处理器提供支持

目前，英特尔AI PC及数据中心AI产品组合和解决方案已面向全新Llama 3.1模型实现优化，OPEA亦在基于英特尔至强等产品上全面启用。未来，英特尔将持续投入软件优化，支持更多全新的模型与用例。

(8868500)

最强开源大模型Llama3.1发布英特尔AI解决方案率先实现优化加速

继续阅读

字节豆包AI大模型首发上车，全新smart精灵#5正式发布

Scratch学数学之模拟扩散有限凝聚模型（DLA）

震撼！AI实时生成游戏，每秒20帧，谷歌扩散模型最新突破一夜爆火

30万亿银行理财市场新变局：大模型驱动行业高质量发展

机电AI知识大模型来了！使用方法（推荐）：进入公众号后台，点击“发消息”按钮，或“服务”按钮，找到菜单栏—AI助手，与助

浙大妇院发布妇产科领域垂直大模型“善育大模型”，模型参数100亿

Langchain入门指南：一站式连接大模型与数据源

英特尔帝国正在分崩离析？#荣耀发布首款骁龙版MagicBook#荣耀CEO赵明今近期在IFA2024上发布了荣耀首款骁龙

国产手机行业太卷了，荣耀打响下半年新旗舰第一枪？荣耀CEO赵明表示，荣耀Magic7系列全球首发首个开放生态智能体HON

大模型给企业带来的变革与增长

PPIO派欧云发布全新算力云产品，助力大模型推理千倍降本

厨电正在兴起一场AI革命，万得厨凭端对端大模型能力吹响了冲锋哨音

经常get不到学霸老婆想法的他，在西湖大学研究大模型，想让AI读懂人类的快乐与悲伤

支付宝发布AI生活管家“支小宝”丨腾讯发布最强模型混元Turbo

如有大模型，“雷曼兄弟事件”就不会发生？

2024外滩大会：WDTA发布首个大模型供应链安全领域的国际标准

最强开源大模型Llama3.1发布 英特尔AI解决方案率先实现优化加速

继续阅读

最强开源大模型Llama3.1发布英特尔AI解决方案率先实现优化加速