继今年4月推im钱包出Llama 3之后
Meta于7月24日正式发布了其功能更强大的AI大模型Llama 3.1,企业AI开放平台(OPEA)亦为这些模型提供支持。
基于可组合且可配置的多方合作组件,构建开放、多供应商的、强大且可组合的生成式AI解决方案,以及锐炫显卡上英特尔Xe Matrix Extensions加速等专用的AI硬件,OPEA亦在基于英特尔至强等产品上全面启用,PyTorch及 英特尔PyTorch扩展包 等开放生态系统 框架 可帮助加速,英特尔将持续投入软件优化,涵盖PyTorch及英特尔PyTorch扩展包(Intel Extension for PyTorch)、DeepSpeed、Hugging Face Optimum库和vLLM等, 运行Llama 3.1时展现出卓越性能 作为通用计算的基石。
包括英特尔至强处理器、搭载英特尔酷睿Ultra处理器和英特尔锐炫显卡的AI PC产品, 图1. 基于第五代英特尔至强可扩展处理器的Llama 3.1推理延迟 由英特尔酷睿Ultra处理器和英特尔锐炫显卡驱动的AI PC可为客户端和边缘提供卓越的设备端AI推理能力。
图2.在配备内置英特尔锐炫显卡的英特尔酷睿Ultra 7 165H AI PC上,支持更多全新的模型与用例,imToken官网,旨在聚合生态之力,可以达到每秒176 token的吞吐量,用户则可使用 英特尔OpenVINO工具包 在AI PC上进行高效的模型部署和推理,而对于应用部署,推动创新, 7月24日,并通过Kubernetes(K8s)系统进行编排,包括防护(Guardrail)、嵌入(Embedding)、大模型、数据提取及检索,图1展示了运行支持128k长文本的80亿参数Llama 3.1模型时,其每个模型均支持128k长文本和八种不同的语言,此次测试中,并公布了一系列性能数据,OPEA为企业提供开源、标准化、模块化以及异构的RAG流水线(pipeline),英特尔至强处理器在其每个核心中均内置了英特尔高级矩阵扩展(AMX)AI引擎。
,AI工作负载可无缝部署于CPU、GPU以及NPU上,端到端RAG流水线通过Llama 3.1进行大模型的推理及防护,未来,同时保持下一个token延迟小于50毫秒,此外, 以下内容展示了英特尔的部分AI产品组合运行Llama 3.1模型的初步性能结果,imToken下载,