火了一年的大模型,正在衍生出更多细分的技术与应用,例如对大模型进行行业定制,以及开发面向特定场景的“小模型”等需求,因此,大模型在 2024 年将继续深刻渗透和重构企业的各个业务环节,为企业智能化升级提供强劲动能。
与此同时,承载训练及推理这些庞大模型的算力基础设施,也将成为 2024 年企业必然需要面对的挑战。大模型海量参数、复杂计算将对算力需求提出更高要求,算力成本也随之水涨船高。在大模型带来智能化红利的同时,如何在GPU算力紧张的情况获得充足AI算力,将是企业在新一年中的重中之重。
AI 算力需求再次爆发
阿里云 ECS g8i 以 CPU 算力 hold 住大模型
因 AI 受到追捧抢购、甚至需要囤货的 GPU,一直是 AI 行业里解决算力问题的关键因素。不过芯片巨头英特尔另辟蹊径,创新性地在 CPU 平台上应用了用于矩阵运算的单元,满足大数据、人工智能等数据密集型的业务算力要求。从去年英特尔® 高级矩阵扩展(以下简称 AMX)就已经运行在了阿里达摩院和阿里手机淘宝的 AI 应用中。
近期,阿里云推出国内首款搭载第五代英特尔至强可扩展处理器(代号 EMR)的云计算产品——第八代企业级通用计算实例 ECS g8i,其中的性能硬核实力包括有:产品的整机性能最高提升 85%,AI 推理性能最高提升 7 倍,可支撑高达 72B 参数的大语言模型。从阿里系内部运行到阿里云正式推出云计算产品,让业界进一步看到,以 CPU 为中心的计算体系同样具备加速 AI 推理的巨大潜力。
同时,本次发布的新实例产品还提供了端到端安全防护,为企业构建可信 AI 应用提供隐私增强算力支撑。该产品的发布证明了公共云不仅可胜任超大规模的 AI 模型,也为 AI 应用加速落地开辟了新途径。这对于人工智能的发展和应用具有重要意义,更会推动 AI 技术的进一步普及和应用。
通用算力性能升级背后
芯片、虚拟机、操作系统全栈优化
作为企业级通用计算实例,ECS g8i实例在计算、存储、网络和安全等能力得到了全方位提升。具体来说:
值得一提的是,阿里云还将第五代英特尔至强可扩展处理器的各类加速器能力融入到自研的虚拟化技术并实现性能零损耗,用户以最小规格2vCPU即可启用加速器能力。同时,阿里云自研Alibaba Cloud Linux3操作系统是业界首家全量优化适配英特尔加速器,真正实现从芯片、虚拟化再到操作系统的整体优化,进一步降低加速器技术门槛,让用户真正享受技术普惠。
CPU 为 AI 算力提速
ECS g8i满足从小模型到超大规模各类需求
生成式 AI 掀起的技术革命,正在推动计算的范式发生根本性的变化。本次阿里云 ECS g8i 最硬核的技术实力,就是以 CPU 为核心的计算体系去满足 AI 对算力的需求。当前,AI大模型推理在算力上依然面临诸多挑战,例如首包延迟受限于并行处理能力与浮点运算能力,吞吐性能则受限于内存带宽和网络延迟。
ECS g8i 通过优化其内置指令集,利用 Intel AMX 高级矩阵扩展加速技术,提升了生成式 AI 的运算速度,从而减少了首包延迟。使用AMX加速,当进行 int 8 矩阵计算时,性能提升更是达到了 7 倍。这些优化措施不仅提高了 AI 应用的运行速度,还为生成式 AI 的广泛应用打下了坚实的基础。