当前位置：首页 > 科技资讯 > 阿里云GPU云服务革新：AI大模型推理性能实现倍增，提升高达100%

阿里云GPU云服务革新：AI大模型推理性能实现倍增，提升高达100%

发布时间：2024-07-22 09:11:49 作者：电子资源网阅读：0次

7月19日消息，阿里云宣布其GPU云服务完成全面升级，引入了全新优化的GPU套件。此次升级显著增强了服务性能，其中多GPU推理服务的性能提升最高可达100%，为用户提供更强大的计算能力与效率，进一步推动AI、图形渲染等高性能计算领域的发展。

针对调用GPU算力最常用的容器技术，阿里云推出ACK云原生AI套件，帮助开发者及企业更高效地开发和部署AI应用，加速大模型应用落地。

随着AI大模型的体量变大、应用变广，单GPU已难以承载推理应用的全部需求，多GPU推理时代已经到来，如何在GPU资源紧缺的当下，实现GPU高效互联，是提升多GPU推理性能的关键。

阿里云通过进一步优化底层的AI通信加速库DeepNCCL，让GPU云服务在推理场景下有更好的性能表现：在同等硬件环境下，Token输出吞吐至少提升14%，首Token时延降低15%。

通过深度优化，推理加速性能也提升显著，Token处理能力提升100%，相同的资源可以支持2倍的业务需求，用Kubernetes容器集群技术调用GPU算力，已成为运行AI大模型任务的主流选择。

ACK容器服务可提供自动化编排及GPU高效管理和调度的能力，让模型部署、扩展变得更简单。

为进一步提升AI应用运维效率，阿里云推出ACK云原生AI套件，可实现Kubernetes在GPU调度和细粒度共享、AI任务调度、训练数据加载以及大模型推理服务启动等关键领域的能力增强和加速，相较开源均有大幅能力提升。

比如，针对AI任务频繁加载远程存储数据的需求，ACK云原生AI套件可提升训练数据读取性能30%以上，降低大模型推理服务冷启动时延70%以上。

在全球累计超过1000万活跃用户的国产AI绘画工具海艺AI，就是通过ACK调用阿里云GPU云服务的先行者。

此前，用户通过海艺AI生成一张图片平均耗时20秒，遇到队列等待延迟可上升至分钟级；采用阿里云GPU云算力及ACK容器服务后，海艺AI的模型切换完全无感，推理耗时降低至3.95秒，整体性能提升至少50%以上。

在最新的Forrester 全球AI基础设施解决方案研究报告中，阿里云综合产品能力指标位居全球第二，已成为中国AI大模型的公共底座。

零一万物、百川智能、智谱AI、昆仑万维、vivo、复旦大学、巨人网络等大批企业和机构在阿里云上训练大模型，并通过阿里云对外提供服务。

小鹏汽车、联想、德勤、微博、完美世界、喜马拉雅等已接入阿里云通义大模型，在阿里云上为消费者和客户提供丰富的AI应用服务。

阿里云：通义开源模型下载超2000万，百炼增长达150%

近日，在上海举行的世界人工智能大会中，阿里云 CTO 周靖人公布了通义大模型以及阿里云百炼平台的最新进展情况。通义千问开源模型的下载量于两个月内实现了两倍的增长，已经突破了 2000 万次。与此同时，阿里云百炼所服务的客户数量由 9 万提升至 23 万，达成了超过 150%的增长幅度。

阿里云：通义开源模型下载超2000万，百炼增长达150%

周靖人强调了阿里云对开源开放的承诺，提到通义千问已经实现了全尺寸、全模态的开源，消除了开源与闭源模型之间的差异。通义大模型系列在性能上不断提升，并在OpenCompass测评中取得了与GPT-4Turbo相当的得分，标志着国产大模型在全球AI领域的竞争力。

通义千问系列模型包括语言、多模态、混合专家和代码大模型等，已经在多个权威评测中取得了优异成绩。特别是新推出的Qwen2-72B模型在全球范围内受到开发者的欢迎，并在Compass Arena和Open LLM Leaderboard等模型测评中取得了高分。

为了降低大模型使用门槛，加速AI应用的普及，通义千问系列模型实施了大幅降价，主力模型降价97%，极大降低了使用成本。降价后，阿里云上的大模型调用客户数显著增加，许多知名企业成为阿里云百炼的客户。

阿里云百炼平台作为承载云+AI能力的重要平台，提供全托管的大模型定制与应用服务，并兼容开源框架，支持开放性和自由度。百炼平台集成了上百款大模型API，覆盖了国内外主流厂商，并支持企业上架模型，为开发者提供了多样化的选择。

周靖人表示，阿里云将继续拥抱开源开放战略，打造AI时代最开放的云，并与业界伙伴合作，通过开放的算力平台、开源自研模型和优质模型服务，帮助中国企业和开发者抓住大模型时代的机遇。

阿里云推出第八代企业级实例g8i，基于“飞天+CIPU”的全新计算架构体系

阿里云在近日推出了第八代企业级通用计算实例 ECS g8i，采用了阿里云自研的「飞天 + CIPU」架构体系和第五代英特尔至强可扩展处理器。

新款实例的整机性能最高提升85%，AI 推理性能最高提升7倍，可以支持高达72B 参数的大语言模型。此外，ECS g8i 实例还提供了端到端的安全防护，为企业构建可信的 AI 应用提供了强大的隐私增强算力支持。

阿里云推出第八代企业级实例g8i，基于“飞天+CIPU”的全新计算架构体系

在通用算力方面，ECS g8i 实例的 L3缓存容量提升到320MB，内存速率高达5600MT/s，整机性能提升85%，单核性能提升25%。存储方面，ESSD 云盘提供100万 IOPS，全面搭载 NVMe，存储延迟低至百微秒。网络方面，PPS 高达3000万，标配阿里云自研 eRDMA 大规模加速能力，时延低至8微秒。安全方面，ECS g8i 实例支持可信计算与加密计算等特性，全球率先支持机密虚拟机 TDX 技术，构建了全面的安全防护。

对于 AI 应用来说，ECS g8i 实例采用了 Intel AMX 高级矩阵扩展加速技术，将生成式 AI 的运行速度提升了7倍，可以更快地运行知识检索、问答系统和摘要生成等任务。配合阿里云 Spot 抢占式实例，成本优势将进一步凸显，降低推理成本。此外，基于自研 eRDMA 超低延时弹性网络，ECS g8i 实例集群可以支持高达72B 参数的大语言模型分布式推理，推理性能随集群规模接近线性加速，并且支持超过32batchsize 的超大参数规模的 AI 模型负载。

在安全方面，阿里云通过硬件可信根和虚拟可信能力 vTPM，实现了服务器的可信启动和实例启动过程核心组件的校验能力。此次升级的 ECS g8i 实例全量支持 Trust Domain Extension TDX 技术，为大模型等 AI 应用提供了隐私增强算力。

阿里云表示，ECS g8i 实例的强劲表现证明了以 CPU 为中心的计算体系同样具备加速 AI 推理的潜力，公共云不仅可以胜任超大规模的 AI 模型，还为 AI 应用加速落地提供了新的路径。