AI创新挤压算力弹性,亚马逊云科技如何满足井喷的算力需求?
生成式AI爆发为代表的这一轮AI创新潮,机遇和挑战并存。丁科技网注意到,挑战,对于AI技术创新者和AI服务创新者而言,很大程度上在于,AI技术的爆发直接推动了对算力资源需求的井喷式增长。 除了提供AI相关技术和生态赋能之外,针对算力需求井喷,亚马逊云科技通过自研芯片创新、弹性的计算存储组合以及Serverless架构,帮助客户简化运维,以更高性价比满足多样算力需求,帮助客户有效应对由于AI创新技
原创
2023-07-12 08:45:48
来源:丁科技网  
作者:建辉

生成式AI爆发为代表的这一轮AI创新潮,机遇和挑战并存。丁科技网注意到,挑战,对于AI技术创新者和AI服务创新者而言,很大程度上在于,AI技术的爆发直接推动了对算力资源需求的井喷式增长。

除了提供AI相关技术和生态赋能之外,针对算力需求井喷,亚马逊云科技通过自研芯片创新、弹性的计算存储组合以及Serverless架构,帮助客户简化运维,以更高性价比满足多样算力需求,帮助客户有效应对由于AI创新技术带来的IT压力。

“2023亚马逊云科技中国峰会”上,亚马逊云科技大中华区产品部总经理陈晓建表示,AI创新推动算力需求井喷,有三个特点:一是,需要更高性价比的软硬件解决方案以应对算力资源紧缺;二是,云服务需要提供快速高效的弹性资源供给,以应对生成式AI的迅速发展和快速变化的业务需求;三是,云服务需要进一步降低使用门槛,让客户能快速上手。

亚马逊云科技大中华区产品部总经理陈晓建

亚马逊云科技的针对性策略是:

其一,针对算力需求紧缺,提供全面深入的基础设施能力,包括Intel、AMD、英伟达,和自研的CPU及加速芯片产品。特别是,自研芯片产品,在不断的创新迭代中。

Nitro,是亚马逊云科技的第一款自研芯片产品,去年推出的第五代Nitro将每瓦性能提高了40%,提升性能、降低干扰、保证安全:

实现了非常轻量级的虚拟化,性能损耗极低,在此前业界经常看到的虚拟化损耗通常在20-30%之间,Nitro通过硬件虚拟化,整个性能损耗不到1%;实现了网络和存储在硬件级别的隔离机制,让用户通信和拥有存储的数据通信之间完全隔离,不会造成互相的干扰;在硬件层面实现了硬件的加密,任何进出Nitro的数据包都会进行硬件级别的加密,最大限度保证用户数据通信的安全。

Graviton,Arm架构的通用处理器Graviton 3与上一代产品相比,计算性能提高25%,浮点性能提高2倍,加密工作负载性能最多加快2倍;第四代产品Gravtion3E在针对高性能计算应用场景的向量计算性能上,再提升了35%。

机器学习训练芯片Trainium,HuggingFace BERT模型作为案例来看,基于Trainium的Trn1实例和通用的GPU实例对比,在训练的吞吐率上面,单节点的吞吐率可以提升1.2倍,而多节点集群的吞吐率可以提升1.5倍,从成本考虑,单节点成本可以降低1.8倍,集群的成本更是降低了2.3倍。增强型Trn1n实例的网络带宽跃升至1.6Tbps,可将万余个Trainium芯片构建在一个超大规模集群上,实现对超大模型进行并行训练。

机器学习推理芯片Inferentia,2019年推出了第一代用于机器学习的推理芯片Inferentia,所对应的实例Inf1和同样基于通用GPU的EC2实例相比,带来了70%成本的降低;2022年又推出了第二代推理芯片Inferentia2,进一步提升了4倍吞吐量,延迟只是之前的1/10,通过优化,第二代Inferentia可以大规模部署复杂的模型,例如大型语言模型(LLM)和Diffusion类模型。

Inferentia在设计的时候就考虑到了“高吞吐率”和“延迟优化”,使得用户两者可以兼得。以自然语言常见的BERT模型为例,In2实例的吞吐可以提升三倍,延迟降低了8.1倍,而成本只是通用GPU实例的1/4;以开源模型OPT-30B为例,相比于通用GPU EC2的实例,In2实例吞吐率增加了65%,而推理成本则降低了52%,如果用更大的660亿参数的OPT-66B为例,通用GPU已经力不从心,但In2实例依然可以保持每秒351个token数的吞吐量;视觉类模型以Stable Diffusion 2.1的版本为例,Inf2实例可实现50%的成本节约。

其二,针对弹性资源供给,提供600多种不同的计算实例,从处理器、网络和存储等各种服务都能够与计算进行很好的结合,以积木的方式搭建出一个丰富灵活的计算实例的资源,满足多种不同算力的要求。

以存储为例,数据规模到达PB级别时存储方式变得非常重要,“热、温、冷、冻”不同类型的存储方式,成本和性能都有很大差别。Amazon S3对象存储提供8种存储层级,同时提供智能分层,自动选择最适合的存储层级。

其三,针对简化算力应用,推动云服务全面迈向Serverless。

亚马逊云科技在不断探索如何将云的弹性、敏捷性、按需付费的特性发挥到极致,在这个过程中,逐步推动着云服务全面迈向Serverless。现在,已经实现了全栈数据服务的Serverless化,开启了云服务全面Serverless的时代,让客户无需预置或管理基础设施,就可以运行几乎任何类型的应用程序或后端服务代码,帮助客户最大限度减轻运维工作,并增加业务敏捷性,更好地应对业务的各种不确定性。

陈晓建总结表示:“面对算力的需求井喷所带来挑战,我们通过自研芯片提供更好的性价比,通过各种丰富的计算、网络、存储等各种产品的组合应对突发的算力需求,通过Serverless有效降低运维的复杂性,从而简化算力的使用,全面满足用户的多样化的算力需求。”

“现今创新至关重要,云技术能更快、更高效地帮助企业创新,亚马逊云科技广泛和深入的服务可以让客户摆脱基础架构的束缚,专注于创新。”(丁科技网原创,转载务必注明“来源:丁科技网”)

最新文章
关于我们

微信扫一扫,加关注

商务合作
  • QQ:61149512