云计算首次提出

核心提示在2022年阿里云峰会上,阿里云正式发布了CIPU。这是一套阿里云历时7年所打造的云数据中心专用处理器,未来将替代CPU成为云计算的管控和加速中心。「CIPU」虽然是个新名词,但「云计算管控加速处理器」却是近年间云计算产业大火的概念。随着云

在2022年阿里云峰会上,阿里云正式发布了CIPU。这是阿里云历时7年打造的一套云数据中心专用处理器,未来将取代CPU成为云计算的控制和加速中心。

虽然“CIPU”是一个新名词,但“云计算控制加速处理器”是近年来云计算行业大火的概念。

随着云计算技术的不断普及,业界诞生了越来越多的超大规模云计算服务器阵列。如何调度和统一这些遍布全球的数百万计算节点,成为云厂商的一大难题。

与此同时,近年来人工智能、自动驾驶火等技术催生了低延迟、高计算能力的数据密集型应用的爆发式增长。云计算的传统发展路径越来越难以满足需求。

CIPU诞生了。

01.CIPU,跟随还是领导?

“云计算控制加速处理器”是目前云计算行业最热门的技术之一。

三年前,英伟达以超70亿美元收购以色列芯片制造商Mellanox,以BlueField系列产品切入这一赛道;英特尔、Marvell、博通等厂商也努力不断推出DPU、IPU等相关产品。

与此同时,创业赛道也风起云涌。就国内而言,DPU创业公司如新启源、大宇智信、中科玉树、星云智联、鲍云智能等近年来也纷纷获得融资并发布新产品,市场十分热闹。

作为云计算服务的提供者和芯片的最大用户之一,阿里云更早的意识到了这项技术的重要性。

在过去的十年里,云计算技术先是用分布式和虚拟化技术取代大型机,再用资源池技术突破规模和稳定性的瓶颈,为用户提供超大规模的云计算服务。

然而,虚拟化和资源池技术满足了以CPU为中心的数据中心架构,这带来了新的问题。

例如,虚拟化可以重新定义和划分计算资源,大大提高信息资源的利用率,但同时,这种技术也会带来明显的性能损失。

为了解决服务器长期存在的虚拟化性能损失问题,阿里云相关RD团队于2015年开始技术研究,并于2017年推出了业内首款虚拟化损失为零的神龙云服务器。

此后,经过多年的自研迭代,阿里云不断深度融合神龙、柔性RDMA等核心技术,逐渐演化为以“CIPU”为中心的新架构。

在这种新架构下,CIPU向上接入天妃云操作系统,向下快速云化数据中心的计算、存储和网络资源,加速硬件。

在某些功能方面,CIPU类似于英伟达、英特尔和其他工业巨头近年来推出的新DPU和IPU芯片。

而供应商很难针对每一个云深度定制产品,产品以“辅助”为主。

与他们不同的是,阿里云的CIPU在虚拟化、网络、分布式存储、本地存储、安全、运维、池化等方面与阿里巴巴天妃云操作系统深度融合。通过“软件定义、硬件加速”,既能辅助调度计算资源,又能“掌控”全局,将百万台服务器变成“超级计算机”,充分放大技术优势。

“CIPU是云计算发展的必需品。”阿里云技术产品负责人姜在一次采访中这样说道。

对于用户来说,CIPU的优势可以体现在:

1、性能更强

这是最直观的参数。姜伟表示,在CIPU的加持下,只需要2.5台服务器就可以完成原本需要3.5台服务器的计算任务。

2、计算效率更高

通过CIPU对计算资源的调度、协调和控制,同样数量的计算资源可以实现更高的计算效率。

比如RDMA一直是贵族技术,性能强大,但是技术门槛很高。要想利用好,对工程师、代码、硬件投入都提出了非常高的要求。

基于CIPU,阿里云推出了eRDMA技术。通过它,阿里云可以快速普及RDMA技术,使用户大规模在云端应用高性能网络加速服务,以同样的计算资源和人力投入,获得别人投入几百人甚至几千人的研发效果。

3.系统更加稳定。

作为百万级服务器的“控制中心”,CIPU还沉淀了大量的控制和调度数据,使得阿里云能够提前预测单个节点故障的可能性,提前检查,保证数据中心的安全稳定运行。

基于CIPU和天妃的新一代云计算架构系统,阿里云在本次2022阿里云峰会上刷新了自己的数据记录。

在CIPU的加持下,阿里云在通用分布式计算领域提升了Redis 68%、MySQL 60%、Nginx 30%的性能;与传统TCP网络相比,在大数据、AI等计算和数据密集型场景下,灵活RDMA高性能网络的吞吐量提升30%以上。

CIPU、存储、网络的结合,可以让阿里云云盘的存储IOPS高达300万,长尾时延降低50%,网络时延低至5us。“访问云端比访问本地硬盘更快”。

“新一代云计算系统不仅会影响云,还会影响数据中心。这也将改变传统的计算机终端形式,以及软件的应用和开发界面。”阿里云总裁张建锋说。

02.进入数据中心的云时代

改变以硬件为主的传统IT系统,建立以云为主的新IT系统,是每个云厂商的技术理想。

随着数据密集型计算需求的爆发式增长,这种理想不仅仅停留在技术愿景和发展方向上,更成为现实而迫切的需求。

一方面,以AI为代表的新兴计算场景的计算能力爆发式增长。

OpenAI数据显示,自2012年以来,AI训练任务所需的计算能力每3.43个月翻一番,6年间激增超过30万倍,远超摩尔定律的极限。以CPU为中心的传统IT系统已经不能满足日益增长的计算能力需求。

另一方面,随着自动驾驶、虚拟人等对低时延、高带宽需求敏感的应用场景的增加,用户对云服务的速度、效率、稳定性提出了更加极致的要求。

以特斯拉为例,其百万级的汽车保有量每天都在路上行驶,收集、分析、存储的数据量接近天文数字,不可能全部由终端处理。但是汽车是一个特殊的终端,需要配备极高的安全冗余。一旦它需要接入云服务,现有的it系统很难满足它的需求。

此外,随着云计算应用的快速普及,越来越多的应用场景开始从“南北交通”向“东西交通”演进,数据中心传输的数据量激增。大规模数据的传输和重定位成为制约云计算发展的又一难题。

以阿里云为例。阿里云在全球部署了数百万台服务器,属于超大规模云计算阵列。如果仅仅依靠传统的以CPU为中心的IT系统,很难将数百万台服务器的计算、存储和网络资源进行统一的管理、调度和安排,使资源得到合理高效的利用。

云计算系统作为CPU高速数据传输的瓶颈,迫切需要重构,需要新架构、新设计、新方案。全世界顶尖的IT巨头都在寻找解决方案。

CIPU是阿里云建立“新一代云计算系统”答案中的关键一环。

在阿里云新一代云计算体系中,话语权从“服务器内的CPU”移到了“服务器外的CIPU”。CIPU相当于一个全球云控制器,从不堪重负的CPU中拉出整合和调度功能,承担大量需要跨网络进行计算、存储和数据交互的进程的协调和控制。

有了这样一个更高级别的控制器,阿里云就可以突破超大规模资源池的调度瓶颈,让陷入百万节点调度“泥潭”的数据中心变得轻便简单、更快、更敏捷、更灵活。

负担减轻的CPU可以继续发挥核心计算能力提供者的作用,成为阿里云“一云众核”体系的重要组成部分。

虽然CIPU是阿里云新系统的关键部分,但阿里云新一代云计算系统的布局并非始于CIPU。

早在去年,阿里云就宣布了“一云众核”的核心战略——以天妃操作系统为核心,综合采用向后兼容x86、ARM、RISC-V等多种芯片架构,以及腾飞、鲲鹏、AMD、Ampere等多种CPU,封装成直接面向用户的标准计算能力,不仅解决了CPU不兼容带来的云和软件开发问题,还做出了更多种类的芯片

作为这一战略的一部分,阿里云还在去年推出了自研CPU“永恒710”,这是一款集成了600亿个晶体管的5nm数据中心CPU。采用ARMv9架构,主频高达3.2GHz,这款CPU不仅为阿里云量身定制,也是阿里云“一云众核”战略的延伸,加深了阿里云对底层硬件产业链更深更全面的理解。

目前,永恒710已经大规模部署在阿里云数据中心,顺利完成2021年双11等多项核心业务。今年4月,基于永恒710的公有云ECS实例也已经上线测试。

现在,阿里云“CIPU”的推出进一步呼应了一云多核战略,将传统的以CPU为中心的云计算系统进一步推向下一个时代,开启了阿里云新系统的一角。它从云效率最大化出发,重构数据中心,构建软硬件一体化的“新一代云计算系统”。

03.回到基本,阿里云的“定义正确”的理想

目前,AWS、Google、微软等海外IT巨头正在争夺下一代云计算标准的定义权。英特尔、英伟达等芯片巨头也将业务发展重点放在了数据中心。阿里云此时与CIPU进入博弈,云计算的战场无疑会变得更加有趣。

但这绝不是一劳永逸的战斗——这是一场长征,一场技术长征。

自“云计算”概念诞生以来,对云计算技术标准定义权的争夺就从未停止过。几十年来,玩家的数量一直在波动。IT行业有很多这样的故事,选择了错误的技术路径,耽误了进入的机会,放慢了前进的步伐,最终导致落后于市场,跟着别人的研究走。

比如早在1965年——在互联网诞生之前——IBM就开始研发虚拟机技术,然后推出了人类历史上第一个虚拟机系统CP-40/CMS。

但IBM高管对云计算的市场发展判断失误,导致公司作为底层技术的先行者,并没有获得云计算的第一笔红利。而是在2002年亚马逊切入AWS 5年后终于推出了蓝云计划,耽误了最好的战斗机。

国内云计算产业的发展也经历了类似的战争局面。

2007年,阿里在云计算行业率先发力,开始了天妃云操作系统的自研,开始悄然实施“去IOE”。

阿里的新动作业内并非不知道,但互联网泡沫的教训仍历历在目,国内IT业对此仍心存疑虑。三年后,在著名的2010年中国IT领袖峰会上,两位技术CEO和马分别将云计算称为“新瓶装旧酒”和“可能需要几百年或一千年才能实现”。

唯一一个非技术出身的CEO马云说:“可能是因为我不懂技术吧...我最怕那些把老酒装在新瓶子里的东西。你看不到他在玩什么,突然爆发才是最可怕的。」

随后的十年,阿里云以惊人的速度爆发,引领整个中国云计算产业迈上新台阶。“天妃”成为国内唯一自主研发的云操作系统,芯片、服务器、操作系统、数据库、AI平台等基于云的软硬件技术体系逐渐向下生长。

在每一个新时代的早晨,选择了正确的道路,拥有了先发优势,就意味着企业拥有了定义行业未来发展道路的权利——这是每一个科技厂商的理想。

“近年来,我们看到云计算进入了一个新的发展阶段,我们离下一个时代越来越近。”2022年阿里云峰会上,阿里CTO张建锋这样说。

下一代云——新的架构定义、新的软件接口、新的硬件加速。

路径的选择来自于对技术的深刻理解,对技术的理解来自于扎实的基础研究。

阿里云今年最重要的战略是“B2B”——回归基础,回归云计算本质,做深基础研究,坚持在技术的长征路上取得新突破。

阿里云张建锋:回到基础定义下一代云

阿里云打响了这场新一代云计算路线争夺战的第一枪。

“我们错过了PC时代,但在云时代,每个人都以同样的方式开始。现在是重新定义云的时候了。如果定义的话,中国在下一个科技时代可以有自己的一席之地。”张建锋说。

 
友情链接
鄂ICP备19019357号-22