云原生大数据

核心提示云原生的关键词即为“敏捷”。数字经济、数据要素已成为当下企业服务领域的热词。在此热度下,“大数据平台”自然被推向了谈论风口。如果把大数据时代分为两个阶段,那么在1.0时代,它的主要特征是发现大数据,存储和处理大数据;而到了当下的2.0时代,

云固有的关键词是“敏捷”。

数字经济、数据元素成为企业服务领域的热词。在这种热度下,“大数据平台”自然被推上了风口浪尖。

如果把大数据时代分为两个阶段,那么在1.0时代,其主要特征是大数据的发现、存储和处理;在当前的2.0时代,其主要特征是数据应用和数据价值。

对于企业来说,最重要的是把数据转化为生产力。

7月14日,科技智库甲子光年执行董事宋涛在甲子直播间与智灵云联合创始人兼CEO彭峰进行了对话。双方围绕“大数据2.0时代,企业如何利用云原生DataOps高效提升数据生产力”的话题进行了多轮精彩对话。

对话中,彭峰提到企业大数据平台的关键词是“敏捷”,这也是为什么云是原生的。凌云的主营业务是数据应用的敏捷开发,项目的实施也需要敏捷把握客户痛点。他认为,数据平台的发展趋势是业务系统和数据系统的边界会逐渐模糊,数据分析产品会越来越标准。

下面,我为《甲子光年》整理对话亮点。

1.数据作用的变化:从事后统计到主动驱动

甲子光年:近年来,数字经济、数据元素等概念逐渐被大众认可,企业数字化水平不断提升。大家关心的是企业如何积累数据并转化为数据元素,进而转化为生产力。请先和彭总聊一聊,企业在数字化方面经历了哪些流程?

彭峰:企业的数字化运营有几个阶段。第一阶段是信息化,然后是数字化,然后是平台化。

具体来说,在开始的时候,数据在表中是死的,所以需要业务系统对数据库中的数据进行处理。后来,业务数据库中的数据被数字化和聚合,形成数据资产。但是,数据资产仍然是被动的形式,主要功能是被查询,形成报告和业务洞察,而数据元素是活的,可以移入生产力。

比如企业做的一个用户画像,如果是数据资产,会反映用户的兴趣、职业地位、年龄等。以数据库或数据表的形式。用户在使用时主要是使用查询,需要了解该资产的具体存储明细。但如果是数据元素,应该是通过API和数据应用,在商业上可以直接产生价值。在很多企业中,这是一种核心生产力。没有它,就做不到精准推送。所以它不是简单的数字资产,而是可以衡量的价值。

甲子光年:我们已经处于数字时代,大数据平台系统比过去有了很大的升级,形成了新的生产工具。推动生产工具变革的因素有哪些?

彭峰:驱动点很多,最重要的是数据功能的变化。本来主要是事后统计,所以过去大数据平台给人的第一印象就是报表和大屏,基本都是做业务总结;现在,大数据平台实际上已经成为一个核心驱动力。比如业务部门的降本增效,新业务的拓展,各项业务的协调配合,都需要数据系统的支撑。

在这个过程中,大数据平台从被动的接受者变成主动的驱动者,有一个很大的差距,就是对数据的实时性、正确性、迭代管理的要求远高于以报表为主要输出的时候。比如数据质量方面,过去的报告,即使数据错了,也不会出大问题,无非就是回去查询一下;但是,如果数据成为关键任务,一旦出错,就会影响产品和业务流程。这个时候发现问题就晚了,所以要提前监测数据质量。

过去数据的开发分散在各个地方,反馈慢。如今,大数据平台的核心能力可以快速响应业务单元的各种敏捷需求。

凌云联合创始人兼CEO彭峰

甲子光年:你给我们提供了直观的感受,用户对数据使用的统计是主动驱动的。接下来,我们来说说产品层面和技术层面的区别。大数据2.0和大数据1.0在技术架构和产品功能上有哪些显著区别?

彭峰:很不一样。大数据1.0的时候,就是把数据打包,进行数据管理,比如统一口径等。大数据2.0考验的是流数据的处理能力,需要能够实时驱动业务。

美国VC Andreessen Horowitz曾描述过新一代大数据平台的架构,其中云源生化、湖仓集成、英飞代码、API、业务驱动能力、敏捷开发管理是亮点。实际效果是数据能力的门槛降低了,更简单了。

在国内,这种变化已经非常明显。它有几个大趋势:

第一,数据平台的云端生化。好处是整个组件可以直接运行在云上,进行标准化管理,快速集成新组件。原来,当云资源的隔离性差的时候,就会出现类似“一个业务单元运行一个任务,其他业务单元的任务崩溃,所有业务单元都不敢用这个东西”的情况。现在使用云系统后,各部门都有用户隔离,解决了安全问题。它可以独立快速迭代,不用担心影响别人。

二是数据能力和AI能力的API。在过去,使用一组数据能力是非常困难的。你不得不写很多代码,查找数据资源,比如人脸识别。现在它们都可以以API的形式变得有生产力,让AI能力普及。

三是存算分离。内存和计算分离的好处是,内存和计算可以不受限制、相互隔离地扩展。比如不计算的时候,不用花那么多计算资源,只花存储的成本。

四是DataOps支持的敏捷开发。在云原生中,集成开发、数据质量管理、数据门户支持和调度都使用户能够以非常低的门槛将数据需求快速转化为数据应用。

最后,是提高业务系统的集成。比如上面提到的逆向ETL。我们之前知道,大数据是从业务系统采集到大数据平台,反向ETL的目的是自动驱动大数据平台输出到业务系统。然而在大数据2.0中,它可以大大降低业务系统使用数据能力的门槛。

甲子光年:你刚才反复提到一个概念——云原生。能否介绍一下凌志云在云原生层面的产品功能板块?

彭峰:我们公司为大数搭建云原生平台还是挺早的。最初创业的主要目的是从Twitter的内部数据平台架构形成一个产品,这是一个云原生架构。

Twitter在2012年已经可以做到七八千台机器的私有云集群,2014年可以做到15000台机器的集群。我们做了大量的工作,把HDFS、Spark等常用的大数据组件放到一个包里,让用户直接使用,而这些必须在原生云的基础上统一管理。

去年有两件大事。一个是2021年3月,Spark开始正式支持K8s;一个是2021年5月,卡夫卡开始正式支持K8s。此后,大部分大数据组件都会逐渐适应这个生态。所以我们认为大数据平台的云端化生化是大势所趋。

此外,我们在上层做了一套完整的开发和管理工具,允许用户在一个接口中集成各种大数据组件功能,相当于一个低代码的大数据应用开发平台。我们会有DataOps管理系统来支持这种敏捷开发,比如数据质量系统,保证开发者的每一步数据都符合数据标准。

还有我们的调度系统,都是K8s调度的,可以精确统计每个任务,每个账号,每个应用花了多少资源。整个控制、目录、开发都是一个完整的系统,基本上我在Twitter上就是这么做的。

2.云原生数据项目的关键词是敏捷

贾光年:作为大数据服务商,你对企业赋能的方法论是什么?

彭峰:我们做云原生的一个关键词就是:敏捷。开发敏捷数据应用不同于传统的数据仓库构建。数据仓库和数据管理的建设是一个长期的计划。在构建数据仓库时,我们需要了解企业的整体业务架构和IT架构,然后在此基础上设计一个整体的数据架构。

当我们以前构建数据仓库时,我们经常需要比客户的业务人员更了解客户的业务。因为他们的业务部门只需要知道自己的内容,我们在设计仓库的时候就要了解所有业务部门之间的交互。传统上这个过程是很有价值的,但问题是周期比较长,见效比较慢。

所以在项目实施的过程中,我们的主要思路是敏捷,快速掌握客户的核心业务流程,快速落地,快速见效,得到业务部门的支持,然后拓展到其他业务领域。其中一个关键点是在一个统一的云原生平台上进行,以确保没有数据孤岛。

在项目落地过程中,我们通常会向客户强调,一定要有最紧急、最迫切的业务场景落地,然后扩展到其他业务场景。比如我们的一个企业客户,主营业务是线上服装定制和柔性化生产。一开始,他们想做一个数据中间站。我们的建议是一开始不要做大而全的中间站,因为业务系统还在迭代。可能中间站设计好了,业务系统变了。所以我们认为,要找出最让人头疼的痛点,比如广告渠道分析和产品推荐,首先要在这两个方面下功夫,形成相对独立的数据应用,然后再逐步拓展新的数据应用和场景。

综上所述,先选择合适的技术架构,然后快速确定落地场景,保证实现过程中数据标准的统一,再扩展到其他场景进行长期落地。最后,构建了整个数据系统。

甲子光年:彭总可以结合典型应用案例,阐述企业应该如何搭建大数据系统平台,以及如何解决面临的问题和挑战。

彭峰:我说一个数据平台发展到一定程度的案例。某大型国企,数据中心已经建立,但数据质量和数据流量经常出现问题。检查后发现其数据来源肮脏,各种原因难以提前预测,各部门都用数据对其做报告。举了两个尴尬的情况。有一天,营业部突然惊呆了,说明它的报表怎么出问题了。抬头一看,原来数据被改了。找到部门后,对方也很委屈,因为不知道别人在用这个数据;还有一次,突然下面报纸报道某处设备宕机,可能有三个小时的数据空,导致很多业务系统受到影响。

这里面涉及的问题都是数据应用开发的问题。随着数据规模的发展,当所有业务部门都来使用它时,平台的安全性、准确性和实时性受到了挑战。

针对这些问题,我们将开发工具与其现有系统连接,然后收集现有的运行数据来判断运行状态,从而形成全链路的源头追踪。然后帮助用户解决数据开发和运维的问题。

3.未来大数据的三大变化

甲子光年:在推动企业做大数据系统的时候,除了技术和产品,在管理和意识方面需要注意哪些问题?

彭峰:在数据项目的实施中,管理是一个无法回避的问题,因为数据是各个部门的资产。梳理一下,会涉及到数据所有者的迁移。在实际工作中,数据交互经常会出现所有者冲突或者重复建设的问题。核心原因是顶层架构没有设计好。

解决问题一般需要数据中心整理,打开部门墙,需要“老板锤”。

在这里,我们不仅为客户提供了一个大数据系统平台,在很多情况下,我们还会整理相关的业务系统,甚至帮助企业升级系统架构,这就是我们产品的附加值。

甲子光年:刚才我们一直在说大数据2.0,那么什么是大数据3.0,会有哪些改变?可以分享一下自己的看法。

彭峰:我觉得第一种可能是没有大数据3.0,直接就是一个数据平台。尤其是随着云原生、存储与计算分离、湖库一体化等新架构、新技术的成熟,大数据将不再有专门的名称。从1MB数据到1TB、1PB数据,都是统一架构,自动扩展,数据仓库构建过程逐渐融入整个数据架构设计体系。当前的很多预处理、聚集处理和钻取处理都可以通过高效的存储和分布式查询系统直接完成,大大减少了开发工作量。

第二,业务系统和数据系统的界限会逐渐模糊。未来的业务系统建立在数据架构上,就不需要单独做数据排序了。数据架构设计的趋势将是“防患于未然”。也就是说,业务系统建设时已经考虑到了数据需求,线上业务系统与数据平台直接对接,数据驱动业务规划是事前的,而不是事后的考虑。

第三,标准数据分析产品的出现,类似于现在API实现的人工智能和机器学习能力,但会更进一步,因为企业的业务系统会进一步标准化和SaaS化,企业的很多分析也会标准化。未来企业的数据元素和数据能力可以像搭积木一样完成。

甲子光年:直播间有个有趣的问题。网友问,初创企业如何利用好中间站的数据?一般来说,中国大陆和中国台湾只考虑大中型企业。他提到初创企业使用中国大陆和台湾。彭总怎么看?

彭峰:这个问题问得好。其实我一直在表达一个观点,数据中心不是只有大企业才有的。Twitter早期是中台产品的时候,公司只有300人,不算太大;后来有四千人的时候,我觉得还好。硅谷很多早期的初创企业,比如优步、Airbnb、Pinterest、Lyft等,他们的数据平台架构基本上由云原生数据驱动,并且基本上是用开源组件构建的。

很多中小企业面临的困难是自己招人搭建数据平台进行运维。其实在云原生时代,前期搭建架构就够了。随着公司的发展,云本地数据平台可以不断扩展。

甲子光年:又有网友问,元宇宙和大数据平台的融合会带来什么趋势?也请彭将军谈谈他对这个问题的看法。

彭峰:我觉得超宇宙已经在我们身边了。例如,游戏是一种超宇宙的形式。在用户层面,元宇宙企业在收集用户行为后,要注意如何不断迭代元宇宙服务,让用户不会感觉到不同。比如游戏公司Roblox,可以根据数据判断用户在哪里遇到的障碍最多,并重点处理哪些障碍。其中,数据分析是非常重要的一部分。另外,比如Oculus这样的VR公司在设计场景的时候,就认为这是一个重要的角落。结果大多数人都没看到。这时候就要考虑这个地方是不是有设计问题了。然后根据这个情况修改设计,迭代产品。

因为元宇宙本质上是将人们的生活、工作、娱乐、交流数字化,数据驱动变得更加自然,我认为数据在元宇宙中会产生更大的价值。

甲子光年:好了,由于时间关系,我们今天的直播对话就要结束了。今天彭总给我们分享了很多观点,从宏观的数据时代的变化到微观的案例观察。最后,我要感谢凌志·彭云总经理在百忙之中参加我们的对话,也感谢直播间的所有观众。谢谢大家!

 
友情链接
鄂ICP备19019357号-22