演讲的主题是 时序数据库现状及核心技术/问题,因为技术都是为解决具体问题生的。
我们将从如下3个视角的分享,分别从:
- 领域趋势方面和大家聊聊时序数据库的现状和未来发展空间。
- 核心技术角度和大家聊聊时序数据库面临怎样的实际问题,将会以怎样的技术手段来解决。
- 从应用场景和价值缔造角度我们简单聊聊如何才能让时序数据库在具体应用场景中产生业务价值。
那么,在开始今天的分享之前,先简单的介绍一下我的个人信息:
我是 孙金城,阿里花名 “金竹”。
目前在阿里工作已经接近10年,以ApacheFlink为切入点,在流计算领域贡献了5年,目前以阿里巴巴物联网分析团队负责人的角色,基于ApacheIoTDB对时序数据存储领域进行探索。
在开源领域,目前是两个Apache顶级项目的PMC成员,也是ApacheMember,同时也在支持Apache本土社区的发展,是ALCBeijing的成员,Apache孵化器的IPMC 成员,以及开放原子开源基金会的孵化器导师。
那么,在众多的开源 参与和贡献 的同时,我个人也非常喜欢做一些技术类的博客和视频分享,也欢迎大家关注我的个人公众号,大家可以保持线下的持续交流。
好的,我们开始今天的第一部分,我们看看时序数据库目前处在一个怎样的趋势,是什么造就了时序数据库的快速发展?
从我的角度看,聊存储,我喜欢从数据的角度切入。。
目前不仅仅是数据时代,而且数据的规模是惊人的,我们处在一个大数据时代。那么我们所说的大数据时代的数据规模到底是怎样的呢?
根据某研究院发布的统计数据,近年,随着人工智能、5G,AIoT等技术的推动,全球数据量正在无限地增加。2018年全球数据总量为33ZB,在2019年约达到45ZB。按照这样的增长趋势,到2025年,全年将会有175ZB的数据产生。
在希捷的首页,有一句话,这里分享给大家:
全球数据领域将从2019年的45ZB增长到2025年的175ZB,全球数据的近30%将需要实时处理,您的企业是否已经做好准备?同样带着这个问题,我们看看实时数据库领域是否做好了准备?
那么,到2025年每年175ZB的数据从哪里来的呢?我们从云/边/端三个角度看数据的创建和存储。
随着网络的高速发展,尤其是5G时代的到来,数据越来越多的进入云端。那么我们所说的Core/Edge/Endpoint(云/边/端)分别指的是什么呢?
- 云(Core) - 这包括企业中指定的计算数据中心和云提供商。它包括各种云计算,公共云、私有云云和混合云。
- 边(Edge) - 边缘是指不在核心数据中心的企业级服务器和设备。这包括服务器机房、现场服务器、还有一些较小的数据中心,这些数据中心位于距离设备较近的区域,以加快响应。
- 端(Endpoint) - 端包括网络边缘的所有设备,包括个人电脑、电话、联网汽车、可穿戴备以及工业传感器等。
那么这些数据来源,有哪些是我们日常工作生活可以感知到的呢?我们接下来简单举例分析一下:
作为在阿里工作近10年的我,对我来说感觉最近的数据是一年一度的双11全球狂欢。我们发现自2009年以来,双11每年的成交额飞速增长,到2020年竟然高达4982亿。这个数字背后,说明了大量数据的产生。但是相对于175ZB的数据来说,这些交易数据,监控数据,只是冰山一角。为什么这样说呢?我们继续往下看。。。
这里同样又一份关于全球设备连接的统计数据,到2020年全球有500亿的设备数据上云,这些设备覆盖了很多实际场景,比如:智能生活,智能城市,智能农业,
更值得大家关注的是智能制造,也即是工业物联网领域。在5G和工业4.0的的大背景下,工业物联网也将会是下一个技术趋势所在。。。
我们说到技术发展趋势,Gartner的数据是大家非常信任的,在2021年Gartner又指明了9大技术趋势,如果大家关注Gartner的报告,我们发现这9大战略技术趋势和前三年有了一些变化。
2018强调云向边缘挺进,2019主张赋权边缘,2020更加强调流量的处理要靠近设备本地,其实也就是端和边的计算技术。这连续三年都明确提到了端/边,也就是物联网领域,那么2021的战略趋势和物联网有怎样的关系呢?
2021强调的分布式云就是强调了物联网领域已经走进云边端一体化的进程,分布式云将取代私有云。分布式云的架构更强调了中心云计算能力下沉的时代趋势。
分布式云的多样性也囊括了物联网领和边缘计算的技术方向。那么在这样一个大的技术趋势下,时序数据库当前处在一个怎样的阶段呢?
国家对物联网领域,尤其是工业物联网领域是高度重视的,早在2017年就提出了指导意见,明确了三个阶段性的发展目标:在2025年之前重点在基础设施的建设,到2035年具备平台化能力,最终达到应有层面的落地。那么实际上各个大厂的发展都是超前于这份指导性建议的发展目标额,目前各个云厂商已经基本形成了各自的工业物联网平台的搭建,后续的重点是平台的增强和实际应用的创新发展。那么在这样一个高速发展的阶段,各个大厂都在解决这这样的问题呢?
其实,物联网领域的数据产生,大部分来自于 工业物联网,刚才大家看到,物联网领域设备连接在2020年已经超过500亿,我们以一个挖掘机工矿信息来说,一个设备就有5000多的工况指标要采集,数据每秒都在不停的采集,数据量可畏是惊人的,那么在千亿的工矿数据和ZB级别的时序数据面前,我们面临怎样的难题呢?
大家会想到的是数据上云的带宽流量成本问题,但幸运的是,在过去的20年中,有线宽带服务每兆比特的费用下降了98%,从2000年的平均28.13美元下降到2020年的0.64美元。所以低流量成本的情况下,ZB级别的存储成本问题就更为显著。技术都是为领域问题而生,面对这样的领域问题,存储领域又有这样的技术变化呢?
根据DB-Engines的统计数据,我们发现,在各种数据库存储产品中,时序数据库的发展是最受欢迎,发展是最快的。
也就是说,5G和工业4.0的发展,大量时序数据的产生,促就了时序数据库的快速发展。那么,目前都有哪些时序数据库产品呢?
同样这个统计也是来自DB-engines网站,目前我们已经有几十种时序数据库产品,这些产品有些是开源的,有些是各个大厂研发的商业产品。
目前来看,大概有20%+的商业产品,近80%来自开源社区,这里也多说一句,拥抱开源同样也是大势所趋。
好的,趋势方面我们就了解到这里,接下来我们细致的看看现在的时序数据库有哪些特点,如何分类,时序数据库又