|回望年技术创业历程,徐亚波心中有“数”

核心提示iTalk是IDEA发布的AI科技内容栏目。IDEA将会不定期邀请行业内优秀的科学家和企业家展开主题分享,并于iTalk栏目发布精彩演讲内容。我们的目标是让前沿的研、产想法被更多人听见,吸引人们加入到iTalk的交流中来。---本期主讲人-

ITalk是IDEA发布的AI技术内容专栏。IDEA会不定期邀请业内优秀的科学家和企业家进行话题分享,并在iTalk专栏发表精彩演讲。我们的目标是让前沿的研究和生产理念被更多的人听到,吸引人们加入到iTalk的交流中来。

-本期主讲人-

讲故事的创始人兼首席执行官

IDEA数字故事实验室

徐亚波博士

徐亚波博士是数字讲故事的创始人兼首席执行官,拥有南京大学学士学位、香港中文硕士学位和加拿大SFU大学博士学位。数据,前中山大学副教授,跟踪数据近十五年。研究方向为海量数据处理、数据挖掘、自然语言处理。发表顶级论文和期刊30余篇,拥有国际国内发明专利8项。曾获广东省海外高层次留学人员、广东省珠江科技新星、中山大学“百人计划”引进人才等称号。

主意者:

AI知识图谱的一些创业者是这样相信技术的:只要收集更多的数据,训练更强大的模型,利用节点和关系的串联,最终会达到“全知”的理想程度。比如想知道一个商业品牌为什么成功?本期的主讲人徐亚波博士来自IDEA数字故事实验室。他的创业方向是试图从众多的商业信息中找到一个可靠的“成功公式”。

#在消费升级的浪潮中,每个品牌商都很焦虑。

在中国,每天都有各种商业品牌出来,各种品牌死去。我们的数据中心发现,中国每年大约有100万个新的消费品牌,但真正能走出来的只有1%左右。要成为1%,你需要做大量的商业调研。

DataStory发展的一个很重要的原因是当今的消费在不断变化。你喝过森林,江是老牌,POP MART也上市了...在中国消费升级的浪潮中,消费者的喜好不断变化,品类的界限不断被打破,甚至出现了化妆品专用的冰箱。每天都有各种新鲜事物出来,让各大品牌公司感到非常焦虑。我和这些品牌坐着聊天,他们问的问题无非就是:今天的消费者是什么样的?在什么场景下,消费者的哪些需求没有得到满足?在哪个类别中我们会有很大的机会?有哪些新奇的品牌?我可以这样做吗?如果我自己做,怎么解决内容媒体的问题?

后来发现是商业问题。这些业务问题可以清楚地分解成小问题,这就是我们要整理的。

在品牌内部,尤其是大型组织中,不同层次的人有不同层次的业务分析需求。比如商业领袖这个角色,他关注的是如何判断某个领域是否值得去做。这个问题背后有很多钱。也许他说“我必须做!”前一天晚上睡觉前。第二天早上醒来就变成了“我能做吗?”-正如沈院长所说,这是我们智能数据公司最合适的销售机会。领导不仅关心品类能不能做,还关心这个品类的主要竞争对手有哪些?应该选择进入什么样的群体?这是一群什么样的人?你喜欢什么?应该用什么样的KOL来影响他们?…因此,我们所做的基本上是使用大量数据来帮助品牌所有者有效地回答这些问题。我们必须处理海量的原始异构数据,从中提取有用的信息,并将其转化为可以推进我们工作的知识。

#我们的“血泪史”

起初,我们就像血汗工厂。首先我们收集各种信息,建立一个完整的数据库,然后根据客户的需求把数据分成小数据库,提取客户想要的信息,在数据上进行处理。在最初的三年里,我们决心成为一个非常高效的工厂。也许技术不一定要那么强,但是我觉得工厂的效率很高。客户的需求来了之后,就可以流水线生产了。所以当时我们基础设施的建设就是不断的搭建ETL流程,快速的处理信息,供客户使用。其实这是工厂模式。大概过了两三年,我们觉得这个不可行了吧?我们也想升级产业。

这也是现实与理想的矛盾。作为一个学术背景的我,当年做了很多高级算法。当我来到商业世界,我发现这些算法没有血汗工厂的模型有效率。我不这么认为。我们仍然必须尝试做出改变。所以大概在三四年前,我们开始有了一个大胆的想法:能不能摆脱这种工厂模式,然后再次升级产品架构,让它更智能。这些智能化的东西可以把每个项目的需求统一在一个框架下,不需要太多的人为干预。它自动用算法解决需求,可以节省大量人力。

于是,我们在公司掀起了“一个平台,一个数据”的运动,不再做重复性的项目开发,转而做低代码的开发平台。以前我们业务人员要和程序员沟通很多关于如何提取数据和构建ETL的问题,耗费了大量的人力。改造成全自动化工厂后,业务人员可以在没有程序员的情况下生产应用。这一运动也引起了一些恐慌:

程序员想:“以后我们都没用了吗?”

业务人员心想:“我们以后是不是要学程序?”

我们在这种碰撞中坚持了两三年,渐渐的大家都改变了想法。真正实现“一个平台,一个数据”时,开发效率提高了4倍左右,代码量减少了70%。从单一的项目架构到微服务、云平台,现在我们也适应了很多云原生平台,公司架构提升到了一个新的高度。我们变成了一个平台公司,一切都可以接口。

我对亚马逊的杰夫·贝索斯有了更多的了解,他在做量子计算之前向全公司提出了API。我们公司也是如此。所有用于数据处理的工作流流程都必须是API,然后通过工作流引擎链接在一起。所以那时候我们把项目里的东西一层层解耦,用了两三年的时间,做了一个更智能的工厂。

#取得巨大进步,再迈进一步

接下来的技术问题是提高这种智能水平——我们的梦想是解决跨类别问题。这是服务于商业的公司普遍面临的问题,即无法解决跨行业的问题。有的只服务金融,有的只服务汽车,有的只服务快消品...很难跨越商业领域。我们只想说,能不能把人脑里的这些知识变成基础设施,不需要太多的人为干预,就能支撑各行各业的服务。于是我们开发了一个新的商业知识服务引擎,希望把所有的数据放到引擎里,根据各行各业的需求提取核心知识,帮助我们成为行业专家,同时更加自动化的服务客户。

这里有三个核心问题需要解决。第一,你要有大量的数据来训练各个行业的知识。第二个是你要了解各行各业的商业逻辑,让机器提取知识,按照它的商业逻辑组合起来。第三是算法能否达到更好的水平。

“为什么是DataStory”?这些问题一一解答和解决的过程,也是我们逐渐建立自己护城河的过程。首先,我们有非常强大的数据基础。三四年后,该公司现在拥有大约1000台服务器,这些服务器存储着我们认为具有商业价值的信息。商业价值是什么?也就是说,我们认为这些数据可以包含一些商业信息,比如哪家公司发布了一些新产品,哪类消费者表达了对我们产品的喜爱...简而言之,是关于商业的,我们都认为与核心公司、品牌、品类、消费场景相关的才是有价值的。

其次是商业逻辑,我们服务过很多商业公司,服务过越来越多的数据合作伙伴。包括各大运营商、BAT、各垂直行业的数据,我们都谈了很多数据和业务合作。

2015年公司成立,我们用不断学习的技术做各种实体识别。2017年开始做有限领域的知识图谱。这前后只用了三四年时间,我们积累了很多垂直领域的业务知识。这时候预训练模型出来了,为NLP领域的很多基础工作提供了技术支持。而且我们发现它非常适合跨域的数据训练,因为它相当于把Scheme变成了Open Scheme,可以不限制类型域。只要在语言中找到知识模式,就可以直接从中提取业务知识,构建知识网络。

我们告诉客户,虽然数据还是不准确,但是确实可以跨领域,客户非常欢迎。我觉得这也是技术的一种信仰力量,让人相信我们可以搞定这件事。

#与IDEA合作的技术蓝图

我们的第一个产品叫数字小智,是一个不完善的知识图谱,有三千多万个实体,一亿多条关系。第二版叫做《数数并告诉成千上万的大象》。“大象”是一个无所不包的“形象”,指的是商业公司所关心的所有商业对象都被网罗在一个关系图中。我觉得可能会给IDEA带来一些挑战,因为我们要共同把商业关系的提取提升到一个新的高度。

这是一个真实而迫切的需求,因为从掌舵者的角度来看,最大的顾虑一定是景观,商业公司会非常愿意为此买单。比如我做数据分析。我想知道国内有多少公司做数据分析?这个问题背后的答案一定不是成千上万的数据公司,不是说它们可以被称为同行业的竞品——真正在行业内和我们并肩作战的公司只有两三家。如何准确找出这两三个?这是数据服务公司的核心竞争力,所以我的技术需要能够在最短的时间内分析出答案,不断提高技术预测的准确性。

除了消费品行业所有类别的知识引擎、品牌和行业知识的快速概览和竞争挖掘,我们还拥有黑马品牌挖掘、产品趋势机会发现和组合趋势推荐模型等热门功能。

主意者:

我只想说,颤抖吧,营销人!

有三个方面是我们想和IDEA合作的,也可以说是三个问题。第一,随着数据复杂度的增加,我们有一个问题是技术的准确性无法提高,我们希望实现实质性的提高。第二,开放性。我们希望这些数据所涵盖的领域在行业性和即时性方面能够更加开放。三是探索更多的事件以及事件之间的关系。我们的终极逻辑是将一个公司的所有核心事件进行结构化,然后形成串联。到时候,任何一家公司,走到哪一步,都能给出下一步行动的数据支撑,或者给出答案。我们希望与IDEA一起做好这一点,冲击商业版的AI assistant,并将其放在每个商业公司的办公桌上。

 
友情链接
鄂ICP备19019357号-22