作 者:夏延山
来 源:正和岛
大航海时代对于人类来说,不仅仅是地理大发现,还有源源不断的商业冒险,以及包括航海科技在内的各种技术进步,其中有些甚至难以称之为“技术”,但同样推动了时代的飞跃。
航海过程中最大的难题之一,其实还不是面临的可怕未知和飓风大浪,而是
缺乏包括新鲜蔬菜在内的补给品,这会让船员患上坏血病——这种病症在几百年里折磨着远航的船员们,直到18世纪一位名叫林德的英国医生出现,这个问题才得以解决。
事实上林德当时也不知道这种病症的原因是缺乏维生素C,但为了找到解决这种病症的方法,他把12个患病的船员分成6组,分别用不同的方法治疗,比如第一组吃水果,第二组喝海水,第三组喝稀释的硫酸,等等。结果他很快发现,吃水果的那一组病人好转了,其他组则毫无疗效。经过反复试验,他认为自己找到了对付坏血病的对症药——水果。
这种不断验证假设,最后找到正确路径的科学方法一直流传到现在,在多个行业有不同的叫法,比如医药行业叫“对照试验”,而进入互联网时代以后,人们更多称之为
A/B测试。
“抖音”名称的由来堪称一次经典的A/B测试。据说当初这款风靡市场的短视频应用有多个名字备选,经过A/B测试后,再结合业务自身对于用户心理的揣摩,最后决定使用“抖音”这个名字,而且一炮而红。
这个案例之所以能够引发不小的关注,在于它改变了人们的决策依据——“抖音”虽然颇具识别性,但并不是一个理所当然的名字,更不是某个天才一瞬间的灵感乍现,而是在和其他“对手”PK过之后,才成为了最终的那个Chosen1。
这是竞争的结果。而从决策的角度看,在互联网时代数据和工具极大丰富的背景下,
A/B测试完全建立在数据基础上的理性表达,能够作为一种方法论,适用于在各种决策场景扮演重要角色——它不仅能在若干方案中评估出最好的那一个,而且还能评估出到底好多少,另一方面,它的“试错”特质也能帮助试验者规避业务陷阱。
换句话说,在当今这个大数据时代,如果想要在做决定的时候保持理智,摒弃经验主义,那么就绕不开A/B测试——事实上,无论是医药行业还是互联网大厂,早已把这种方法论运用得炉火纯青,而且成了业务模式中一个不可或缺的环节,并在这个过程中受益良多。如今,是时候让这种方法论更多地表现出普惠主义的一面了。
01、A/B测试并不神秘
去年国产疫苗开发到了Ⅲ期临床研究阶段后,往往选择到国外进行相关试验,原因是国内疫情已经得到了有效控制,因此需要到国外推进相关试验,获得足够的样本,以便对疫苗的有效性和安全性进行评价。
参加疫苗接种测试的人群,通常被称为“实验组”,而另一组不接种的人群则被称为“对照组”,通过实验组接种疫苗后产生的抗体情况,再对比对照组,最后得到有关疫苗的完整评价,然后逐渐扩大试验人群,直至开始向普通人群进行大规模接种。
这种方式的好处在于,
既能够得到具备普遍性的科学效果评估,同时还能在一旦出现问题的情况下,把风险控制在“实验组”这个相对较小的范围内,把损失降低到最低限度。
美国空军关于第五代战斗机的选型也反映了同样的道理。上世纪80年代中期,美国的两大军火巨头洛克希德和诺斯罗普都获得了一份有关第五代战机的研发合同,两个公司根据自己对于“21世纪空战模式”的理解,按照不同的理念设计飞机,并各自制造两架原型机,一架搭载F119发动机,另一架搭载F120发动机。美国空军根据一共四架原型机的试飞结果,从中选出第五代战机制造的最优方案,其中包括发动机的选型——洛克希德公司最后获得了竞标合同。
尽管在每个行业的做法不同,叫法不同,但这些实际上都暗含了A/B测试的思想。
而在讲究快速迭代的互联网公司,A/B测试的应用几乎无处不在——大多数都是针对某个需要改进的功能、UI、文案、广告投放等,提供两种或多种不同的备选方案,然后从总体用户中抽取一小部分,并随机分配给不同方案,最终结合一定的统计分析方法,比对试验数据,从而确定最优方案。
比如在谷歌,每天都能同时运行成百上千个A/B测试,以使产品或者功能的优化尽可能符合用户的需求。
而另一个互联网巨头字节跳动,除了自己建立了A/B测试文化之外,也在通过旗下的企业级技术服务平台“火山引擎”,将字节跳动内部的A/B测试工具,开放给更多企业,以帮助其他企业实现更加高效的数字化增长。两位来自火山引擎的研发专家认为,A/B测试非常有用,且并非一个高不可攀的数字工具,其他企业即便没有什么技术能力,也完全可以借助于这个工具实现精准、可预测的数字化业务增长。
值得一提的是,相对于多数对照试验,A/B测试拥有两个重要特点,
一是用户样本需要能够反映整体用户特征,而且在用户分组时要求随机均匀,二是分析结果时要充分结合统计学依据,注重数据分析,以充分判断结论的可信度。
A/B测试已经成为决策过程中的标准环节,但需要首先建立A/B测试的公司文化,才能真正用好这种已经得到验证的方法论。
02、建立A/B测试的公司文化
大多数企业都拥有“创始人文化”,通俗地说就是创始人是什么风格,那么这家公司就是什么风格——如果是权威主义、经验主义的业务增长模式,那就不要指望这家公司会对A/B测试感兴趣,反之如果是开放的用户思维、市场至上以及实用主义,并且是以理性数据为决策依据,那么就很需要A/B测试来扮演驱动公司发展的关键角色。
1. 首先要做到的是,在做出一个决定时,依据的不是“我觉得”,而是因为“数据证明”。
“我觉得”非常容易陷入认知误区。
比如在二战时,据说英国空军对作战飞机进行机身加固评估时,专门研究了执行实战任务的飞机,发现这些飞机的机翼位置中弹很多,驾驶舱位置反而中弹较少——看上去似乎应该着重加固机翼部分?
然而并不是。因为参加评估的飞机,都是安全返航的飞机,而那些机舱被击中的飞机,往往在战斗中损失掉了,并没有飞回来——这意味着如果“拍脑门”决定加固机翼部分,那么将酿成一个巨大的错误。
最可靠的改进方案就是获得足够的数据——既包括那些飞回基地的,也包括那些被击落的飞机。
2. 第二个关键点,就是能够不断提出假设,并去验证假设,直至找出正确答案。
在Airbnb高速发展的那些年,有一次发现纽约的房屋出租挂牌量增加了不少,但订单量却未显著增加,经过一番了解后,认为原因可能出在房屋的照片上——房东都是用手机拍照,他们多数未经过专业拍照培训,所以拍出来的图片效果不好,导致订单量提升不明显。
为了验证这个假设,Airbnb专门去拍摄了一些房屋的照片,并通过技术手段调整照片质量,结果发现这些房屋的出租订单是平均值的两三倍。
假设被验证了。为此Airbnb官方专门组建了一个由几十名专职摄影师组成的团队,负责帮助自家平台上的房东拍摄照片,结果一个月内纽约的订单数就提升了两倍。
用这种方法在纽约取得了成功之后,Airbnb把这种方法复制到了其他城市,整个平台的订单量都获得了大幅提升,甚至还超过了酒店巨头希尔顿。
Airbnb的增长曲线,是个绝对意义上的假设验证和数据驱动的范例——发现现象,然后提出假设,再通过数据验证假设,以此为决策提供依据,直至获得一个有关发展模式的解决方案,并推广到更大的范围。
这就是A/B测试的精髓——
通过测试有价值的功能,获得来自用户的真实反馈,并通过增加价值和解决问题来提升产品体验——尽管这样做需要付出若干重复工作以及时间方面的成本,但考虑到收益,这些成本是值得的。
对于一个公司来说,现在的大数据时代也使得人们对于数据的获取更加容易,这提供了一种新的工具思维——
在一个重大产品或者功能上线之前,首先通过A/B测试验证假设,从数据角度为科学决策提供重要依据,就能跳出经验主义可能带来的业务陷阱。
所以从发展的角度,一个公司必须建立A/B测试的文化,并熟练运用这种方法论,以便能够在需要的时候随时开启一个A/B测试。
03、运行一个完整的A/B测试
A/B测试的应用,也需要一定的工具基础。
对于一个公司而言,当前A/B测试工具分为两种,
一是公司自建测试工具,二是采用第三方的测试工具。自建测试工具的好处是流程可控,缺点就是投入大,对于单个测试需求来说显得性价比不高,而且即便自建了测试工具,也不一定有足够的经验去执行试验并分析结果,正是基于这一点,以火山引擎为代表的第三方A/B测试工具日渐流行。
火山引擎是从互联网巨头字节跳动孵化出来的一个业务部门,从“引擎”这个命名来看,这就是一个面向企业市场的机构。
具体到A/B测试,早在字节跳动成立之初的2012年,这种测试就开始运行,不断完善升级后成为一个大型的测试平台,在服务字节跳动内部各个业务条线的同时,也具备了向外部客户提供服务的能力。字节跳动的A/B测试从2018年开始服务一些种子客户,2020年正式通过火山引擎实现商业化。
火山引擎的A/B测试工具已经按照垂直领域实现了标准化,所以用户可以根据自己的行业特点,选择对应领域的标准化产品,只需要很小的技术投入,甚至在没有技术团队的情况下,也能开展A/B测试。
A/B测试分为四步:
1. 确定目标,或者叫定义目标
目标可以理解为业务发展指标,举一个具体一些的例子,某知名网红饮料品牌希望通过A/B测试的方法确定哪种饮料包装更好,那么,如何裁定包装对于饮料来说是最合适的呢?这一品牌采选用了“购买率”这一指标。通过观测不同颜色、设计的饮料包装,与用户购买率之间的关联,来确定哪个包装才是最受用户欢迎的。
2. 构建假设
假设来源于具体需求,同时,假设本身也需要“具体”。仍旧以饮料包装为例,我们的假设或将是:红色调包装比绿色调包装购买率高1.4%。足够具体的假设不但体现了实验者对用户/业务需求的理解程度,也将关联实验开设的时长以及需要覆盖的实验样本量。
3. 创建和运行试验
完成上述两个步骤之后,在运行试验前需要找出目标用户,依然拿更换饮料包装为例,目标用户就是来访的随机访客,通过这些访客找出最受欢迎的包装。然后开始通过流量分配运行试验——在一个特定周期内,分别提供两个饮料柜,其中一个是对照组,采用原始包装,另一个是实验组,假设一周之内,每天都提供同一种、但是不同颜色包装的饮料,当试验周期结束之后,分别统计实验组饮料柜里面的不同颜色饮料的销售情况,再和对照组的饮料销售情况进行分析对比。
如果对照组销量显著低于实验组,则表明饮料包装的确存在现实的更换需求;如果实验组中某一种颜色包装的饮料远远高于其他颜色包装,则意味着该颜色可能正是消费者钟爱的外包装。
4. 优化完善
当A/B测试的试验结果逐渐清晰,就可以根据数据判断试验是否已经获得成功,如果成功,可以向更大的范围推广试验结果,如果没有获得成功,那就继续构建假设,直至获得想要的结果,确定最优版本。
作为一种有效的工具,A/B测试展现了一种科学而审慎的原则,在用户时代展现了用户思维,并由此实现了数据驱动增长的逻辑。
04、结语:判断力依靠数据,但超越数据
A/B测试的另一个有益之处在于,
包括失败版本在内,几乎所有测试版本都能提供一些价值。
比如那些在A/B测试中被淘汰的版本,并不一定就是完全一无是处,而在统计数据中跑赢的试验版本,也不一定就是最优,所以需要决策者通盘考虑——这个测试只是提供了一种基于数据驱动的参考,但不是万能的,也并非唯一答案。
还是以抖音的命名为例——字节跳动在完成了对产品名称的A/B测试后,从数据上看,“抖音”并不是排名第一的选择,但最终却成功上位,表明最终的决策是一个综合考量的结果,取决于决策者的判断力,而非完全依赖于数据本身——
依靠数据,但超越数据。