全文2023字,预计学习时间4分钟。
找工作不容易。你需要让自己与众不同。
创建数据科学项目的目的是什么?从雇主的角度来看,当然是为了让这些项目产生商业影响。那么你如何建立一个展示商业影响力的投资组合项目呢?如果你是刚起步,预测模式数据是个不错的选择,但在现实生活中,你可能会直接或间接从事一些业务相关的工作。
本文以R客户流失预测为例,重点研究R客户流失的预测过程。本文将逐步介绍如何在R中构建客户流失预测模型,该模型显示出对业务的重大影响。
项目范围定义
在任何真正的数据科学项目开始时,都需要问一系列问题。
以下是一些这样的好问题:
1.你想解决什么问题
2.可能的解决方案是什么?
3.如何评价你的模式
假设你在电信行业工作,可以接触到客户数据。老板找到你问:“我们如何利用现有的数据来改善我们的业务?”这个问题比较模糊,可以制定一个关于“如何回答上面的问题”的策略来回答老板的问题:
你想解决什么问题?
查完数据你会发现,获取新客户的成本是留住现有客户的5倍。现在更重要的问题变成了,“如何提高客户保留率以降低成本”
你可能的解决方案是什么?
为了提高客户保持率,我们需要识别潜在的不满意客户。如果你能在客户生命周期的早期介入,你可以提供折扣或其他服务来试图防止不满意的客户的流失。现在我们可以访问客户数据,我们可以建立一个机器学习模型,并尝试预测不满意的客户可能的损失。为了简单起见,我们来看一下使用逻辑回归模型的情况。
你会如何评价这个模型?
我们将使用一系列机器学习评估指标以及面向业务的指标。
准备数据
此工作流程因项目而异,但在本例中,我们将使用以下工作流程:
1.输入数据
快速查看
清理数据
4.分散数据
下面是R中前两步的快照:
虽然没有显示,但在清理步骤中,我们使用中值来估计缺失值。这是一种简单的方法,但我们必须寻找一种更严格的统计方法。
最后一步,将数据分为训练集和测试集,分别使用75%和25%的数据。这种方法通常可以防止过度拟合。
拟合模型
为了实现logistic回归模型,将使用广义线性模型函数。
有不同类型的GLMs,包括逻辑回归。为了指定我们想要执行的二元逻辑回归,我们将使用参数“family=binomial”。
做一个预测
既然我们已经拟合了模型,现在是时候看看它的表现了。
为此,我们将使用“测试”数据集进行预测。我们将介绍上一节中的“fit”模型。为了预测概率,我们将指定“类型=响应”。
将响应阈值设置为0.5,这样如果预测概率大于0.5,我们将把这个响应转换为“是”。
下一步是将字符响应转换为因子类型。因此,逻辑回归模型的编码是正确的。
我们稍后会更仔细地查看阈值,所以不要担心我们为什么将它设置为0.5。
最后一步是评估模型。
混淆矩阵是一个有用的工具,它可以告诉我们每个类有多少正确和错误的预测。
敏感性和特异性也是“混淆矩阵”功能报告的有用指标。
另一个有用的指标是受试者工作特征曲线下的区域,也称为AUC。
ROC是一个很好的工具,因为它可以在阈值变化时绘制出真阳性率和假阳性率之间的关系。下面是如何使用“ROCR”库来绘制它:
使用该图的一个有用方法是找到曲线下的面积,也称为AUC。AUC可以取0到1之间的任何值,1是最佳选择。下面是计算AUC的R代码:
模型的AUC是0.85,这是一个非常好的结果。如果只是随便猜的话,ROC是45度对角线。这相当于0.5的AUC。至少,这比随机猜测要好,所以我们知道模型至少有一些价值!
显示业务影响
最后一步是将我们迄今所做的一切转化为业务影响。
先对成本做一些假设。假设在电信行业,获得一个新客户需要花费300美元。我之前说过,数据显示,获取新客户的成本是留住现有客户的5倍,所以留住成本是60美元。
以下是关于这些成本如何与四种类型的预测相关的简要结论:
1.假阴性:300美元
2.真阳性:60美元
3.假阳性:60美元
4.真负值:[50]
如果每个预测类型的数量乘以相关成本并相加,将得到以下成本等式:成本= FN+ TP+ FP+ TN。
使用不同的阈值来计算每个客户的成本。阈值向量“thresh”初始化后,可以迭代预测每个值。由于我是根据每个客户来计算成本的,所以我必须用它除以测试集中的数据点总数。
最后,将结果放入一个数据框架和我称之为“简单”的模型中。这是之前的逻辑回归模型。默认值为0.5。
该图显示,在0.2的阈值下,每个客户的最低成本约为40美元。
假设该公司之前使用的是“简单”模型,当阈值为0.5时,每个客户的成本约为48美元。
如果你有50万左右的客户群,从简单模式切换到优化模式,一年可以节省400万美元!这种成本节约正是雇主希望看到的重大商业影响。
结论
在求职过程中,让自己脱颖而出的最好方法之一是建立一个展示真实商业影响的投资组合项目。
如果你能提出一些明智的商业问题,并像现实世界中的数据科学家一样完成一个项目,你会立即变得对雇主更有价值。
留言发朋友圈。
我们一起分享AI学习和开发的干货。
编制人:林振华和赵璇
如需转载,请在后台留言,遵循转载规范。