您好,欢迎来到品趣旅游知识分享网。
搜索
您的当前位置:首页基于虚拟技术中logistic回归模型在睡眠客户预测中的应用

基于虚拟技术中logistic回归模型在睡眠客户预测中的应用

来源:品趣旅游知识分享网
l数日啦术 | 应用研究 回归模型在睡眠客户预测中的应用 陈宝华柳炳祥万川南 (景德镇陶瓷学院信息工程学院江西景德镇333000) 摘要:企业的客户关系管理工作好坏,直接影响到企业的核心竞争力,发现一个潜在的客户,往往比挽留一个客户所花费的成本要大的多,因此.发现 睡眠用户,并做好相应的客户关怀,挽留住即将流失的客户,就显得非常重要。论文利用lo百s石c回归模型,建立客户睡眠客户的预测模型,建模步骤分为 变量分析、变量变换、模型建立评估。从实验分析和结果上看,模型效果拟合较好,评价l0gistic回归模型结果好坏的KOC、Ks曲线验证了该方法的 可行性和有效性,为睡眠用户的预测提供了一种分析的思路和方法。 关键词:睡眠客户预测模型lo ̄sfic 归模型 中图分类号:F123.9 文献标识码:A 文章编号:1 007.94 1 6(20 1 6)O8.0069.02 1引育 改善客户关系管理工作,提升客户价值。 睡眠用户的定义和模型目标变量的选定息息相关,而目标变量 是用模型确定业务问题的模型解释,这个过程本身就是业务问题转 2数据处理 化统计模型问题过程。鉴于睡眠用户定义的重要性,睡眠用户的直 2.1数据来源 接表现是停止交易,所以最后一次交易到无交易的时间是一个比较 论文数据来自于某第三方支付平台历史交易数据,对一些涉及 合理定义。为此从统计用户两次之间交易间隔来确定睡眠用户的定 商业机密的数据,如交易金额等进行线性变换,对用户个人隐私信 义。统计用户的最大交易间隔天数分布情况,从图1中可以看出,到 息进行剔除。 当用户最大交易间隔天数在90天后,用户的最大交易间隔分布下降 2.2数据预处理 平缓,而且70%以上的用户的最大交易间隔小于等于90天。 在建立模型之前,对重复数据进行了预处理。首先从业务的角 发现睡眠客户对于企业的客户管理工作非常重要,论文采用 度上,对用户的交易是主动性交易与被动性交易进行整理,从业务 l0giStic回归模型对睡眠客户进行分析,发现睡眠客户的特征,进而 的角度上理解主动交易更能反映用户的行为,所以数据删除被动交 易记录。对文本字段转换成数值字段,时间字段转换成标准时间格 式,即数据处理中截取、清洗、转换。 2.3确定高价值客户 从业务的角度上,历史活跃度很低的用户,对企业的认可度可 能更小,对这样的用户营销收益不高。所以建立模型时,要考虑确定 什么样的用户是高价值用户。高价值的用户有一定的活跃度,而活 跃度主要表现在交易次数上。而为了确定有价值用户的规则,筛选 出在历史交易时期没有睡眠的用户,计算这些用户在6个月中的历 史交易情况,并对整体用户的分布趋势进行汇总统计分析,数据处 理结果如表1所示。 3 logistic回归模型在睡眠客户预测中的应用与分析 3.1变量选取 对于本次建立的睡眠用户,预测模型的变量选取,主要是客户 属性变量与客户交易行为变量。其中客户属性变量有: 蛄蛀衄 i s1.e ==:4:=: 图2 ROC曲线 图3KS曲线 收稿日期:2016—06—24 作者简介:陈宝华(1994--),男,江西崇仁人,景德镇陶瓷大学信息工程学院硕士研究生,主要研究方向:数据挖掘与群智能算法。 应用研究 表1非睡眠用户交易次数汇总 表2逐步选择汇总 目标事件的观测中被正确分类的比例;灵敏度十实际上属于目标事 件的观测被正确分类的比例;K—S统计分布是用来衡量模型的辨识 能力。sleep=O( ̄睡眠)曲线是模型预测值小于某个值时sleep=O( ̄ 睡眠)的累计观测数占比分布;sleep=l(睡眠)曲线是模型预测值小于 某个值时sleep=l(睡眠)的累计观测数占比分布;D值在0到1之间, D值越大,模型的辨识能力越强。此模型两条曲线的最大垂直距离, EPK-S统计值D=O.625,说明该模型辨识能力较好。 4结语 通过对变量的标准化系数比较各变量的影响程度。最后一次交 易后余额,最近三月消费次数,最近三个月消费笔数占比,最近三个 月交易金额占个月总交易额百分比,最近三个月转账笔数占比,实名 等级0,最近三月转账金额占比与最近4—6个月转账金额占比变化比 例的标准化系数分别是-0.8781,-0.4041,O.33o5,-0.2005,0.1773, 0.1382,0.1036,即这些变量的影响程度呈现递减趋势。 从实际业务角度上验证,JinePChange3(最近三月转账金额占 比与最近4_6个月转账金额占比之差)越大,表示最近三月转账金额 增加,Pred值变大,睡眠可能性增加。NumPercent32(最近三个月消 费笔数占比)越大,表示最近三月消费相对增加睡眠可能性增加。 NumPercent33(最近三月转账笔数占比)越大,表示最近三月转账相 对增加睡眠可能性增加。Sum3P6(最近三个月交易金额占六个月总 交易额百分比)越大,表示最近的交易相对之前更活跃,睡眠可能性 降低。RealName等于0,表示非高级实名用户,相对高级实名用户睡 眠可能性更大。Num32(最近三月消费次数)越大,表示消费频率较 大,用户更不容易进入睡眠。AfterAmt(最后一次交易后余额)越大, 表示用户的粘性更大,更不容易进入睡眠状态。 论文利用logistic回归模型,建立客户睡眠客户预测模型,建模 步骤分为变量分析、变量变换、模型建立评估。从ROC、KS曲线上可 以看出,模型效果拟合较好。实验中也有一些不足之处,首先是数据 收集还存在不足,根据行为分析,对用户的行为特征除交易行为,还 有个人偏好、性别、年龄、消费能力、学历等因素未考虑,直接影响到 模型预测的精度,有待今后进一步完善。 参数 Intercept n出鹰 协“值l I 817 酥琳j毙麓 Wald#矗 Pr一#疗 抓 魅他憾计 0 2148 7l 5∞S 0001 JinePChange3 u ercet1 32 1 1 0 6508 2 1295 0 149.1 0 1848 18 9689 13,3 1793 0∞l ‘O001 0 1036 0 3805 N ̄ilaercent33 SumaP ̄ l i l S嘶4 一1.37 0 2Tf2 O 15∞ 45 2905 79 8894 0001 、.O001 0 t?珏 -0 0∞§ RealName Nllm32 0 1 i 0 6921 呻05,I 0 0826 O 00567 70 2907 89 2025 0001 0001 0l382 ・0'i041 AFTERA ̄T i ~0+596 0 0286 433 a033 -L O001 —0 8781 CUSTOMER_NO,用户实名等级,注册时间;客户交易行为变量有: 交易金额,交易类型,交易时间,每次交易前余额,每次交易后余额, 交易类型(涉及商业机密数据,所以将金额数据进行线性变换处理), 还有一些衍生变量。 3.2变量处理 原始数据繁杂冗余,不能直接用于建模。数据处理过程包括缺 失处理、变量类型转换、日期型变量处理、错误变量处理、异常值处 理、相关性变量处理、变量选择。其中缺失值处理的方法是,当交易 数据为缺失时,用零来代替,代表没有发生交易,是一个合理的解 释。所以,本文的原始变量缺失则用零代替。变量的删减的方法是, 删除变量是一个非常慎重的问题,但是若是存在较强相关性的情况 下,logisitc回归结果是不满意的。因为变量过多,一次性进行变量 相关性分析结果,显得过于繁杂,不利于找出其中的规律。为此,先 进行变量重要性分析,将变量相关l生分成两阶段进行。第一个阶段, 先分析三个维度中变量的相关性分析。第二阶段,在完成第一阶段 参考文献 分析之后,剩余的变量全在一起分析变量相关性。 3.3模型建立 [1]赵小宁,李凤霞.因子分析法和聚类分析法在网上银行客户满意 按上面的分析,对变量进行选取及变量的处理后,进入建模阶 度研究中的应用[J].时代金融,2O1 5(3). 段。实验所选变量主要体现用户交易行为变化、最近交易行为、用户 [2]李凡.数据挖掘技术的研究与应用[0].西安电子科技大学。2002. 身份特征来拟合用户是否会进入睡眠状态。将整理好的数据按50% [3]杜建军,李海玉。马蓉等.数据预处理与决策树在客户行为分析中 比例随机抽样,分别得到训练集和测试集。实验模型是基于SAS软件 的应用[J].信息技术,2008(1 2). 中的PROC LOGISTIC过程来实现的。选取逐步回归估计的方式, [4]蒋斌.数据挖掘技术在客户关系管理中的运用[J].云南大学学报 模型估计结果如表2所示。logistic回归分析的极大似然估计分析, (自然科学版),2006(1 2). 如表3所示。 [5]郭立硕,王兆刚,李星.基于因子分析和聚类分析上市房地产公司 3.4模型评估 的财务风险评价[J].中小企业管理与科技,201 5(1). 评价logistic回归模型结果好坏,主要有K—S曲线、ROC曲线等 方法,图2、图3是本次实验所建立模型的K-S曲线、ROC曲线。ROC 曲线横坐标为(卜特异度),纵坐标为灵敏度。特异度是实际上属于非 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- pqdy.cn 版权所有 赣ICP备2024042791号-6

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务