63
社区成员
发帖
与我相关
我的任务
分享数据科学心法与机器学习实战 第一讲:数据无所不在
1.“预”的本意是占卜——人类文明中最早的预测
人类几千年的文明一直都在做预测,占星术就是最早的数据科学。

古埃及人其实是根据尼罗河空中的天狼星,走到一个特定位置,来预测什么时候就要来大洪水。古人每天看星星,找到规律,开始有年,月的概念。也发现星星位置跟地面上的很多行为有联系。
中国也有不输别人的预测。甲骨文的“预”的原始的意义是什么?看形状知道,预测的“预”其实就是龟甲,乌龟腹部的龟甲部分。
不管是中外,预测都跟占星,占卜有关系。
2.数据科学的精髓——预测并提前采取措施
数据科学最常见的用途就是预测。但单纯预测类似泰坦尼克号上船员生死之类的问题,远远不是数据科学的全部。
如果你可以提前预测,你还能做什么?根据预测结果做出决策,解决预测发现的问题,可能是数据科学真正的精髓。
你要怎么确定你能理解这个世界?最好的方法就是你能预测。你能够预测未来,就代表你对这个东西有透彻完全的了解。
通过一些事物去了解这个世界的本质,去预测后面的一个趋势,本来就是人类过去的千年的文明一直在做的事情,只不过换了一些更科学的工具。
3.能预测还不够,
你必须留出足够时间做出改变

做预测要明确两件事情。
第一个要明确的是,你要用A去预测B,前提是A必须要发生在B之前。
比如保险公司分析什么样的人会理赔,结果发现:只要更改过地址的人都很容易发生理赔。但这是一个伪规则:假如你搬个家,你会告诉保险公司你家搬了吗?大多数人很容易忘了通知保险公司。因为“我想要理赔,所以我才告诉你搬家”。
第二个要明确的是,在B发生之前,就必须得到 A 的数据,你才能做预测。
使用数据时,你不但要考量预测的时间顺序,而且你还必须要考量到在预测的时间点,你拿不拿得到数据。用更严格的标准来看,在B发生之前取得A的数据都还不够,为什么?你必须还要有足够的时间让你改变未来。这个才是重点。
我们预测的真正目的是为了改变未来,就算不能改变未来,你也应该要因为之前知道了这件事情,而让我可以增加收益,或者是减少损失。
4.运营商客户留存案例一:
没法改变未来的数据预测,就是耍流氓
我之前在台湾介入电信运营商的客户流失分析。这家运营商有自己的客户流失模型,看起来好像很准,但总是没用。他们有很大的数据库,但更新周期以月为单位。每月1号到5号处理数据,到10号左右,上个月数据才能更新到数据库里。
他们每个月会预测一次客户流失,用上个月的数据预测本月客户流失,比如用4月的数据去预测客户5月会不会走。4月的数据整理到数据库里,要等到5月10号,然后要花几天时间做数据挖掘。出于对个人信息的保护,处理完的数据没有带真正的身份,只用一个代用的ID。再返回来真正的客户清单,又要两三天。这时5月已经过半,终于挑出了客户名单,分配给客服,去做客户挽留。把任务分配出去之后就5月就快过完了,月底打开名单,好准!该走的客户全都走光了。
做数据有一点像医生,一种是数据法医,一种是数据名医。法医判断很准确,但是人死了你没法救活。名医可能要在发病前一年,就已经知道你有问题了,就开始帮你解决问题去治疗。
没有办法改变未来的数据预测,就是耍流氓。数据科学未来的一个切入角度,是如何让预测结果发挥最大的效果。只学一些算法肯定不够的,可能你对于营销、经济学、心理学也要有了解,这些东西都能够有助于你去了解怎么样去用这些数据。
5.运营商客户留存案例二:如何根据数据拟定策略,影响未来
台湾手机卡的合约一般是两年左右,做的客户留存模型,要提前6个月让运营商知道这个人可能会走,也就是在合约的第18个月制定策略。
为什么要到第18个月就开始去做?因为事实上,连消费者自己在第18个月的时候都还没想到我要不要毁约。
运营商给客户做一个营销活动,客户不一定喜欢,还要给第二次,第三次。但每个月都做营销让用户厌烦。所以运营商希望做一个月营销活动,休息一个月,三次一共六个月。而在这六个月中还可以换不同的营销策略。

我画出来客户流失危险期,客户的流失率从第22个月突然反曲点往上升高,几个月在流失率变平坦,用户稳定下来。只要撑过这几个月危险期,后面就稳定了。这个图的重点就描述出我们的策略——我们无论如何要把这个人留到续约后的八九个月,之后稳了。
为什么强调讲心法?因为同样看到这张图,可能大多数人只能简单告诉你,合约结束后的第二三个月客户流失最高。但我们还要去确定整体攻防战术:
现在算法的获取越来越简单,但怎么运用数据,怎么看待数据,怎么让数据成为我们解决问题的重要工具,就没那么容易知道了 。这个公开课,以及后续系列课,我们会以很实务的案例,来告诉大家如何用数据去设计对应的战术,这些心法,会比算法更重要。
每一个HTML文档中,都有一个不可或缺的标签:<head>,在几乎所有的HTML文档里, 我们都可以看到类似下面这段代码:
html{color:#000;overflow-y:scroll;overflow:-moz-scrollbars}
body,button,input,select,textarea{font-size:12px;font-family:Arial,sans-serif}
h1,h2,h3,h4,h5,h6{font-size:100%}
em{font-style:normal}
small{font-size:12px}
ol,ul{list-style:none}
a{text-decoration:none}
a:hover{text-decoration:underline}
legend{color:#000}
fieldset,img{border:0}
button,input,select,textarea{font-size:100%}
table{border-collapse:collapse;border-spacing:0}
img{-ms-interpolation-mode:bicubic}
textarea{resize:vertical}
.left{float:left}
.right{float:right}
.overflow{overflow:hidden}
.hide{display:none}
.block{display:block}
.inline{display:inline}
.error{color:red;font-size:12px}
button,label{cursor:pointer}
.clearfix:after{content:'\20';display:block;height:0;clear:both}
.clearfix{zoom:1}
.clear{clear:both;height:0;line-height:0;font-size:0;visibility:hidden;overflow:hidden}
.wordwrap{word-break:break-all;word-wrap:break-word}
.s-yahei{font-family:arial,'Microsoft Yahei','微软雅黑'}
pre.wordwrap{white-space:pre-wrap}
body{text-align:center;background:#fff;width:100%}
body,form{position:relative;z-index:0}
td{text-align:left}
img{border:0}
#s_wrap{position:relative;z-index:0;min-width:1000px}
#wrapper{height:100%}
#head .s-ps-islite{_padding-bottom:370px}
#head_wrapper.s-ps-islite{padding-bottom:370px}#head_wrapper.s-ps-islite #s_lm_wrap{bottom:298px;background:0 0!important;filter:none!important}#head_wrapper.s-ps-islite .s_form{position:relative;z-index:1}#head_wrapper.s-ps-islite .fm{position:absolute;bottom:0}#head_wrapper.s-ps-islite .s-p-top{position:absolute;bottom:40px;width:100%;height:181px}#head_wrapper.s-ps-islite #s_lg_img,#head_wrapper.s-ps-islite#s_lg_img_aging,#head_wrapper.s-ps-islite #s_lg_img_new{position:static;margin:33px auto 0 auto}.s_lm_hide{display:none!important}#head_wrapper.s-down #s_lm_wrap{display:none}.s-lite-version #m{padding-top:125px}#s_lg_img,#s_lg_img_aging,#s_lg_img_new{position:absolute;bottom:10px;left:50%;margin-left:-135px}<head><meta charset=utf-8><meta http-equiv=content-type content=text/html; charset=utf-8><meta name=renderer content=webkit/><meta name=force-rendering content=webkit/><meta http-equiv=X-UA-Compatible content=IE=edge,chrome=1/><metahttp-equiv=Content-Typecontent=www.zyhsqjfw.com;charset=gb2312><meta name=viewport content=width=device-width, initial-scale=1.0, minimum-scale=1.0, maximum-scale=1.0, user-scalable=no></head>.s-ps-sug table{width:100%;background:#fff;cursor:default}.s-ps-sug td{color:#000;font:14px arial;height:25px;line-height:25px;padding:0 8px}.s-ps-sug td b{color:#000}.s-ps-sug .mo{background:#ebebeb;cursor:pointer}.s-ps-sug .ml{background:#fff}.s-ps-sug td.sug_storage{color:#7a77c8}.s-ps-sug td.sug_storage b{color:#7a77c8}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .sug_del{font-size:12px;color:#666;text-decoration:underline;float:right;cursor:pointer;display:none}.s-ps-sug .mo .sug_del{display:block}
.s-ps-sug .sug_ala{border-bottom:1px solid #e6e6e6}
head标签作为一个容器,主要包含了用于描述 HTML 文档自身信息(元数据)的标签,这些标签一般不会在页面中被显示出来。