一、数据的发展疫情的这一年,似乎是所有公司对于数字化转型开始重视的一年。
无数公司在加快数字化转型的速度,而居家、在线、微信生态(小程序、视频号)、抖音快手的加速下沉又为这一转型构建了完善的基础并提供助力。游戏、电商、直播、在线教育等互联网C端业务随着用户需求激增而飞速发展,同时还带动了之前并不是太受重视的SaaS、PaaS等To B业务。
在这一系列的变化下,数据的量级、多样性以及分布的平台都发生了不小的变化,而在各家的管理者口中,与数据相关的概念、平台、工具、能力也开始越来越多地被提及。从早些年的Hadoop到数据中台,再到“数据即能源”,从DMP到CDP,从公域再到私域,让人感慨快跟不上节奏。
本文笔者将把目前比较常被提及的与数据相关的概念做一个通俗梳理,帮助那些之前没接触过或是刚接触这方面信息,并有打算做些事情的创业者了解:现在在谈论数据的那些场景,大家到底在讲些什么?
二、基础层面 数据库这个概念几乎业内人都接触过,简单来说,数据库就是按照数据结构来组织、 存储和管理数据的仓库。这个概念已经有六十多年的历史了,可以说后续所有跟数据相关的概念都是从这里衍生出来的。
这里主要介绍的是现在大家经常提到的数据库,分为SQL和NOSQL两类,很多没有接触过的人就会感到疑惑,其实这两个都是一种简称。
SQL型数据指的就是我们之前常用和常说的关系型数据库,主要代表有SQL Serve、Oracle、MySQL等;而NoSQL泛指非关系型数据库,主要代表有MongoDB、Redis、Hbase,这种数据库具备更好的扩展性,我们经常听说的大数据集群往往就是指的这种。
SQL与NoSQL
不过这里面有个概念要明确,两者并不是完全对立,NOSQL并不是说不要关系性了,而是指Not Only SQL。
对于非技术出身的人来说,不需要理解那么精准,只要了解自己的业务的数据是单一、结构化、稳定的还是复杂、多样、变化多的就好了,前者往往针对的是一些场景固定、长期的业务,如银行、纯线上电商等;而后者面对的往往是针对社交、网络平台等与内容相关的场景。
但对于目前的互联网公司来说,业务往往都不那么单一了,所以往往都是选择关系型数据库(如MYSQL)和NOSQL数据库的混合方案来针对不同场景的数据进行支持。
数据仓库和数据集市
1、数据仓库数据仓库这个概念很多人会跟数据库等同,以为只是说法不同,但其实两者还是有区别的。
数据库更多的是面向事务处理的,我们经常听到技术同学提到说什么什么应用或是系统,把数据写入数据库或是从数据库读取,就是因为往往这是直接的业务逻辑支持。
数据库的表一般会结构复杂,以应对复杂的业务逻辑,同时存在较少的冗余数据,且单次对应更少的数据(经过优化),适用更简单的读写查询,以减少时间,提高业务响应的速度。
而数据仓库往往是面向数据分析的,里面的数据已经经过了一定的清洗和处理,相对结构会简单一些。但由于经过了逻辑对应,因此会存在一定的冗余数据,不过数据仓库可以支持更复杂的查询,单次所要处理的数据量会更大。
之前看到过一种比喻,感觉挺有说服性的,就是数据仓库就好像我们在宜家一楼看到的那个取货的仓库,按照货品、位置分门别类的放好了。对于顾客来说,这种摆放虽然不太适合逛,但很适合快速找到自己要的产品,也便于宜家工作人员进行管理。
2、数据集市数据集市,也是一个容易被人们和数据仓库混淆的概念。
数据集市其实在某种程度上算是数据仓库的子集,但是它的主题更集中,是面向某个业务部门或是某种角色而单独出来的小型数据仓库。
在这里所有相关的数据会被集中在一起,用更符合该业务或是角色需求的方式进行处理和存储,这里面的数据一般就是来自于数据仓库(当然也可能有部分来自外部,内部再做了整合)。所以可以把数据集市简单理解成展厅,比如书房、卧室,把楼下的货品用某种主题进行重新组合,便于服务对象(顾客,公司里是业务方)进行理解和使用。
因此数据集市的规模往往要小于数据仓库,根据主题需求,可能只放一段时间或是一个方面的数据就够了,并不需要像数据仓库那样存储大量数据。
数据湖和数据河上面的概念更偏技术,但数据湖和数据河,甚至数据沼泽好像就更多会出现在各家数据产品厂商或是云厂商的宣发资料里了,让人觉得高深莫测。
1、数据湖其实数据湖和数据仓库都是一种数据处理的思路,只是数据仓库更倾向有一定结构化的数据,而数据湖旨在应对现在更加多元化的内容,以及人工学习发展的需求,因此数据湖是一种更加自由的存储方式。
数据湖是依据被存储数据原始数据格式进行的数据存储,目的就是让任何数据可以以最原始的形态储存,既可以是结构化也可以是非结构化数据,基于云的发展以及大数据集群技术的成熟发展,尽量不丢失任何数据细节,这样就能在后面的业务变化中拿到所需的数据用于机器学习或者数据分析。
所以简单理解,就是随着技术发展了,可以不受限制的保存更多数据了,而且不需要在一开始存储时就进行处理,减少在数据处理时产生的信息丢失,而是仅在真的开始应用数据时再进行处理,随时可以追溯原始记录。
2、数据河数据河的概念,以我个人来看,更像是一种美好愿望。我们前面提到的所有概念,都是要对数据最原始的数据源进行清洗、处理才能够被使用,而这部分的工作量往往占据了数据工作60-70%的资源和精力。
因此就有人提出一种治理思路,让源头产生的数据基于某些规则或是方式,使其在源头就是清晰干净的(也有种说法叫去ETL化,意思就是业务逻辑清晰后就像生态水源一样,不让污水流下去,有点像农夫山泉那句广告词,“我们只是大自然的搬运工”),而干净的数据通过各个数据河道网络,就可以直接流向各个数据消费端。
在笔者看来,数据湖是为了应对目前大平台的复杂度而应运而生的,是可以快速被企业接受和应用下去的;而数据河就像是目前的环境治理,可望而不可及,任重道远,就我所接触和见到的企业,还没有一个能具备这个能力,就不多展开了。
DMP和CDP这两个概念已经随着数据中台的火热而被各家极尽宣传,很多接触的人只是简单了解到CDP要比DMP先进,或是说更晚被提出来,但差异在哪里就讲不清楚了。
简单理解,DMP更多的是为了广告服务的,所以早期都是随着媒介、广告、代理公司而一并被提出来的,比如阿里早期的达摩盘。而CDP更多的是贯穿整个业务的,围绕着用户建立一个整体的管理体系,再与各个部门进行结合。
CDP(Customer-Data-Platform)和DMP(Data-Management-Platform)其实都是做数据客户管理,这也是大家对这两个概念容易弄混的原因。
DMP的概念要更早,在PC时代就已经被广泛提及,基于当时的技术条件,DMP主要利用第三方数据作为数据源,再并入少量的一方数据。 当时对于用户的识别基本是基于Cookie池的,这也造成了时效性有限,另外DMP的控制往往是放在技术同学手里的,灵活性和应用范围都有一定限制。
CDP主要使用第一方数据,同时也可以通过API中间件对接第三方数据。CDP使用PII(personallyidentifiable information 个人身份信息,比如微信ID,手机号,手机设备ID)进行用户的唯一识别,因此具有更加长的时效性,可以做基于用户生命周期(LTV)的转化、留存、体验和沟通的分析。而且CDP往往更加灵活,数据都以业务的视角来进行归类、分析、整合和应用,因此具有更加广泛的普适性,可以与多个业务部门或是角色进行结合。
DMP和CDP
三、认知层面介绍了一些更偏技术背景的概念之后,我们也简单聊聊与应用层面相关的概念。
消费者资产这个概念可能在阿里的数据银行经常被提及,但在应用层面,其实是一个很好的方法论:通过把消费者看作资产,借助CDP等工具,把用户的流转、变化以及与动作之间的关系更好地分析和沉淀下来,以此来不断打磨自己的业务能力。
无论是阿里的AIPL,还是腾讯的引入期、成长期、成熟期、休眠期、流失期,都是真正将用户看成一个活生生的人进行分析,而不是只追求一个简单的单点转化。
因此也会听到很多公司都在越来越多的提及用户运营,而且周期也被拉的越来越长,而不是周五上架,周一才开始运作了。
这里作一个更正式的消费者资产解释,方便大家理解:消费者资产是指企业所有消费者终身价值折现现值的总和,即消费者的价值不仅仅是当前盈利能力,也包括企业将从消费者整体生命周期中获得的贡献价值总值的折现净值。
数据运营我们一提及数据运营,往往都会简单的理解成用数据来进行分析,一切以数据说话。但其实数据运营也是一个系统工程,是需要企业统一思路的一套体系。
数据运营更核心的其实在于运营数据,数据不光是当前获取的集合,更多的是基于业务大目标下各个业务已有动作和需要有的动作所能产生的数据的总和。
举个简单的例子,CDP依赖的用户标识,如果在运营活动中没有有意识地进行采集, 比如手机号留资,后续就无从把数据做统一,这不仅仅依赖于数据部门或是技术部门,更多是针对业务所需数据的共识后的动作统一。
过去我们规划营销体系,或是具体到一个活动的营销,往往在意的是活动本身的效果,很少考虑该获得什么数据。
但是今天,一个营销体系,或是一个营销活动,不能因此获得到足够的消费者的数据,它的价值就折损了一半。甚至夸张点说,这个活动就是为了获取为达到某个目的的消费者数据的,而活动本身的销售额、效果等只是用来验证对消费者数据应用理解的副产品而已。
只要这个理解始终在线,副产品就会源源不断的产出了。
以我们常讲的SCRM(SocialCRM,社会化客户关系管理)来说,实际上如果把SCRM只是理解成一个工具或是SAAS系统,就偏了。SCRM其实是一个管理工程的概念,里面可能包括工具但不只是工具和产品。
比如有些企业开了公众号、做了小程序、有了抖音号,就认为自己变成了SCRM企业,于是就会质疑这东西效果好像也没什么用嘛,看不到有什么价值,然后再骂骂市场部某个管理公众号的实习生,就结束了。这种概念显然是不对的。
其实这里面更重要的概念是,企业有没有消费者意识,有没有社媒的概念,有没有参与消费者的对话?只有真正理解这层关系,才能让客户不断裂变,产生更多价值。因此企业要从消费者资产、运营数据的整体角度来考虑这些平台、媒介该怎么使用。
四、结尾上面我简单地把目前与数据相关的一些概念做了解释,最后也说两句对于这部分的个人认知。
现在市面上最多的还是各类产品、工具、云产品的推销在卖力的灌输这些概念,但真正与客户接触时,往往还是为了售卖产品本身,管实施不管使用;或者虽然有代运营,但策略以及方法论还是依赖客户自身能力,往往就造成客户一边抱怨,一边厂商又做的苦哈哈的。
当然这种表象的解决并没有什么良方,真正具备数据化思维、能力的企业和专家也就是最近五年才相对体系化地出现的,而那些中小企业很难接触和招聘到这类专家。
更何况,一个好的方案并不是只从技术层面解决了就OK, 还要兼顾业务部门的长短期目标、部门之间的拉扯、向上向下管理等一系列隐性问题,如果不是自身真的经历过类似的项目,是不可能真的站在客户角度来给出方案的。
因此我希望在越来越多的企业重视数据化转型这个大趋势下,更多的有经验的专家能够从甲方跳出来,将自己的经验、思路和方法输出到中小企业上,帮助大家能够更好地迈过这道必须迈过的门槛。